Доход пользователей Twitter научились определять по содержанию твитов

Москва. 2 октября. INTERFAX.RU - Группа психологов и специалистов по информационным технологиям из нескольких американских и английских университетов совместно с Microsoft Research научились предсказывать годовой доход пользователей Twitter в Великобритании по темам твитов, выражаемым в них эмоциям и наиболее часто употребляемым словам, сообщает N+1 со ссылкой на журнал PLoS ONE.

Для этого ученые разработали специальный алгоритм обработки естественной письменной речи, при помощи которого "просеяли" базу данных из более чем 10 млн твитов.

В Великобритании все существующие виды работ делятся на 9 классов, организованных в иерархическую систему в зависимости от содержания той или иной трудовой деятельности и необходимых для ее выполнения навыков (The Standard Occupational Classification). Ученые отобрали 5191 Twitter-аккаунт, владельцы которых представляли все 9 существующих классов трудовой занятости. Для оценки среднегодового дохода представителей разных типов профессий использовались данные "Ежегодного исследования затрат рабочего времени и доходов" (Annual Survey of Hours and Earnings) за 2013 год, проводимого Национальной статистической службой Великобритании. Таким образом, ученые сформировали экспериментальную базу из более чем 10 млн твитов.

На втором этапе исследования все твиты были «просеяны» через специальный алгоритм, отбирающий специфические слова, которые наиболее часто используют представители каждого из 9 классов профессий. Так как в подавляющем большинстве случаев люди пользуются примерно одинаковыми тезаурусами наиболее употребительных слов, алгоритм должен был выделить отдельные группировки слов. Потом они проверялись учеными вручную, и на их основе формировались особые категории кодов. Например, темы твитов могли подразделяться на категории "политика", "фондовые рынки", "спорт" и т.д. Эмоционально окрашенные слова и выражения на "страх", "гнев", "возмущения", "ругань", "обращения к богу" и т.д.

Выяснилось, что чем выше годовой доход владельца Twitter-аккаунта, тем он чаще выражает в твитах эмоции страха и гнева. А оптимистичные и жизнеутверждающие твиты, наоборот, характерны для людей с низкими доходами. Те, кто зарабатывал мало, были также склонны к перебранкам в Twitter с другими пользователями, а также открытым выражением своей религиозности (в большинстве случаев - христианской), в то время как более богатые люди чаще всего обсуждали политику, дела корпораций и некоммерческих общественных организаций.

Общий вывод ученых таков – представители классов с высоким доходом склонны использовать Twitter для быстрого распространения новостей и обсуждения деловых тем и вопросов, тогда как представители классов с низким доходом больше пользуются Twitter для обыденного общения и перебранок друг с другом.

На основании полученных данных можно решать и обратную задачу – предсказывать доход пользователей Twitter на основании тем сообщений и ключевых слов, однако, чтобы эти прогнозы были максимально точными и корректными, требуются дополнительные исследования.

Новости