24.10.2017 13:30
Общество

Что россияне рассказали о себе в соцсетях

Текст:  Журнал "Кот Шрёдингера" (Алексей Смагин)
Соцсети - один из главных источников больших данных в современном мире. В одном только Фейсбуке каждую минуту появляются 130 тысяч фото, 300 тысяч статусов и полмиллиона комментариев. Мы пишем очередной пост, изучаем любимые группы, лайкаем котиков и даже не задумываемся, что интернет давно уже знает о нас больше, чем родители.
Читать на сайте RG.RU

98 млн россиян зарегистрированы в социальных сетях. Каждый день они делают 31 млн публикаций, выкладывают 9 млн фотографий с людьми, активно выражают одобрение и неодобрение другим пользователям. Данные, которыми мы так щедро делимся, позволяют узнать о нас много интересного: от размера зарплаты до тайной любви к мультфильмам с розовыми пони. Эту информацию используют государство, частные компании, СМИ и независимые исследователи.

Некоторые пользователи закрывают страницы, предоставляя посторонним минимум сведений о себе. Однако если информации нет на странице, это не значит, что ее нет нигде: просто нужно знать, где искать. Анализируя профили и группы в социальных сетях, можно обнаружить комментарии и лайки, оставленные  пользователем. Выдать вас могут снимки с корпоративов, из клубов, отпуска или просто упоминания в публикациях друзей и сообществ.

Будущее еды: распечатать бургер и покормить бактерий

Компания SocialDataHub занимается аналитикой открытых источников в интернете. Ее алгоритм непрерывно сканирует социальные сети, блоги, крупнейшие сервисы отзывов и форумы, сохраняя важные данные на компьютеры компании. Сотрудники SDH видят, когда пользователи создают и удаляют страницы и публикации, могут измерить активность в определенные периоды, а также найти связь между событиями.

Когда данные собраны, их упорядочивают. Удаляют те, что не нужны для обработки, группируют по месту, времени, пользователю или иному параметру. Профили на разных ресурсах объединяют - в этом помогает алгоритм распознавания лиц. Бывает, что в одной соцсети есть фото и реальное имя, в другой - фото, имя и место работы, а на форуме только фото и комментарии. Программы SDH находят все совпадения и собирают информацию о пользователе в единый профиль.

Бывший рекламщик, а ныне специалист по анализу данных Артур Хачуян (гендиректор SDH, преподаватель магистерской программы "Журналистика данных" и куратор специализации "Инфографика и дизайн данных" НИУ ВШЭ) советует не делать в соцсетях ничего, за что может быть стыдно: удалить не получится, вся информация о нас хранится на машинах компании. Например, база самой популярной российской сети "ВКонтакте" у SDH есть с 2010 года.

Почему я счастливый такой

В 2015-м году SocialDataHub впервые провела исследование "Индекс счастья по регионам России". Данные анализировали как за текущий, так и за предыдущий - 2014-й год. Похожую работу тремя годами ранее проделало мониторинговое агентство NewsEffector. Методы исследований различались. В случае NewsEffector жители крупнейших городов России отвечали на вопрос, чувствуют ли они себя счастливыми, а SocialDataHub анализировала социальные сети и другие открытые источники в интернете. Результаты получились… впрочем, смотрите сами.

Какие термины помогут ориентироваться в мире больших данных

Самыми счастливыми в рейтинге SDH оказались москвичи и жители Московской области. В первую десятку вошли также Санкт-Петербург, Ленинградская область, Краснодарский край, Свердловская, Ростовская области, Башкирия, Нижегородская область и Татарстан. В опросе NewsEffector (его проводили по городам, а не по регионам) первые три строчки заняли Грозный, Тюмень и Казань. Москва и Санкт-Петербург не попали даже в топ-10.

Индекс счастья региона SocialDataHub рассчитывала по 27 параметрам (подробный список приведен в конце статьи). Анализировали информацию только о тех пользователях, которые имеют аккаунты в социальных сетях. Для учета плотности населения ввели параметр "проникновение интернета". Город определяли по соответствующей графе в соцсети, меткам геолокации и подпискам на городские группы.

Превратить данные в знание

Хотя большую часть данных для исследования собирали в социальных сетях, некоторые параметры для повышения точности индекса брали из других открытых источников. Средняя стоимость аренды жилья, ЖКХ и продуктовой корзины, а также количество рабочих мест, ДТП и средняя продолжительность жизни - данные, которые можно получить из статистических баз, а также на сайтах с объявлениями. Главные источники здесь Росстат (федеральная служба государственной статистики), ЦИАН (база данных по недвижимости), Avito (сайт с объявлениями о продаже, предоставлении услуг, аренде недвижимости и поиске работы).

О свадьбах и похоронах, кроме как из соцсетей, SDH узнавала из баз данных загсов, а количество гипермаркетов рядом с домом - информация, которую, зная примерный адрес человека, можно получить по онлайн-карте.

Но как узнать примерный адрес? Сотрудники SocialDataHub утверждают, что 80% отметок геолокации, которые мы случайно или намеренно оставляем на фото, - это дом и место работы. Иногда эту информацию можно проверить: некоторые живописуют свои трудовые будни в постах, комментариях или на форумах. Среднюю зарплату можно определить по базам профильных сайтов - HeadHunter и Superjob.

Компьютерное зрение: как работают системы распознавания лиц

Маршруты путешествий определить еще проще - как правило, люди во всеуслышание объявляют, что куда-то уезжают. Выкладывают фотографии, пишут блоги или хотя бы оставляют геометки.

Пользователи часто обмениваются информацией о ценах в любимых кафе в приложениях Foursquare, Swarm, отзывах на картах Google и специализированных сайтах.
Поиск благоустроенных парков - задача более сложная: на эту тему практически всегда пишут в негативном ключе. Чтобы обнаружить места, где приятно побродить, специалисты SDH считали частоту геоотметок, анализировали фотографии и тексты - искали приглашения и радостные отчеты о состоявшихся прогулках. С анализом текста связаны все параметры, описывающие недовольство или удовлетворение чем-либо. Для этого у SDH есть отдельный алгоритм, который разбивает сообщения на составные части - предложения и слова, определяет части речи, а затем конкретные факты и их значение.

Известные личности города - это и звезды, и "лидеры мнений". Причем лидерство определялось не столько по числу подписчиков, сколько по скорости распространения контента. То есть речь идет об авторитетных людях, которые быстро распространяют информацию в определенных кругах: активные мамочки, водители, политические активисты.

Все-таки не очень счастливы

Самое неожиданное в результатах исследования - огромный разрыв между Москвой и любым другим регионом. Если вынести за скобки обе столицы и сопредельные области, средний индекс счастья регионов России за 2015 год составит 308. При этом у Ленинградской области он равен 2378, Санкт-Петербурга - 4845, Московской области - 7865, а у Москвы аж 81 098! Такой результат нельзя объяснить ни доступностью данных о московских объектах, ни количеством контента, который выкладывают москвичи: эти факторы они учли. Вопрос в том, определяет ли индекс именно счастье? Параметры описывают скорее благосостояние регионов и то, как оценивает его жители.

- Россияне не очень счастливы, - говорит Артур Хачуян. - О плохом пишут в два раза чаще, чем о хорошем, выкладывают очень мало фотографий, где улыбаются. Положительные эмоции в соцсетях вызывают прежде всего такие события, как свадьба, окончание вуза, получение престижной работы. Молодежь получает удовольствие еще от мемов и смешных видео.

Параметры для определения индекса счастья

- средняя заработная плата;
- средняя стоимость аренды жилья;
- средняя стоимость ЖКХ;
- средняя цена продуктовой корзины;
- средняя цена обеда в точках общественного питания;
- средняя продолжительность жизни;
- как часто люди улыбаются на фото;
- как часто люди путешествуют;
- количество рабочих мест в городе;
- количество благоустроенных парков;
- количество культурных мероприятий;
- количество детей в семье;
- количество ДТП в городе;
- количество гипермаркетов рядом с домом;
- количество известных земляков;
- количество свадеб;
- количество похорон;
- недовольство/удовлетворение спортивными успехами города;
- недовольство/удовлетворение погодой;
- недовольство/удовлетворение ЖКХ;
- недовольство/удовлетворение медицинскими услугами;
- недовольство/удовлетворение качеством образования;
- недовольство/удовлетворение чистотой города;
- недовольство/удовлетворение работой федеральных властей;
- недовольство/удовлетворение работой региональных властей;
- демографическое равенство (соотношение мужчин и женщин);
- проникновение интернета (процент аккаунтов в социальных сетях от общего числа жителей города).

СМИ и соцсети