Бизнесу в помощь
Польза data science (науки о данных) для развития бизнеса сегодня признана многочисленными исследованиями рынка. Чем обоснован интерес? В данных содержится скрытая эффективность: анализ информации позволяет совершенствовать продукт, делать его нужным для целевой аудитории, а также привлекать клиентов. Самыми распространенными бизнес-моделями являются модель отклика, когда после рекламной кампании алгоритм выборочно рассылает предложения тем клиентам, кто, вероятнее всего, на них откликнется, и модель оттока - прогнозирование момента, когда человек захочет отказаться от услуг. На этом этапе клиента стараются "удержать" - предлагают персональную скидку или привлекательную акцию.
Все более популярным становится data-driven-маркетинг - обработка данных и прогнозирование на их основе наиболее "приятного" пути для развития компании. Метод также включает в себя отслеживание метрик, составление отчетов и принятие решений на основе данных. Data-driven-подход к выпуску продукта минимизирует риски "провала" - благодаря машинному обу-
чению и алгоритмам система персонализирует рекламные сообщения, группирует людей по категориям, создает к ним разные подходы, а также получает обратную связь. Согласно данным международной консалтинговой компании McKinsey, data-driven-компании привлекают в 23 раза больше клиентов и в шесть раз лучше их удерживают.
Неверующие гиганты
Аналитика уже давно подтвердила свою эффективность на практике и доказала, что любой бизнес-вопрос можно решить и спрогнозировать на основе имеющихся данных. Несмотря на это, еще очень много компаний не используют data science в своей деятельности или используют, но не доверяют результатам. Причем, по словам бизнес-аналитика проекта Яндекса "Партия еды" Елены Чернышевой, "неверующими" в силу информации могут оказаться даже "гиганты" рынка.
- В больших компаниях своя крайность: не все понимают, что машинное обучение - это не чудо. Оно не сможет принести быстрых и эффективных решений одномоментно. Действие начинается с долгой и кропотливой работы - сбора данных. Затем их нужно обработать. Это может занять месяцы. При этом на больших масштабах иногда выгоднее не использовать машинное обучение для мелких задач, а уточнять информацию, задействуя асессора - привлеченного человека. И это тоже будет решением, - поясняет эксперт.
В пример бизнес-аналитик приводит сегодняшнюю организацию работы всех агрегаторов такси. Почему они растут и остаются так популярны? Дело в том, что программисты и аналитики компаний все время работают над оптимизацией процессов внутри. Сокращают длительность "простоя" водителя и даже оптимизируют время таксиста в пути: когда водитель собирается закончить рабочий день, за час до этого он говорит программе о своем намерении и алгоритм выстраивает заказы так, чтобы с каждым последующим человек оказывался все ближе к своему дому.
Именно благодаря подобным алгоритмам, построенным на анализе данных, люди платят меньше, при этом получая больше удобств. Без таких систем "в минусе" оставались бы обе стороны: таксист "простаивал" бы часами, ожидая заказы поблизости, а пассажир переплачивал, так как не имел бы возможности выбирать.
"Подсказывающие" решение
Другой сферой, которую сегодня "захватывает" цифровизация, стала медицина. В основе этой науки лежат данные. Можно провести параллель: врачи, как и алгоритмы, собирают информацию, выявляют симптомы, обращаются к своим знаниям и опыту и, наконец, ставят диагноз и назначают лечение.
Развитие data science и программного обеспечения упрощает человеческий труд: разрабатываются системы, выявляющие болезнь и "подсказывающие" правильное решение врачу. В будущем, как прогнозируют специалисты, станет возможно учитывать весь генетический код человека.
Алгоритм, в отличие от людей, можно обучить неограниченному набору прецедентов: дать ему все истории болезней людей с определенным заболеванием, он изучит закономерности и сделает вывод. Именно таким образом в 2011 году алгоритм после помещения в него тысячи образцов раковых клеток молочной железы смог выявить 11 признаков заболевания. Примечательно, что в то время медицине были известны лишь восемь таких признаков.
Цифровое здравоохранение сегодня представлено также в смартфоне или "умных часах" практически каждого человека: одно приложение контролирует пульс, другое считает пройденные шаги и сожженные калории, третье высчитывает, сколько часов потребуется, чтобы выспаться. Анализ и сбор данных происходит всегда. Делиться собственными данными или нет, решает каждый человек самостоятельно. При этом в России функция снятия электрокардиограммы при помощи часов от Apple отсутствует. Возможно, это связано с необходимостью регистрировать девайс как медицинское устройство.
Постоянный сбор информации с мобильных приложений сегодня делает жизнь людей с хроническими заболеваниями безопаснее: для больных эпилепсией создано специальное приложение. Смартфон отслеживает физическую активность человека, прием лекарств и тяжесть приступов. На основании данных алгоритм выстраивает прогноз: когда может случиться следующий приступ. Если во время внезапного падения рядом с больным никого не окажется, приложение само вызовет скорую помощь. Также этой осенью большая международная команда исследователей анонсировала новую разработку - датчик, реагирующий на движения человека. Он обнаруживает 85 процентов тяжелых ночных приступов эпилепсии, в то время как предыдущая разработка (датчик, встроенный в кровать) справлялась с задачей лишь на 21 процент.
Анализ данных пригодится также в диагностике редких заболеваний. По словам старшего научного сотрудника ИПУ РАН и дата-сайентиста Варвары Цурко, алгоритм может поставить диагноз лучше врача, если заболевание встречается меньше чем у одного процента населения.
- Проблема обучения такого алгоритма - несбалансированная выборка. Классы людей будут сильно различаться по размерам. И алгоритм может ошибаться и относить всех к здоровым 99 процентам. Бороться с этим можно так: искусственно увеличить меньший класс, заболевших, до размера большего с помощью алгоритма SMOTE: он строит окрестность, где лежат объекты меньшего класса, соединяет их линиями и на пересечении генерирует дополнительные объекты, - поясняет эксперт.
Несмотря на стремительное развитие data science, полностью ставить диагноз и "лечить" пациентов машины не будут. Начало века цифрового здравоохранения наступит чуть позже. По словам эксперта, специалистам и аналитикам предстоит решить еще очень много задач. Во-первых, понять, возможно ли научить алгоритм интуиции? Сегодня, найдя определенные признаки, он назначит больному десятки обследований, в то время как живой врач, опираясь на опыт и профессиональную интуицию, направит на пару процедур точечно. Во-вторых, решить самую сложную, этическую проблему: всегда ли человек должен знать свой "безоговорочный" диагноз - степень заболевания и прогноз? Или иногда все же нужен человеческий подход?