14.12.2021 12:09
Воронеж

Как работать с большими данными в современных условиях

Текст:  Евгений Каюмов (серийный предприниматель, инвестор)
Российская газета - Экономика Центрального округа: №283 (8634)
Автоматизированный сбор и анализ веб-данных сегодня востребован в самых разных сферах - от электронной коммерции до рекрутинга. Основные технологии - парсинг и скрейпинг - очень близки по сути и, как правило, используются в связке. Говоря простым языком, скрейпинг - это процесс извлечения большого объема данных со страниц веб-ресурсов, а парсинг - процесс обработки, форматирования и систематизации этих данных с помощью синтаксического анализа. Все вместе помогает бизнесу делать выводы и принимать решения на основе big data.
Читать на сайте RG.RU

Цены на подобные услуги варьируются от 50 до 15 тысяч долларов - в зависимости от объемов данных. Если говорить про частных клиентов (например, продавцов на Amazon), то, как правило, речь идет о 100-200 долларах в месяц. Для корпоративных клиентов средний чек около 2000 долларов США в месяц.

Заранее известная цена, мониторинг скорости, голосовой помощник: 7 ключевых технологий рынка такси

Для чего чаще всего используют скрейпинг и парсинг?

Во-первых, для мониторинга цен. В электронной торговле масштаб применения этих технологий будет расти в геометрической прогрессии. Онлайн-магазины используют парсинг для отслеживания и сравнения цен, скидок, ассортимента и стоимости дополнительных услуг.

Представьте, что вы хотите купить шкаф определенной модели и сравниваете предложения в нескольких интернет-магазинах. Первый добавляет к стоимости шкафа тысячу рублей за доставку и подъем на нужный вам этаж, второй - 500, а третий - всего 400. Конечно, вы выберете последний вариант. Выходит, что первый магазин упустил потенциального клиента в вашем лице просто потому, что поленился проверить цены конкурентов.

Еще один пример сбора веб-данных подают агрегаторы предложений для путешественников. Скрейпинг-бот (парсер) собирает и сравнивает информацию о стоимости билетов, отелей, аренды машин. Он постоянно анализирует сотни источников, включая другие агрегаторы, чтобы представить пользователям самые выгодные варианты. Если раньше все это приходилось делать руками, то сейчас автоматизация позволяет существенно экономить время и деньги.

Онлайн-магазины используют парсинг для отслеживания и сравнения цен, скидок, ассортимента

Второй сценарий применения big data - конкурентная разведка, маркетинговый анализ и стратегическое планирование. С помощью парсинга можно провести исследование рынка или отдельной продуктовой ниши, сделать глубокий анализ конкурентов, а затем выстроить или скорректировать свой брендинг и бизнес-стратегию. Благодаря скрейпингу можно отслеживать потребительские настроения, продуктовые запросы и тренды - это делается путем выявления топовых продуктов на основе лайков и отзывов (на сайтах типа Amazon или eBay), анализа вишлистов и списков совершенных покупок.

Росфинмониторинг назвал самый популярный способ отмывания денег

Третий сценарий - отслеживание поисковой выдачи. Тут скрейпинг обеспечивает крупномасштабный и точный анализ данных с локализованных поисковых страниц (как правило, с помощью резидентных прокси-серверов) для SEO-оптимизации. Чтобы видеть результат поисковой выдачи на конкретной территории, необходим анализ по каждому региону с локальных устройств. Популярные SEO-платформы регулярно собирают результаты выдачи примерно по 40 миллионам ключевых фраз, чтобы помочь пользователям улучшить свои позиции в поисковых системах. Также речь может идти о регулярном трекинге онлайн-присутствия, имиджа и репутации.

Четвертое популярное направление для работы с большими данными - лидогенерация и создание базы контактов. Инструменты парсинга позволяют составлять списки потенциальных B2B- и B2C-клиентов, которым может быть интересен ваш продукт. Для этого могут использоваться, например, лендинги компаний или соцсети, которые хранят массу информации о целевой аудитории.

Парсингом активно пользуются, к примеру, в сфере найма. Вместо того чтобы вручную отсматривать анкеты соискателей, HR-отдел может собрать данные профилей с платформ типа LinkedIn и HeadHunter, составить базу квалифицированных специалистов, ищущих работу, и отфильтровать ее по нужным параметрам. Можно зайти еще дальше и предоставить искусственному интеллекту выбрать кандидата, наиболее подходящего под описание вакансии.

Парсинг позволяет собирать и систематизировать контакты с различных сайтов и страниц в соцсетях. На выходе - удобные списки данных по текущим или будущим клиентам, поставщикам и производителям (Ф. И. О., наименования компаний, номера телефонов, e-mail и так далее).

Наконец, пятый сценарий - это производство контента. Работа над качеством содержимого сайта - один из важнейших способов белой оптимизации. Для наращивания трафика нужно индексироваться поисковиками по правильному набору ключевых слов. Маркетологам необходимо четко понимать, как должен выглядеть контент и какие темы должны затрагиваться на сайте. Для этого нужно собрать и глубоко проанализировать выдачу поисковых систем по конкурентам. С помощью парсинга можно найти резонансные страницы, выделить пул ключевых слов и список релевантных тем (заголовки статей). Полученные данные помогут копирайтерам сформулировать выигрышную контент-стратегию, написать актуальные материалы и увеличить читательский охват.

Грядет главная распродажа года: Как не попасться на сомнительные скидки

Но в данной сфере есть и негативные примеры: агрегация новостей, автоблогинг, бессовестное копирование чужого контента. Неслучайно многие сайты в правилах пользования прописывают запрет на автоматический сбор информации. К примеру, Financial Times запрещает "скрейпинг контента" и "создание баз данных из систематически и/или регулярно собираемого контента FT". Почему? Боты могут украсть уникальный контент, защищенный авторским правом, продублировать его на другом сайте и тем самым нанести ущерб SEO-ранжированию.

На данный момент парсинг находится в серой зоне с точки зрения этики и закона. Одни борются за открытость, прозрачность и доступность данных, другие говорят, что собирать их - пусть даже из открытых источников - неэтично. Хотя как таковой сбор данных существует давно, парсеры его лишь упростили. Нужно задать правила игры, которые помогут сфере развиваться. Данные не могут быть публичными и непубличными одновременно, нужно скорее определиться, что мы считаем общедоступным, а что нет.

Воронеж Центральная Россия