Новости

12.07.2006 00:30
Рубрика: Digital

Находчивые роботы

Новая российская поисковая машина WebAlta.ru начала публичное тестирование.

Пользователи пробуют новый сервис с энтузиазмом: по сообщению разработчиков, серверы обрабатывают более 40 запросов в секунду. Впечатления пользователей сильно отличаются - одни ругают некачественные результаты поиска и удивляются, зачем нужен еще один поисковик. Другие считают, что все не так плохо, напоминают, что это только тестирование, и желают успехов. В самом деле, задача, за которую взялись новички, чрезвычайно сложна. Нынешние поисковые машины так мощны и популярны, что даже обслуживать пользователей с не меньшим качеством, чем у них, - это уже проблема. И даже искать не хуже, все равно непросто будет убедить пользователей изменить пристрастия и пользоваться "Вебальтой", а не на "Яндексом" или "Гуглом". Последние два сервиса - нынешние лидеры среди поисковых машин. "Яндекс" предпочитают в России (портал посещают более 3,5 млн. человек в средний рабочий день, из них 3,2 млн. пользуются поиском), "Гугл" - за рубежом (в том числе русскоязычные пользователи за границей).

Впрочем, даже если привлечь малую долю пользователей Интернета, это уже огромная аудитория, потому что поиск - самый популярный сервис и основной способ навигации по сайтам. Когда-то с ним успешно конкурировали каталоги сайтов, собранные редакторами. Но теперь сайтов стало столько, что каталоги слишком сложно поддерживать в актуальном состоянии, показывая исчерпывающую картину Интернета. А вот поисковые "роботы" автоматически и регулярно обходят все страницы, которые только могут найти. Поэтому поисковые сервера гораздо лучше знают, где в Интернете находится то, что ищет пользователь. Но это требует гигантских вычислительных мощностей. Новая машина Webalta проиндексировала 227 миллионов документов более 6 терабайт объемом. У "Яндекса" охват гораздо шире: миллиард документов, без малого 25 терабайт информации. У "Гугла" с его международным охватом - еще больше. Это - безумные объемы данных, по которым не то что искать сложно - даже скопировать с одного компьютера на другой, стоящий рядом, и то потребуются несколько суток. Еще бы, это ведь по сути копия почти всего Интернета! Хотя, конечно, эти файлы не хранятся на одном-единственном сверхмощном компьютере. Поисковые машины обслуживают целые "фермы" серверов, каждый из которых занят свой задачей: одни собирают информацию, другие обрабатывают, третьи хранят, четвертые обслуживают запросы пользователей и т.д. Это отдельная и очень недешевая технология. Поэтому приходится только удивляться, когда новые компании решают выстроить еще один поисковый сайт и идут на соответствующие затраты без гарантии успеха. И это ведь еще не считая сложности самих алгоритмов: выдавать в результатах поиска именно те сайты, которые хотел увидеть пользователь - очень сложно. В жизни смысл слов мы определяем по контексту: кто, когда, в каких условиях что-то сказал. У поисковой машины контекста запроса обычно нет. Поэтому приходится угадывать, что пользователь хочет. Чтобы первой же строкой в результатах выдать именно то, что человек искал: на меньшее он не согласен. Тем более когда поисковая машина используется в качестве инструмента навигации и пользователь хочет не найти где-нибудь информацию, а сразу попасть на конкретный сайт. То есть на запрос "Российская газета" надо первым делом выдавать адрес www.rg.ru, а не список отечественных газет.

И все-таки технологическая проблема - как оперировать такими массивами данных - страшнее. Поэтому есть так называемые мета-поисковые машины, которые рассылают запрос пользователя в другие поисковики, а затем собирают результаты и обрабатывают их, показывая в выдаче единую картину. Например, машина Nigma.ru группирует результаты по подобию. Это называется кластеризацией, по-английски так делает поисковик Clusty.com. В некоторых случаях такой подход помогает найти то, что не удается отыскать в результатах обычного поиска. По данным счетчиков liveinternet.ru, с поисковой машины Nigma.ru приходит 0,2 процента всех поисковых запросов. Процент мизерный, но результат неплох, учитывая, что это доля от всех пользователей российского Интернета. То есть ею пользуются десятки тысяч человек. Результаты Webalta.ru пока в несколько раз ниже.

Digital Интернет