05.11.2003 01:55
Культура

Ищите между строк

Клиенты интернет-магазина "Амазон" могут подбирать книги по ключевым словам в их содержимом
Текст:  Александр Гагин
Российская газета - Федеральный выпуск: №0 (3338)
Читать на сайте RG.RU

Это огромное число, но в продаже книг гораздо больше. Почему не все они доступны? Дело в том, что главная сложность такого проекта - даже не в технических, а в юридических проблемах: магазину необходимо разрешение держателей авторских прав для того, чтобы показывать страницы из книг публике. На старте проекта "Амазону" удалось договориться со 190 издательствами. И это довольно много - в результате можно искать среди 30 миллионов страниц. Причем для того чтобы посмотреть изображение страницы книги, нужно зарегистрироваться с указанием данных кредитной карты, и для проверки ее работоспособности будет проведена блокировка одного доллара на счете. Причем можно смотреть не сколько угодно страниц, а только ту, на которой встретилось искомое слово: две предыдущие и две следующие. Кроме того, можно посмотреть обложки книги и выбранную издателем выдержку - еще несколько страниц. Каждая страница выглядит так же, как в настоящей книге, но с дополнительной надписью: "На материал распространяются авторские права". И, случайно или намеренно, на этой странице нельзя нажать правую кнопку мыши, чтобы сохранить страницу у себя на диске или внести ее в закладки. В общем, можно с комфортом ознакомиться с товаром, но не читать книгу прямо в магазине - все, как в жизни. Предполагается, что потенциальный покупатель заинтересуется и, чтобы читать дальше, тут же закажет себе эту книгу. Судя по первым результатам, ожидания не обманулись: продажи книг, которые включены в новую поисковую систему, возросли на 9%.

Правда, по-русски система не ищет, да и не так уж много в этом американском магазине книг на русском языке.

Интересен не сервис "Амазона" как таковой, а новый подход. Раньше тексты книг и сами книги в Интернете существовали без связи друг с другом: отдельно - книжные магазины, отдельно - библиотеки текстов. Теперь схема видна всем, и можно было бы ожидать, что и отечественные интернет-магазины пойдут по этому пути. Только вот это - дорогое удовольствие. Чтобы отсканировать все страницы книг, уложить их в единую базу данных и организовать быстрый поиск, нужно немало времени и дорогое оборудование.

По оценкам Максима Мошкова, создателя крупнейшей русской интернет-библиотеки lib.ru, база данных "Амазона" содержит в 15 раз больше данных, чем все тексты в его библиотеке; в 6 раз больше, чем все отсканированные русские тексты. Расходы на создание подобной системы можно оценить суммой от 1 миллиона долларов (это нереальная, минимальная оценка) до 10 миллионов, что более правдоподобно. А поскольку такой сервис - это лишь один из рекламных инструментов интернет-магазина, сложно ожидать появления в обозримом будущем подобной системы для книг на русском языке. Скорее появятся подобные услуги у американских порталов. Сразу после запуска новинки "Амазоном" о планах устроить нечто подобное заявила крупнейшая поисковая система Google.com. Они тоже хотят договориться с издателями и проиндексировать тексты книг, чтобы при поиске в Интернете пользователи находили те книги, в которых встречаются нужные слова. При этом доступна будет только аннотация книги, а не весь текст.

У Российской государственной библиотеки есть проект OREL: "Открытая русская электронная библиотека", расположенный по адресу orel.rsl.ru. Он содержит без малого 5 тысяч книг, страницы большей части из них доступны в виде картинок, и меньше половины - в виде полных текстов с возможностью поиска. В отличие от коммерческого "Амазона" этот проект сфокусирован на культурных, исторических, научных и учебных книгах. Хотя и не специалистам будут интересны книги XIX века - например, альбомы с видами дореволюционных городов. Тем более что так доступны не только книги, но и карты, и плакаты. Разработка OREL была первым подходом к проблеме построения электронной библиотеки, и теперь на повестке дня - создание Национальной электронной библиотеки, которая находится на стадии подготовки концепции. Немаловажная часть этого нового проекта - решение вопросов авторских прав. Тут наши и американские сложности близки.

Литература Интернет