11.06.2014 00:29
Digital

Слово "блин" стало самым популярным в русском языке

Как научить компьютер понимать человеческие слова
Текст:  Алексей Дуэль
Российская газета - Федеральный выпуск: №130 (6402)
Понять человека компьютеру мешает незнание современного языка, уверены лингвисты. Чтобы приблизить время, когда машины смогут сами говорить или расшифровывать аудиозаписи, исследователи выясняют, какие выражения и жесты люди используют для названия вполне конкретных предметов и действий. Результаты получаются весьма неожиданные.
Читать на сайте RG.RU

- Известные компьютеру значения слов зафиксированы в словарях, а они обычно довольно сильно отстают от жизни, - объясняет старший научный сотрудник Института русского языка им. В.В. Виноградова Борис Иомдин. - Одним из самых частых по употреблению в последнее время стало слово "зарядка" - в смысле устройство для заряжания батарейки телефона. Но если открыть словари, то у Владимира Даля "зарядка" - принадлежность ружья, в более поздних - комплекс физических упражнений.

Когда мы общаемся между собой, недопонимания не происходит. Есть общее представление о мире, есть интуиция, есть смекалка и все прочее, что помогает человеку понять собеседника. В крайнем случае, если что-то непонятно, всегда можно переспросить. Компьютер же такой возможности лишен.

Самые умные роботы уже понимают окружающий мир на уровне насекомых

- Сейчас активно используют статистический метод, он хорош для частых случаев, но бессилен перед нестандартными ситуациями, - уточняет директор по лингвистическим исследованиям компании ABBYY Владимир Селегей. - В Интернете есть миллиарды текстов, где встречается то или иное слово, и можно легко выяснить, в каком контексте его используют чаще всего. Другой вариант - собрать данные о пользователе. Сейчас это делают все поисковики. Если кто-то ищет информацию о "банках", но при этом известно, что за компьютером сидит молодой человек, который прежде интересовался "квартирой" и "ипотекой", то нетрудно догадаться, что ему нужны кредитные учреждения, а не трехлитровая тара для заготовки домашних солений и варенья.

А что делать, если фраза для обработки уникальна, про личность говорящего и прочие детали вообще ничего не известно? Тут за дело берутся специалисты по компьютерной лингвистике. Они пытаются придумать алгоритмы понимания истинного смысла сказанного или написанного, которые помогут машине соориентироваться в человеческой многозначительности.

Самый сложный случай для них - когда машине надо не просто понять написанный человеком текст, но и как-то его обработать. Например, перевести на другой язык. А для этого надо очень точно понять, в каком смысле использовано каждое слово. У Агаты Кристи есть фраза: "Я смогла вытянуть кое-что из посудомойки". О чем это? Кухонный триллер о взбесившейся бытовой технике или описание разговора хозяйки дома с прислугой? Чтобы компьютер мог сам это понять, людям приходится проводить целые исследования.

Новый вирус-блокировщик атакует русскоязычных пользователей Android

- Мы берем корпуса русского языка - это современные базы данных, в которые вошли самые разные тексты, - и выясняем, как и где чаще используются какие слова, - продолжает Борис Иомдин. - Кстати, между делом узнали, что самое популярное слово русского языка - "блин". Как частица, конечно, а не существительное. Но для нас интереснее частота использования слова с тем или иным значением. Эти данные позволяют построить рейтинг - что мог иметь в виду человек, когда он что-то говорит или пишет. В итоге машина сможет точнее понимать любые тексты, а при генерации собственных - использовать правильные обороты.

Оказывается, что одной речи для понимания человеческих слов недостаточно. Определить точное значение фразы можно, только если прислушиваться к интонациям, а еще лучше - наблюдать за жестами и мимикой говорящего, уверена старший научный сотрудник Института русского языка Елена Гришина.

- Есть простые признаки, - объясняет она. - Когда человек говорит, что чего-то не будет делать он сам, качает головой, а когда высказывает мнение о поведении кого-то другого, подтверждает свое отрицательное суждение жестом руки. Если человек сообщает точные факты - держит пальцы кольцом. Взгляд влево означает, что человек вспоминает что-то из уже прошедшего, а вправо - думает о возможном будущем или не слишком уверен в своей информации. Перебирает пальцами - подбирает слово. Для машины, которая занимается расшифровкой и анализом человеческой речи, все эти видимые признаки могут быть ключом к пониманию истинного смысла фразы из десятков возможных.

Технологии