10.06.2014 23:29
    Поделиться

    Слово "блин" стало самым популярным в русском языке

    Как научить компьютер понимать человеческие слова
    Понять человека компьютеру мешает незнание современного языка, уверены лингвисты. Чтобы приблизить время, когда машины смогут сами говорить или расшифровывать аудиозаписи, исследователи выясняют, какие выражения и жесты люди используют для названия вполне конкретных предметов и действий. Результаты получаются весьма неожиданные.

    - Известные компьютеру значения слов зафиксированы в словарях, а они обычно довольно сильно отстают от жизни, - объясняет старший научный сотрудник Института русского языка им. В.В. Виноградова Борис Иомдин. - Одним из самых частых по употреблению в последнее время стало слово "зарядка" - в смысле устройство для заряжания батарейки телефона. Но если открыть словари, то у Владимира Даля "зарядка" - принадлежность ружья, в более поздних - комплекс физических упражнений.

    Когда мы общаемся между собой, недопонимания не происходит. Есть общее представление о мире, есть интуиция, есть смекалка и все прочее, что помогает человеку понять собеседника. В крайнем случае, если что-то непонятно, всегда можно переспросить. Компьютер же такой возможности лишен.

    - Сейчас активно используют статистический метод, он хорош для частых случаев, но бессилен перед нестандартными ситуациями, - уточняет директор по лингвистическим исследованиям компании ABBYY Владимир Селегей. - В Интернете есть миллиарды текстов, где встречается то или иное слово, и можно легко выяснить, в каком контексте его используют чаще всего. Другой вариант - собрать данные о пользователе. Сейчас это делают все поисковики. Если кто-то ищет информацию о "банках", но при этом известно, что за компьютером сидит молодой человек, который прежде интересовался "квартирой" и "ипотекой", то нетрудно догадаться, что ему нужны кредитные учреждения, а не трехлитровая тара для заготовки домашних солений и варенья.

    А что делать, если фраза для обработки уникальна, про личность говорящего и прочие детали вообще ничего не известно? Тут за дело берутся специалисты по компьютерной лингвистике. Они пытаются придумать алгоритмы понимания истинного смысла сказанного или написанного, которые помогут машине соориентироваться в человеческой многозначительности.

    Самый сложный случай для них - когда машине надо не просто понять написанный человеком текст, но и как-то его обработать. Например, перевести на другой язык. А для этого надо очень точно понять, в каком смысле использовано каждое слово. У Агаты Кристи есть фраза: "Я смогла вытянуть кое-что из посудомойки". О чем это? Кухонный триллер о взбесившейся бытовой технике или описание разговора хозяйки дома с прислугой? Чтобы компьютер мог сам это понять, людям приходится проводить целые исследования.

    - Мы берем корпуса русского языка - это современные базы данных, в которые вошли самые разные тексты, - и выясняем, как и где чаще используются какие слова, - продолжает Борис Иомдин. - Кстати, между делом узнали, что самое популярное слово русского языка - "блин". Как частица, конечно, а не существительное. Но для нас интереснее частота использования слова с тем или иным значением. Эти данные позволяют построить рейтинг - что мог иметь в виду человек, когда он что-то говорит или пишет. В итоге машина сможет точнее понимать любые тексты, а при генерации собственных - использовать правильные обороты.

    Оказывается, что одной речи для понимания человеческих слов недостаточно. Определить точное значение фразы можно, только если прислушиваться к интонациям, а еще лучше - наблюдать за жестами и мимикой говорящего, уверена старший научный сотрудник Института русского языка Елена Гришина.

    - Есть простые признаки, - объясняет она. - Когда человек говорит, что чего-то не будет делать он сам, качает головой, а когда высказывает мнение о поведении кого-то другого, подтверждает свое отрицательное суждение жестом руки. Если человек сообщает точные факты - держит пальцы кольцом. Взгляд влево означает, что человек вспоминает что-то из уже прошедшего, а вправо - думает о возможном будущем или не слишком уверен в своей информации. Перебирает пальцами - подбирает слово. Для машины, которая занимается расшифровкой и анализом человеческой речи, все эти видимые признаки могут быть ключом к пониманию истинного смысла фразы из десятков возможных.

    Поделиться