Разработка барнаульского ученого способна определять авторство любого текста в считанные секунды

Программа, созданная доцентом АлтГТУ, кандидатом филологических наук Олегом Голованем, в считанные секунды выдает массу полезной информации о любом тексте.

Как говорит сам разработчик, программа "LangFracDim" позволяет сделать заметный шаг в развитии нейролингвистического программирования. Определением частоты употребленных в тексте слов ученые занимаются уже многие десятилетия.

- Анализ текста происходит практически мгновенно, - рассказал "РГ" Олег Валерьевич. - Относительно долгим может оказаться лишь процесс его загрузки. Например, чтобы загрузить собрание сочинений Солженицына, потребуется чуть более полутора часов. Однако представьте, сколько времени потратил бы на их анализ человек - и эта цифра покажется нам ничтожной.

В основе работы программы лежит подсчет частоты употребления каждого из слов, встретившихся в тексте. Как применять результаты такого вычисления - дело фантазии исследователя, возможностей у "LangFracDim" множество. "Прочитанное" программа анализирует с точки зрения таких параметров, как разнообразие и богатство языка, принадлежность слов к определенной группе, корню и так далее… Кроме того, слова, встретившиеся в тексте, проверяются еще и на их общую медиа-распространенность - для этого в программу заложен "Частотный словарь языка СМИ", составленный Олегом Голованем. Итог анализа предстает перед исследователем в виде графика.

- Он строится на основе логарифмированной функции, - объясняет ученый. - Не вдаваясь в подробности, можно сказать, что прямая линия с угловым коэффициентом близким к единице будет означать: текст идеален - язык разнообразен, насыщен главными частями речи и написан грамотным человеком.

По мнению разработчика, эта простая функция могла бы заметно помочь в обучении юных журналистов и филологов. Программа изначально и создавалась именно с научно-учебной целью. Она уже применяется учеными Москвы и Томска в филологических исследованиях.

Вообще, если с простым подсчетом частотности словоупотребления справлялись и существующие офисные программы, то многофакторный анализ текста до появления "LangFracDim" машинам был не под силу. Умная программа с легкостью отыщет среди мегабайтов текста слова той или иной категории. Так, не составит труда протестировать неизвестный текст, скажем, на цензурность - нужно лишь в графу "поиск" ввести слова искомого сниженного стиля. С помощью "электронного лингвиста" можно определить и авторство текста. Достоверность экспертного решения, считает Олег Головань, будет близка к 100 процентам.

Помимо удовлетворения любопытства литературных критиков подобное сопоставление текстов могло бы сослужить добрую службу и практикам, скажем, из правоохранительных органов.

Кстати, в Институте интеллектуальной собственности программу "LangFracDim" зарегистрировали как оригинальную, а на VIII Московском международном салоне инноваций и инвестиций ее отметили специальным дипломом ВВЦ.

Трудно сказать, существуют ли ее аналоги за границей. Прежде чем начать разработку, Олег Головань пытался найти готовую программу с подобными функциями, и поиски эти успехом не увенчались.

P.S.

Разработка Олега Голованя "Программный комплекс для обработки текстов" получила диплом минобрнауки РФ на международной ярмарке техники и технических достижений "Technical Fair-2008" в Белграде.