
Как сообщили в пресс-службе Северо-Осетинского госуниверситета (СОГУ), зарегистрированные на платформе волонтеры смогут предлагать свои варианты перевода фраз из обширного корпуса, на основе которого сейчас работает "Яндекс Переводчик". Их будут проверять модераторы-эксперты. Это позволит значительно улучшить точность машинного перевода. В работе задействуют преподавателей и студентов факультета осетинской филологии СОГУ. Благодаря проекту осетинский появится в популярных сервисах, таких как "Яндекс.Алиса" и Giga.Chat. Также можно будет использовать голосовой поиск на осетинском.
- Мы должны предоставить нашей молодежи современные инструменты для изучения родного языка, создать условия, чтобы это было им интересно. Сохранить и развить родной язык в XXI веке - значит дать ему новую жизнь в цифровом пространстве, - заявил на презентации глава РСО - Алания Сергей Меняйло.
Сегодня в "Яндекс Переводчике" доступно 18 языков народов РФ. Среди них осетинский, карачаево-балкарский, кабардино-черкесский, а недавно появились абазинский и ногайский (эти два языка являются государственными в Карачаево-Черкесии, на них говорит около 200 тысяч человек). Пользователи теперь могут переводить тексты с этих языков на более чем сто других и наоборот. Новая возможность пригодится тем, кто хочет почитать тексты на мансийском, абазинском и ногайском или, например, освоить эти языки.
"Для запуска новых языков использовались данные, собранные Карачаево-Черкесским институтом гуманитарных исследований имени Х. Х. Хапсирокова. В рамках проекта "Яндекс" не только добавляет новые языки, но и улучшает качество перевода с помощью нейросетевых технологий, а также развивает технологию распознавания и синтеза речи", - сообщили в пресс-службе компании.
По мнению руководителя секции "Цифровые регионы: лучшие практики и стратегии развития" Совета по развитию цифровой экономики при Совете Федерации Анатолия Курманова, коммерческое использование цифровых национальных языков уже происходит.
- Появление нового языка в сервисе - это новые пользователи и конверсии для цифровых платформ, которые этот язык поддерживают, - сообщил корреспонденту "РГ" Курманов. - В России есть заметная группа граждан, которые не в полной мере свободно владеют русским языком - это старшее поколение в национальных республиках, жители отдаленных населенных пунктов. Для них доступность сервисов на родном языке напрямую влияет на то, будут ли они ими пользоваться. Поэтому проект одновременно решает и государственную, и коммерческую задачу.
Эксперт добавил, что чем точнее человек может сформулировать запрос, тем лучше и релевантнее будет то предложение, которое он получит от сервиса. Это особенно актуально для маркетплейсов, служб доставки и других коммерческих платформ. Если пользователь сможет искать товары и услуги или задавать вопросы на языке, на котором ему удобно думать и говорить, он будет делать это чаще и увереннее. Для платформ это означает большее количество обращений, заказов и выручки.
- При этом поддержка национальных языков остается и важнейшей частью государственной политики: мы сознательно инвестируем в то, чтобы цифровая среда была для людей такой же комфортной, как и офлайн-среда, и не отталкивала языковым барьером, - продолжил Курманов. - Россия - одна из трех стран, обладающих цифровым суверенитетом. У нас есть собственные поисковые системы и крупные платформы, работающие на мировом уровне и понимающие множество иностранных языков. Логично, что они начинают понимать и языки народов нашей страны. Это нормальный путь развития технологий.
По словам эксперта, сложности при оцифровке редких или национальных языков носят рабочий характер. Чтобы обучить нейросеть языку, нужны формализованное описание его правил, подготовленное лингвистами и структурированное совместно с ИТ-специалистами, и корпус текстов, примеров, языковых моделей и литературы, который должен быть размечен, то есть должны быть выделены грамматические формы, склонения, синонимы, контексты употребления.
- Таким образом, главная сложность заключается в объеме и качестве предварительной работы по сбору, оцифровке и разметке языкового материала. При наличии таких данных обучение нейросетей национальным языкам - понятная и решаемая задача, а технологии, которые на этом строятся, будут востребованы и государством, и бизнесом, и самими носителями языков, - заключил Курманов.
Андрей Воробьев, директор Координационного центра доменов .RU/.РФ:
- Безусловно, у цифровизации национальных языков есть не только культурный, но и коммерческий потенциал. Выход национального языка в цифровое пространство создает новую экосистему для развития цифровых сервисов, контента и технологий. Это открывает возможности для создания СМИ, онлайн-порталов, электронных книг, словарей, переводчиков, образовательных платформ и различных приложений на родном языке. Кроме того, цифровизация способствует появлению локальных брендов и усиливает интерес молодежи к истории, культуре и использованию своего языка.
Интернет должен быть одинаково доступен как на русском, так и на всех языках народов России - от поисковых сервисов до адресной строки браузера. Поэтому мы системно развиваем многоязычие в национальном домене .РФ. В августе этого года расширили список символов для домена .РФ, добавив 25 букв из алфавитов 17 государственных языков народов России. Это дало возможность пользователям регистрировать доменные имена на абазинском, адыгейском, алтайском, башкирском, бурятском, ингушском, кабардино-черкесском, калмыцком, коми, марийском, татарском, тувинском, удмуртском, хакасском, чеченском, чувашском и якутском языках.
И теперь к ним присоединяется осетинский язык. После обращения Комитета цифрового развития Северной Осетии с просьбой включить в список символов букву "æ" осетинского алфавита, мы оперативно внесли соответствующие изменения. И с 10 декабря пользователи могут зарегистрировать в домене .РФ имена на осетинском языке.
Но для полноценного использования национального языка одного расширения алфавитов в системе адресации недостаточно. Необходимо, чтобы домены и электронные адреса на национальных языках корректно поддерживались всеми программными продуктами: от браузеров и почтовых клиентов до офисных приложений. Координационный центр ведет большую работу в этом направлении совместно с компаниями-разработчиками, международными организациями и экспертами.
Кроме этого, для того чтобы пользователи могли свободно общаться и работать в интернете на родных языках, необходимо развивать шрифты, интерфейсы, клавиатурные раскладки, образовательные платформы и другие элементы цифровой инфраструктуры. Это комплексная задача, которая требует участия профильных ведомств, научного и технического сообщества, региональных экспертов и бизнеса.