Как готовится российская база для научных прорывов, "Российской газете" рассказала директор Института филологии, иностранных языков и медиакоммуникации Иркутского государственного университета Марина Ташлыкова. Проект иркутских филологов называется "Устный корпус как инструмент для лингвистических и междисциплинарных исследований". Корпус - это электронное собрание текстов звучащей речи.
Марина Борисовна, а почему в устной речи слова-паразиты вдруг стали совсем не паразитами? Нас же с детства от них отучали.
Марина Ташлыкова: Традиционные грамматики и учебники написаны на материале письменного языка, причем рафинированного. Но когда мы обращаемся к устной речи, выясняется, что наше представление о языке очень одностороннее.
В ней даже границы предложений определяются иначе. А так называемые слова-паразиты (частицы "вот", "ну" и прочие), действительно, оказываются вовсе не паразитами. Они сигнализируют о затруднениях говорящего, о его попытках "настроиться" на слушающего. То есть передают информацию о процессах, происходящих в сознании того, кто говорит.
Мы, кстати, до сих пор недостаточно знаем о роли, которую играет интонационное членение, о строении диалога и полилога (разговора многих участников). О том, как несмотря на многочисленные взаимные перебивы, сбои, наложения реплик и другие шумы, люди все же понимают друг друга.
А зачем вам понадобилась оцифровка устной речи?
Марина Ташлыкова: В 70-е годы прошлого столетия, когда устную речь только начинали изучать, ученые ее записывали и расшифровывали, полагаясь только на свой слух.
Сейчас с помощью новых технологий и программ акустического анализа мы можем буквально разложить речь на "атомы" и сделать это доступным глазу. Мы видим все перебивы, движение тона, в миллисекундах можем измерить паузы и попытаться оценить их значимость.
Изучите вы устную речь. Конечная цель-то какая?
Марина Ташлыкова: Описание ключевых особенностей устной речи - это вклад в решение фундаментальной для современной лингвистики задачи, которую сформулировал директор Института языкознания РАН Андрей Кибрик.
Речь идет о разработке "новой естественной грамматики русского языка, в которой будет подвергнута ревизии грамматическая традиция, основанная на письменном употреблении вербальных средств".
Есть и еще одна интереснейшая задача! Тот материал, который мы изучаем, позволяет лингвистам оценить потенциал выживаемости диалектов как разновидностей национального языка. Они существуют только в устной форме и только на определенной территории.
Как же формируется ваше электронное собрание текстов звучащей речи?
Марина Ташлыкова: Материалом для него послужат две группы текстов. Первая - это аудиозаписи глубинных интервью, которые мы проводили с 2011 года. Это более 100 часов. Каждое интервью длится около часа, информанты отвечают на вопросы о своем прошлом, истории своей семьи, города и страны.
Вторая группа устных текстов собиралась с 2012 года в Баргузинском районе Бурятии в рамках изучения современного состояния сибирских говоров. Это около 92 часов. Нам было интересно посмотреть, в какой степени тот вариант национального языка, на котором здесь говорили, может выдержать натиск цивилизации.
Натиск интернета, наверное, все-таки не выдержал?
Марина Ташлыкова: Ошибаетесь! И люди с высшим образованием, и школьники в повседневной речи постоянно воспроизводят диалектную фонетику и особенности морфологии. Они до сих пор используют особые звуки, отличающиеся от общепринятых.
Например, на месте С" и Ш в словах типа "сено", "сидеть", "машина" употребляют звук, похожий на очень мягкий Ш" (так называемое шепелявенье). Или произносят после мягкого Ч мягкие Г, К ("Чайкю с молочкём выпьем?"). Не различают творительный и дательный падеж ("Как замахал рукам-ногам!") и тому подобное.
Поразительно, что такие особенности сохраняются в речи людей, регулярно пользующихся интернетом, мобильной связью и цифровым телевидением.
Насколько современные технологии готовы к созданию "устного корпуса"?
Марина Ташлыкова: Чтобы изучать весь материал, о котором я вам говорила, его надо, во-первых, представить в письменном виде и, во-вторых, подготовить таким образом, чтобы компьютеру было "удобно" с ним работать.
Как, например, отмечать разнообразные "угу", "ага" и прочие странные звуки, для которых не хватает букв русского алфавита. И которые издает слушающий, сигнализируя говорящему о том, что он следит за мыслью, "не выпадает" из коммуникативного взаимодействия?
Необходима особая транскрипция - система записи устной речи, максимально точно передающая те ее особенности, которые интересуют лингвиста. Разумеется, такие системы существуют. Но новые материалы ставят перед исследователями новые вопросы. И на первом этапе мы сосредоточены на том, чтобы разработать полную, непротиворечивую и максимально удобную систему записи текстов, которые есть в нашем распоряжении.
Она даст возможность перейти к следующему шагу работы - разметке (аннотированию). Разметка - это приписывание текстам и их компонентам специальных меток, среди которых различают внешние и лингвистические. Первые - это, например, сведения о говорящем (возраст, пол, годы жизни и т.д.). Вторые - данные о грамматических, лексических и прочих языковых элементах текста.
Далее мы вместе с IT-специалистами должны подумать и решить, как совместить лингвистическую разметку с собственно машинной логикой. Другими словами, как будут обозначаться обрывы слов, паузы различного типа, как отражаться синтаксические особенности устной речи, неязыковые элементы - кашель, смех, паузы.
Кто ваши IT-партнеры? И какой их интерес в проекте?
Марина Ташлыкова: Все задачи мы решаем вместе со специалистами в сфере компьютерных технологий из Института солнечно-земной физики Сибирского отделения РАН. Для программистов корпус - это своеобразный "полигон" для проверки различных программных разработок в области обработки языковых данных как особой разновидности big data.
Справка "РГ"
Среди партнеров проекта - Государственный институт русского языка им. А. С. Пушкина, Институт русского языка им. В. В. Виноградова РАН, НИУ "Высшая школа экономки", НИУ "Томский государственный университет", Университет им. Кристиана Альбрехта (Киль, ФРГ), Университет им. А. Мицкевича (Познань, Республика Польша) и Народный университет Китая (Пекин).