«Важно не упустить момент»: как учёные СВФУ создают будущее для якутского языка

На базе СВФУ реализуются проекты по интеграции языков народов Севера в цифровую среду. Учёные занимаются разработкой и тестированием таких технологий, как машинный перевод, распознавание речи, создание языковых корпусов и обучение нейросетей, способных понимать и использовать якутский язык. В центре внимания — сохранение и развитие якутского языка с помощью систем перевода, распознавания речи и языковых моделей. Своим опытом и разработками с ЯСИА поделился коллектив СВФУ.
Работа ведётся в двух лабораториях СВФУ — международной научно-исследовательской лаборатории «Лингвистическая экология Арктики» и молодёжной лаборатории «Вычислительные технологии и искусственный интеллект» Института математики и информатики. Учёные подчеркивают: в условиях стремительного развития технологий важно не упустить момент, когда родной язык можно внедрить в искусственный интеллект.

От перевода до голосовых помощников
В университете уже ведётся разработка систем автоматического перевода с русского на якутский и наоборот, а также с якутского на английский. Кроме того, создаются технологии распознавания и синтеза речи.
«Можно будет разговаривать с голосовым помощником на родном языке, что особенно актуально для детей, — попросить рассказать сказку на эвенкийском, задать вопрос на юкагирском и получить ответ», — говорят в лаборатории. Такие технологии также очень важны для людей пожилого возраста, одиноких или имеющих ограниченные возможности живого общения. Ведь общение помогает замедлить процессы потери когнитивных функций пожилых людей.
Прототипы таких систем уже существуют, в том числе и в СВФУ. Однако пока они работают с ошибками, что естественно для раннего этапа.

Топ-5 технологий лаборатории
- Синтез и распознавание якутской речи.
- Машинный перевод на русский, английский и наоборот.
- Создание языковых корпусов и баз по диалектам.
- Прототип нейросети на якутском языке.
- Математическое моделирование языковых процессов.
Сотрудники собирают и обрабатывают большой языковой и социолингвистический материал по различным улусам республики, проводят опросы, интервью и лингвистические эксперименты – все это послужит подспорьем для создания качественного языкового материала на якутском языке и его диалектах, а также на языках коренных малочисленных народов Севера.

ИИ учится на якутском
В рамках проекта «Лаборатория искусственного интеллекта», созданного совместно со Сбербанком и правительством Якутии, учёные занимаются переводом тысяч обучающих инструкций для нейросетей с английского на якутский.
«Это очень трудоёмкий процесс, — отмечают сотрудники. — Важно не просто перевести слова, а сделать так, чтобы «машина» поняла логику задания и дала лучший ответ. Это большая ответственность: ИИ может выучить неправильную информацию и потом воспроизводить её».
Также исследователи участвовали в создании системы синтеза речи и записи для ИИ на якутском языке. Следующим шагом станет адаптация этих технологий и для других языков народов Якутии.

Можно ли обучить нейросеть пословицам?
«Да, но для этого потребуется большое количество времени и усилий. Понимать такого рода сложные когнитивные явления — это следующий этап в развитии ИИ на языке», — подчеркивают специалисты. Чтобы понять смысл пословицы, машине нужно видеть не только текст, но и контексты, в которых она употребляется, а также обладать знаниями о культуре, истории и менталитете народа.
«То есть искусственный интеллект должен правильно оперировать знаниями культурного кода народа. Кстати, имеются интересные исследования по тестированию знания культурного кода у YandexGPT» -, добавляют они.
Также в лаборатории работают и над реконструкцией утраченных языковых форм. Изучается происхождение юкагирского языка, лексика якутского, включая названия растений, животных и природных объектов. Это направление — одно из ключевых.
Реконструкция утраченных языковых форм может помочь создать или воссоздать полную картину флоры и фауны нашей республики, что в настоящее время имеет особую актуальность в связи с изменениями не только климатического, но и антропогенного характера.

«Если загрузить достаточное количество данных, можно научить «машину» говорить, например, на древнетюркском языке», — отмечают исследователи.
Мировой опыт: от Гавайев до Якутии
Примером успешной цифровизации является гавайский язык. С 2018 года его можно изучать в Duolingo, где количество изучающих выросло с 20 тысяч до 600 тысяч за четыре года. Также создано браузерное расширение, переводящее видео на гавайский.
В России аналогом стал голосовой помощник Ayana на эвенкийском языке, доступный через станцию «Алиса».
Образование, наука и чат-боты
«Сотрудники лаборатории ведут занятия для студентов СВФУ. Используются цифровые базы, моделируется речевое поведение носителей, обрабатываются диалекты», — делятся в лаборатории.
Уже создан прототип якутского чат-бота на ИИ. Он пока отвечает на простые запросы, но со временем сможет вести полноценный диалог. В будущем он должен стать якутским аналогом ChatGPT или DeepSeek.
«Молодежь живёт «внутри технологий», и язык должен быть представлен в цифровом пространстве, чтобы говорить с ней на одном уровне», — подчёркивают учёные. Курс на валирийском языке из «Игры престолов» в Duolingo — яркий пример того, что даже искусственные языки могут быть «модными».
Главный вызов — нехватка данных
«Принципы, методы и технологии обработки естественного языка в целом уже разработаны, — объясняют исследователи. — Необходимо адаптировать это под особенности конкретного языка, например под специфические буквы и звуки якутского языка. Но основная сложность заключается в нехватке большого объема «размеченных» данных».
По словам сотрудников лаборатории, ИИ можно сравнить с учеником: если ему дать плохие материалы, он выучит язык с ошибками. Именно поэтому сейчас акцент сделан на лингвистически качественной разметке текстов
Поддержка
Сейчас лаборатория обрабатывает языковой материал, собранный в рамках экспедиций в арктических улусах. Он станет основой корпусов не только якутского, но и языков коренных малочисленных народов Севера. Также создаются математические модели для прогнозирования языковой ситуации, что поможет в языковой политике.


Несмотря на усилия, лаборатория пока не получала поддержку по государственной программе Якутии по развитию языков. Тем не менее учёные уверены: ключевую роль должно играть государство.
«Сейчас же отрадно видеть, что волнующихся за внедрение якутского языка в цифровую среду становится все больше, соответственно, существуют различные методы поддержки таких проектов из различных источников – начиная с индивидуальных инициатив, продолжая заинтересованностью со стороны бизнеса, реального сектора экономики, научных, образовательных организаций и т. д. Однако, по нашему мнению, лидирующую и связующую роль здесь играет государство, так как это в первую очередь вопрос национального уровня», — отмечает коллектив лаборатории.
Инновации будущего
Разработки, которые сегодня ведутся в лабораториях СВФУ, способны кардинально изменить будущее родных языков. По мнению специалистов, если искусственный интеллект сможет свободно общаться на родном языке, это станет событием, сравнимым по значимости с тем, как почти сто лет назад радио впервые заговорило на якутском.
«Сейчас будущее родных языков зависит от баланса глобальных и локальных факторов», — подчёркивают исследователи. В мировом контексте активно изучаются возможности когнитивной лингвистики, в том числе технологии преобразования мыслей в речь. Такие разработки открывают перспективы общения для людей с нарушениями речи, например парализованных.
Ведутся и фундаментальные исследования в области создания так называемого общего искусственного интеллекта (AGI — Artificial General Intelligence), который объединит разные системы и сможет действовать на уровне человеческого мышления.
На фоне стремительного развития технологий учёные подчёркивают необходимость срочной, системной и координированной работы на местном уровне. «Очень важно не упустить момент, уже через несколько лет может быть поздно», — говорят специалисты. Именно сейчас, считают они, следует объединить усилия всех, кто неравнодушен к судьбе родных языков, чтобы обеспечить им устойчивое развитие в цифровую эпоху.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: