ИИ-приложение проанализирует тибетские тексты - IT Speaker, новости информационных технологий

ИИ-приложение проанализирует тибетские тексты

Редакция

15:00 / 17 июля 2025

Студентка Новосибирского государственного университета (НГУ) создала приложение для автоматического распознавания, оцифровки и анализа старопечатных текстов на тибетском языке. Автор работы Анна Мурашкина для своей разработки использовала изображения страниц классических тибетских текстов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН. 

Фотография unsplash

По словам студентки, работа крайне важна, поскольку исторические рукописи содержат уникальные сведения о философии, религии, медицине, истории и искусстве. Эта информация помогает в изучении культурных традиций региона. Однако со временем, под воздействием различных факторов, бумажные носители разрушаются, что ведет к утрате информации. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится примерно 70 тыс. единиц хроники, которые рискуют быть утерянными. 

Для своей разработки студентка НГУ использовала ИИ, благодаря чему смогла построить модель, которая может распознавать символы тибетского алфавита с изображений, переводить их в читаемый вид. 

«Для этого я вручную выполнила лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем с учетом специфики тибетской графики разработала систему оценки качества оптического распознавания символов (OCR). Далее я провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая потребовала дообучения», – пояснила Анна Мурашкина. 

Дообучение модели она вела на размеченном корпусе документов, а в результате был создан полный модульный алгоритм OCR, включающий этапы предобработки, сегментации, распознавания и постобработки. 

«Мою разработку будут использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также обсуждается возможность сотрудничества с Буддистским центром цифровых технологий, который проводит оцифровку архивов храмов и монастырей. В сотрудничестве с этой организацией мы расширим возможности оцифровки тибетских рукописей с помощью открытых ресурсов, разрабатываемых совместно с исследователями организаций разных стран, чтобы впоследствии каждый человек мог прикоснуться к этому бесценному наследию и ознакомиться с документами, которые находятся в храмах и хранилищах архивов», – добавила Анна Мурашкина. 

Ранее российские ученые обучили искусственный интеллект понимать рукописное слово «шиншилла». Такой навык позволит совершенствовать системы распознавания документов.


Поделиться новостью