Научная конференция, проведенная 4 декабря прошлого года Национальным институтом корейского языка в Корейской торгово-промышленной палате, расположенной в районе Чун-гу в Сеуле. / Фото: Национальный институт корейского языка
Маргарэт Тэрэзиа
Национальный институт корейского языка, управляемый Министерством культуры, спорта и туризма Республики Корея, ускоряет разработку переводчика корейского языка на основе искусственного интеллекта (ИИ).
Для этого создается корпус текстов, разрабатываемый на основе систематического сбора данных, связанных с корейским языком.
Корпус текстов позволяет преобразовывать языковую информацию, используемую людьми, в форму, пригодную для обработки компьютером. Эти базовые данные помогают ИИ лучше понимать и использовать корейский язык.
Корпус состоит не только из письменных материалов, таких как книги и газетные статьи, но также из разговорных, включая тексты из YouTube-видео, блоги и беседы в мессенджерах. Такие материалы являются ключевыми ресурсами для исследования языка и образования, а также для разработки ИИ.
Национальный институт корейского языка занимается формированием трех видов корпусов: оригинальных (электронных) версий исходного материала без отдельного анализа; проанализированных данных, содержащих конкретную информацию по отдельным предложениям или параграфам; и параллельных, которые включают один и тот же контент на двух или более языках. Все три являются ключевыми факторами в разработке технологий перевода на основе ИИ.
Руководство по переводу корпуса текстов, изданное в 2023 году (слева), и постер международной научной конференции, проведенной Национальным институтом корейского языка в прошлом году. / Фото: Национальный институт корейского языка
Старший научный сотрудник института Пак Ми Ён отметила: «Чтобы заложить прочную основу корейской ИИ-культуры, мы начали проект по созданию параллельного корпуса корейского и иностранных языков для поддержки разработки технологии перевода на основе ИИ для корейского языка».
В 2021 году Министерство культуры, спорта и туризма РК объявило о политике сбора больших данных в индустрии корейского языка и культуры. Поэтому было решено создать параллельный корпус, ориентированный на иностранные языки, для которых наблюдается нехватка данных при переводе на корейский язык.
На основе анализа спроса на изучение корейского языка и потребности в переводе были выбраны восемь языков: русский, узбекский, вьетнамский, индонезийский, тайский, хинди (Индия), кхмерский (Камбоджа) и тагальский (Филиппины).
Корпус был создан не с помощью машинного перевода, а профессиональными переводчиками. Кроме этого, каждый год данные редактируются на основе рекомендаций по переводу, что позволяет гарантировать их высокое качество.
Данные, собранные в 2021-2023 годах, можно найти на официальном сайте «Корпус текстов для всех» (
kli.korean.go.kr/corpus), а данные, собранные в прошлом году, будут опубликованы в конце этого года.
Корпус широко используется для улучшения перевода на основе ИИ. Его изучением занимаются ведущие модели искусственного интеллекта в Корее, такие как HyperClovaX от Naver и A.dot Service от SK Telecom. Поэтому они также представляют высокую ценность и для обучения специалистов по письменному и устному переводу.
Запущенный в 2021 году параллельный корпус корейского и иностранного языков доступен на официальном сайте «Корпус текстов для всех». / Фото: Сайт «Корпус текстов для всех»
Пак Ми Ён подчеркнула: «Число иностранцев в Корее постоянно растет, но услуги перевода в административных и государственных отраслях на некоторых языках по-прежнему отсутствуют. Поэтому важно не останавливаться на достигнутом и после завершения первой фазы проекта (2021-2025) продлить его еще на пять лет до второй фазы (2026-2030) для дальнейшего развития технологии машинного перевода».
«Для повышения производительности ИИ необходимо собирать не только текст, но и другие данные, включая изображения, аудио- и видеоматериалы», – добавила она.
Доступ к корпусам текстов корейского и иностранных языков можно получить бесплатно, подав заявку на сайте «Корпус текстов для всех».
margareth@korea.kr