(Март 17, 2024) В живописных горах Химачал-Прадеша находится долина реки Кангра, где живут теплые люди Химачали, которые дорожат своим языком и обычаями. Красивый язык распространил свое влияние на Северный Пенджаб, где у подростка из Дели Навви Ананда есть свои семейные корни. Хотя его семья поселилась в Дели, его связь со своей культурой и наследием остается сильной благодаря языку кангри. Обнаружив, что язык кангри входит в список 10 языков, находящихся под угрозой исчезновения ЮНЕСКО, он почувствовал необходимость принять меры. «Я начал искать способы оживить язык и сосредоточился в первую очередь на использовании устной среды. Осознав нехватку письменной литературы в Кангри, я обратился к ASR (автоматическому распознаванию речи), которое преобразует человеческую речь в письменный текст», — рассказывает он. Глобальный индийский.
Традиционно лингвисты часами работали с местным населением, чтобы вручную расшифровать устные традиции, часто сталкиваясь с узкими местами из-за огромного количества времени и усилий, которые требовались, а также из-за возможности человеческих ошибок. «ASR можно использовать для оптимизации процесса транскрипции. Недавние достижения в области искусственного интеллекта позволили использовать ASR на гораздо более высоком уровне, чем раньше», — добавляет Навви, чей проект «Межъязыковое автоматическое распознавание речи для исчезающих языков» принес ему грант «Дух Рамануджана» на сумму 4800 долларов. Каждый год Университет Вирджинии и Всемирная благотворительная организация Темплтона совместно присуждают грант старшеклассникам, демонстрирующим исключительные таланты в области математики и естественных наук.
Благодаря гранту Навви посетила летнюю программу средней школы Вольфрама в США. «Я учился у доктора Стивена Вольфрама, новаторского ученого-компьютерщика и лингвиста, и у меня была возможность усовершенствовать свои лингвистические способности и узнать больше о лингвистике», — говорит подросток, который также посещал программу Эйлера по теории чисел. «Я использовал грант для поддержки своего образования».
Любовь к словам и языкам
Выросшая вместе с дедушкой, который был полиглотом и свободно говорил на семи языках, Наввье привлекали слова и языки, как мотылька к огню. «Моя любовь к языкам унаследована, она сыграла решающую роль в моем воспитании», — говорит подросток, добавляя: «Нас сблизила общая любовь к языку, и каждый раз, когда я находил новый ящик Пандоры на неизвестном языке, я Подойду к нему и обсудю. Мне нравилось говорить с ним о языках. Мы часто зацикливаемся на определенных особенностях языка – например, на сходстве между шаккаром (неочищенным пальмовым сахаром) – словом на урду и сахаром в английском языке. Моя любовь к лингвистике была заложена во мне врожденно».
После того, как его дедушка скончался в 2022 году, Наввье решил отдать ему должное, работая над возрождением диалекта своего родного языка. Более того, его визит в регион долины Кангра в 2018 году заставил его влюбиться в теплоту людей. «У них всегда был какой-то фольклор или история, и они гордились своей культурой и наследием. Я подумал, что это парадоксально, что кангри находится под угрозой исчезновения, потому что эти люди любят свою культуру и наследие. Я подумал, что если я смогу объединить их любовь с достижениями в области искусственного интеллекта, то это будет отличный проект для начала», — рассказывает он.
Использование ИИ для сохранения Кангри
Это побудило его прочитать статьи прошлых исследователей, которые использовали ASR для других языков. Одно особенно интригующее исследование было проведено Эмили Прюдоммо, доцентом Бостонского колледжа, которая попыталась возродить сенека – язык, находящийся под угрозой исчезновения в США. «Ее исследовательские работы помогли мне понять методологию и то, как исследователи используют ASR». Позже он обратился к доктору Свете Чаухан, исследователю из Национального технологического института Хамирпура, которая курировала корпус текстов для языка кангри. «Она пригласила меня пройти стажировку в ее лаборатории, и с тех пор она стала для меня бесценным наставником».
Инновации в ASR позволяют лингвистам записывать разговоры в их естественной среде и улавливать их суть, не оцифровывая устный носитель вручную. Объясняя процесс, Навви уточняет, что в модель ASR можно подключить обычный микрофон, что поможет обеспечить точную транскрипцию. Звук преобразуется в текст через ASR. «В настоящее время точность составляет 85 процентов, и со временем моя цель — собрать дополнительные данные и усовершенствовать систему для достижения целевой точности в 95 процентов». Проект работает на двух фронтах — один, где Наввье лично собирает данные, записывая разговоры с помощью ASR, и второй, где он соединяется с местными переводчиками, которые присылают ему аудиотранскрипции с помощью ASR. «Это позволяет мне создать надежный аудиорепертуар. Кроме того, я сотрудничаю с правительством Индии через их программу Бхашини, используя их ресурсы для сбора большего количества данных о Кангри. Я с нетерпением жду расширения звукового репертуара, поскольку он предоставит обширный набор данных для дальнейшей точной настройки модели».
Когда Наввье начал, ему было всего 15, но его страсть воплотить свою мечту в реальность помогла ему идти вперед при поддержке родителей и жителей Кангры. Однако по пути он столкнулся с некоторыми техническими заминками, в первую очередь связанными со сбором данных, очисткой, выбором модели и тонкой настройкой. «После экспериментов с другими моделями я остановился на Whisper от Open AI, который представляет собой современную модель распознавания речи. Трудно воплотить в жизнь простую идею, но когда дело благородное, люди тебя поддержат», — добавляет он.
ТАКЖЕ ЧИТАЙТЕ | Индуцированный ИИ для Карии: ИИ-стартапы, которых стоит ожидать в 2024 году
Создание воздействия
За последние два года работа Навви расширила возможности различных переводчиков, связав их с транснациональными корпорациями, работающими в регионе Кангри. «Я помог нескольким переводчикам собрать необходимую информацию для связи с Lenovo, создал их профиль в LinkedIn и заполнил для них техническую документацию», — говорит Навви, который также занимается повышением осведомленности о важности языка кангри среди школьников. Спросив его о потенциальной причине того, что кангри находится под угрозой исчезновения, он тут же отвечает: «Сейчас больше людей говорят на хинди, чем на кангри, поскольку их отговаривают говорить на своем родном диалекте из-за глобализации. Это считается недостаточно крутым, и нам нужно этому противостоять», — говорит подросток.
Гордый тем, что сохранил увядающий язык своего предка, Наввье говорит, что плоды труда огромны, но работа еще не завершена. «Предстоит пройти долгий путь, но я доволен тем, как он идет. Для меня большая честь присоединиться к усилиям по сохранению моего языка, который представляет собой богатое сочетание истории и дискурса», — добавляет Наввье. Поскольку этой осенью он планирует поступить в Калифорнийский технологический институт, он хочет оставаться преданным проекту, будучи уверенным в своей способности использовать возможности технологий для дальнейшей удаленной работы над проектом. «У меня будет соответствующая система поддержки для расширения моих знаний. У меня уже есть новая идея о классификации диалектов с использованием вложений, которые могут помочь сгруппировать различные диалекты и идентифицировать их», — рассказывает Наввье, добавляя, что ее можно использовать в качестве модели для других языков.
Давая советы подросткам, Наввье просит их перестать бояться сделать решительный шаг. «Боязнь неудачи сама по себе является признаком неудачи», — говорит он и добавляет: «Не волнуйтесь, получится это или нет, вы найдете свой путь. Если не получится, в процессе вы узнаете что-то новое. Возможно, вы сможете настроить его так, чтобы в будущем он работал лучше».
- Следите за Наввье Анандом дальше LinkedIn