(Março de 17, 2024) Nas pitorescas montanhas de Himachal Pradesh existe um vale fluvial – Kangra – que abriga o caloroso povo Himachali que valoriza sua língua e costumes. A bela língua estende sua influência ao norte de Punjab – onde o adolescente Navvye Anand de Delhi tem suas raízes familiares. Embora sua família tenha se estabelecido em Delhi, sua conexão com sua cultura e herança permanece forte através da língua Kangri. Ao descobrir que a língua Kangri estava na lista das 10 línguas ameaçadas de extinção da UNESCO, ele se sentiu chamado a agir. “Comecei a buscar formas de revitalizar a linguagem e foquei principalmente em potencializar o meio oral. Reconhecendo a escassez de literatura escrita em Kangri, recorri ao ASR (Automated Speech Recognition) – que converte a fala humana em texto escrito”, conta ele Índio global.

Navvye Anand
Tradicionalmente, os linguistas passavam horas interagindo com a população local para transcrever manualmente as tradições orais, encontrando frequentemente gargalos devido à enorme quantidade de tempo e esforço necessários, juntamente com a margem para erros humanos. “ASR pode ser usado para agilizar o processo de transcrição. Avanços recentes em IA tornaram possível usar ASR em um nível muito mais alto do que antes”, acrescenta Navvye, cujo projeto, Reconhecimento Automático de Fala Cross-Lingual para Línguas Ameaçadas, rendeu-lhe o prêmio The Spirit of Ramanujan Grant, no valor de US$ 4800. Todos os anos, a Universidade da Virgínia e a Organização Mundial de Caridade Templeton concedem conjuntamente uma bolsa a estudantes do ensino médio que demonstrem talento excepcional em matemática e ciências.
Com a bolsa, Navvye participou do Programa de Verão da Wolfram High School nos EUA. “Aprendi com o Dr. Steven Wolfram, que é um cientista da computação e linguista pioneiro, e tive a oportunidade de refinar minhas habilidades linguísticas e aprender mais sobre linguística”, diz o adolescente, que também participou do Programa Euler Circle sobre teoria dos números. “Usei a bolsa para apoiar minha educação.”
Amor por palavras e idiomas
Crescendo com um avô poliglota fluente em sete idiomas, Navvye foi atraído por palavras e idiomas como uma mariposa pela chama. “Meu amor pelas línguas é herdado, desempenhou um papel crucial na minha educação”, diz o adolescente, acrescentando: “Nós nos unimos por causa do nosso amor comum pelas línguas, e cada vez que eu encontrava uma nova caixa de Pandora em um idioma desconhecido, eu ' iria até ele e discutiria. Adorei conversar sobre idiomas com ele. Muitas vezes nos fixamos em certas peculiaridades de um idioma – como a semelhança entre shakkar (açúcar mascavo) – uma palavra urdu e açúcar em inglês. Meu amor pela linguística estava inatamente enraizado em mim.”
Após o falecimento de seu avô em 2022, Navvye decidiu homenageá-lo trabalhando para revitalizar um dialeto de sua língua nativa. Além disso, sua visita à região do Vale Kangra em 2018 fez com que ele se apaixonasse pelo carinho do povo. “Eles sempre tiveram algum folclore ou uma história para contar e tinham orgulho da sua cultura e herança. Achei paradoxal que o Kangri fosse uma língua ameaçada porque estas pessoas amam a sua cultura e herança. Achei que se pudesse unir o amor deles aos avanços em IA, seria um ótimo projeto para começar”, revela.


Usando IA para preservar Kangri
Isso o levou a ler artigos de pesquisadores anteriores que usaram ASR para outras línguas. Um estudo particularmente intrigante foi realizado por Emily Prud'hommeaux, professora assistente no Boston College, que tentou revitalizar o Sêneca – uma língua ameaçada de extinção nos EUA. “Seus trabalhos de pesquisa me ajudaram a entender a metodologia e como os pesquisadores usam a ASR.” Mais tarde, ele procurou a Dra. Shweta Chauhan, pesquisadora do Instituto Nacional de Tecnologia de Hamirpur, que fez a curadoria de um corpus de texto para a língua Kangri. “Ela me convidou para estagiar em seu laboratório e, desde então, tem sido uma mentora inestimável.”
A inovação em ASR permite aos linguistas gravar conversas no seu ambiente natural e capturar a sua essência sem digitalizar manualmente qualquer meio oral. Explicando o processo, Navvye explica que um microfone normal pode ser inserido no modelo ASR, o que ajuda a fornecer uma transcrição precisa. O áudio está sendo convertido em texto via ASR. “Atualmente, a precisão é de 85% e, com o tempo, meu objetivo é coletar dados adicionais e aprimorar o sistema para atingir uma precisão alvo de 95%.” O projeto opera em duas frentes – uma, onde Navvye coleta pessoalmente dados gravando conversas usando ASR, e a segunda, onde ele se conecta com tradutores locais que lhe enviam transcrições de áudio usando ASR. “Isso me permite construir um repertório de áudio robusto. Além disso, estou fazendo parceria com o governo indiano por meio do programa Bhashini, aproveitando seus recursos para coletar mais dados Kangri. Estou ansioso para expandir o repertório de áudio, pois isso fornecerá um vasto conjunto de dados para ajustar ainda mais o modelo com maior precisão.”
Quando Navvye começou, ele tinha apenas 15 anos, mas sua paixão por transformar seu sonho em realidade o fez continuar com o apoio de seus pais e do povo de Kangra. No entanto, ao longo do caminho ele encontrou alguns contratempos técnicos em sua jornada, principalmente relacionados à coleta de dados, limpeza, seleção de modelos e ajuste fino. “Depois de experimentar outros modelos, optei pelo Whisper da Open AI, que é o modelo de reconhecimento de fala de última geração. É difícil concretizar uma ideia simples, mas quando a causa é nobre as pessoas apoiam”, acrescenta.
LEIA TAMBÉM | IA induzida para Karya: startups de IA aguardadas em 2024
Criando um impacto
Nos últimos dois anos, o trabalho de Navvye capacitou vários tradutores, conectando-os a multinacionais que operam no domínio Kangri. “Ajudei alguns tradutores a reunir as informações necessárias para entrar em contato com a Lenovo, criei seu perfil no LinkedIn e preenchi documentos técnicos para eles”, diz Navvye, que também está conscientizando sobre a importância da língua Kangri entre as crianças em idade escolar. Pergunte-lhe a razão potencial por trás do Kangri ser uma língua ameaçada, ele prontamente responde: “Mais pessoas estão agora falando Hindi em comparação com o Kangri, pois são dissuadidas de falar o seu dialeto nativo devido à globalização. Não é considerado legal o suficiente – algo que precisamos combater”, diz o adolescente.


Orgulhoso de preservar a língua enfraquecida de seu ancestral, Navvye diz que o fruto do trabalho tem sido imenso, mas o trabalho ainda não terminou. “Há um longo caminho a percorrer, mas estou feliz com o andamento das coisas. Tenho a honra de unir esforços para a preservação da minha língua, que é um rico amálgama de história e discurso”, acrescenta Navvye. Como ele planeja ingressar no Instituto de Tecnologia da Califórnia neste outono, ele deseja permanecer comprometido com o projeto, confiante em sua capacidade de utilizar o poder da tecnologia para continuar trabalhando remotamente no projeto. “Terei um sistema de apoio adequado para aprimorar meus conhecimentos. Já tenho uma nova ideia sobre a classificação de dialetos usando embeddings que podem ajudar a agrupar diferentes dialetos e identificá-los”, revela Navvye, acrescentando que pode ser usado como modelo para outras línguas.
Dando conselhos a outros adolescentes, Navvye pede-lhes que parem de ter medo de dar um salto de fé. “Ter medo do fracasso é um sinal do próprio fracasso”, diz ele, acrescentando: “Não se preocupe se vai dar certo ou não, você encontrará o seu caminho. Caso não dê certo, você aprenderá algo novo no processo. Talvez você possa ajustá-lo para que funcione melhor no futuro.”
- Siga Navvye Anand em LinkedIn



