(三月17,2024) 在喜马偕尔邦风景秀丽的山脉中,有一个河谷——康格拉——这里是热情的喜马偕尔人的家园,他们珍视自己的语言和习俗。这种美丽的语言将其影响力扩展到了旁遮普北部——德里青少年纳维·阿南德 (Navvye Anand) 的家族根源就在那里。尽管他的家人定居在德里,但他通过康日语言与自己的文化和传统保持着紧密的联系。当他发现康日语被列入联合国教科文组织10种濒危语言名单时,他感到有必要采取行动。 “我开始寻找振兴语言的方法,主要关注于利用口头媒介。认识到《Kangri》中书面文学的匮乏,我转向了 ASR(自动语音识别)——它将人类语音转换为书面文本。”他说道 全球印度人.
传统上,语言学家需要花费数小时与当地人接触,手动转录口头传统,但由于需要大量的时间和精力以及人为错误的范围,经常会遇到瓶颈。 “ASR 可用于简化转录过程。人工智能的最新进展使得 ASR 的使用水平比以前更高。”Navvye 补充道,他的项目“濒危语言的跨语言自动语音识别”为他赢得了拉马努金精神奖,价值 4800 美元。每年,弗吉尼亚大学和坦普尔顿世界慈善组织都会联合向在数学和科学方面表现出杰出天赋的高中生颁发助学金。
另请阅读 | Manu Chopra:通过人工智能初创公司为 30,000 名印度农村人口提供有尊严的数字化工作
凭借这笔资助,Navvye 参加了美国 Wolfram 高中的暑期项目。 “我向史蒂文·沃尔夫拉姆博士学习,他是一位计算机科学家和语言学家的先驱,我有机会提高自己的语言能力并了解更多关于语言学的知识,”这位还参加了数论欧拉环计划的青少年说道。 “我用这笔补助金来支持我的教育。”
对文字和语言的热爱
纳维和一位精通七种语言的祖父一起长大,他对文字和语言的兴趣就像飞蛾扑火一样。 “我对语言的热爱是与生俱来的,它在我的成长过程中发挥了至关重要的作用,”这位青少年说道,并补充道,“我们因对语言的共同热爱而团结在一起,每次我发现一个未知语言的新潘多拉魔盒时,我都会我走到他面前并讨论。我喜欢和他谈论语言。我们经常会关注一种语言的某些特性,例如乌尔都语单词 shakkar(粗糖)与英语中的“糖”之间的相似之处。我对语言学的热爱是与生俱来的。”
2022 年,他的祖父去世后,纳维决定通过努力振兴他的母语方言来表达敬意。而且,2018年对坎格拉谷地区的访问让他爱上了这里人民的热情。 “他们总是有一些民间传说或故事要讲,并对自己的文化和传统感到自豪。我认为康日语是一种濒临灭绝的语言是自相矛盾的,因为这些人热爱他们的文化和传统。我想如果我能将他们的热爱与人工智能的进步结合起来,那么这将是一个伟大的项目,”他透露道。
利用人工智能保护 Kangri
这促使他阅读了过去将 ASR 用于其他语言的研究人员的论文。波士顿学院助理教授 Emily Prud'hommeaux 进行了一项特别有趣的研究,她试图重振塞内卡语——一种在美国濒临灭绝的语言。 “她的研究论文帮助我了解了方法论以及研究人员如何使用 ASR。”后来,他联系了哈米尔普尔国立理工学院的研究员 Shweta Chauhan 博士,后者为 Kangri 语言策划了一个文本语料库。 “她邀请我去她的实验室实习,从那时起她就一直是一位非常宝贵的导师。”
ASR 的创新使语言学家能够在自然环境中记录对话并捕捉其本质,而无需手动数字化任何口头媒介。在解释这一过程时,Navvye 详细说明了可以将常规麦克风输入到 ASR 模型中,这有助于提供准确的转录。音频正在通过 ASR 转换为文本。 “目前,准确度为 85%,随着时间的推移,我的目标是收集更多数据并增强系统,以实现 95% 的目标准确度。”该项目在两个方面进行:一是 Navvye 通过使用 ASR 记录对话来亲自收集数据,二是他与当地翻译人员联系,后者使用 ASR 向他发送音频转录。 “这使我能够构建强大的音频库。此外,我还通过印度政府的 Bhashini 计划与他们合作,利用他们的资源收集更多 Kangri 数据。我期待着扩展音频库,因为它将提供大量数据集,以进一步微调模型并提高准确性。”
Navvye 开始工作时年仅 15 岁,但他将梦想变为现实的热情让他在父母和坎格拉人民的支持下继续前进。然而,一路走来,他遇到了一些技术问题,主要涉及数据收集、清理、模型选择和微调。 “在尝试了其他模型之后,我选择了 Open AI 的 Whisper,这是最先进的语音识别模型。实现一个简单的想法很困难,但当事业崇高时,人们就会支持你,”他补充道。
另请阅读 | Karya 引入 AI:2024 年值得期待的 AI 初创公司
产生影响
在过去两年中,Navvye 的工作通过将各种翻译人员与在 Kangri 领域运营的跨国公司联系起来,为他们提供了帮助。 “我帮助几位翻译收集了联系联想所需的信息,创建了他们的 LinkedIn 个人资料,并为他们填写了技术文档,”Navvye 说道,他还致力于让学童认识到 Kangri 语言的重要性。当问他 Kangri 成为濒临灭绝语言的潜在原因时,他立即回答说:“与 Kangri 相比,现在更多的人说印地语,因为全球化阻止他们讲自己的母语。这被认为不够酷——我们需要对此予以反击。”这名青少年说道。
纳维很自豪能够保存祖先逐渐消失的语言,他说,我们的劳动成果是巨大的,但工作还没有完成。 “还有很长的路要走,但我对目前的进展感到满意。我很荣幸能够加入到保护我的语言的努力中,这种语言是历史和话语的丰富融合。”Navvye 补充道。由于他计划今年秋天加入加州理工学院,他希望继续致力于该项目,并对自己利用技术的力量进一步远程推进该项目的能力充满信心。 “我将有一个适当的支持系统来增强我的知识。我已经有了一个关于使用嵌入对方言进行分类的新想法,这可以帮助对不同的方言进行聚类并识别它们,”Navvye 透露,并补充说它可以用作其他语言的模型。
纳维向其他青少年提出建议,要求他们不要害怕迈出信仰的一步。 “害怕失败本身就是失败的标志,”他说道,并补充道,“不要担心是否会成功,你会找到自己的出路。万一它不起作用,你会在这个过程中学到新的东西。也许你可以对其进行调整,以便它在未来发挥更好的作用。”
- 关注 Navvye Anand LinkedIn