(Maart 17, 2024) In de schilderachtige bergen van Himachal Pradesh ligt een riviervallei – Kangra – waar warme Himachali-mensen wonen die hun taal en gewoonten koesteren. De prachtige taal breidt zijn invloed uit naar Noord-Punjab, waar de Delhi-tiener Navvye Anand zijn familiale wortels heeft. Hoewel zijn familie zich in Delhi vestigde, blijft zijn band met zijn cultuur en erfgoed sterk door de Kangri-taal. Toen hij ontdekte dat de Kangri-taal op de UNESCO-lijst van tien bedreigde talen stond, voelde hij zich geroepen om actie te ondernemen. “Ik begon te zoeken naar manieren om de taal nieuw leven in te blazen, en concentreerde me vooral op het benutten van het mondelinge medium. Omdat ik het gebrek aan geschreven literatuur in Kangri onderkende, wendde ik me tot ASR (Automated Speech Recognition) – dat menselijke spraak omzet in geschreven tekst”, vertelt hij. Wereldwijd Indiaas.
Traditioneel besteedde de taalwetenschapper urenlang contact met de lokale bevolking om mondelinge tradities handmatig te transcriberen, waarbij ze vaak knelpunten tegenkwamen vanwege de enorme hoeveelheid tijd en moeite die daarvoor nodig was, en de kans op menselijke fouten. “ASR kan worden gebruikt om het transcriptieproces te stroomlijnen. Recente ontwikkelingen op het gebied van AI hebben het mogelijk gemaakt om ASR op een veel hoger niveau te gebruiken dan voorheen”, zegt Navvye, wiens project, Cross-Lingual Automatic Speech Recognition for Endangered Languages, hem de Spirit of Ramanujan Grant opleverde, ter waarde van $4800. Elk jaar kennen de Universiteit van Virginia en de Templeton World Charity Organization gezamenlijk een beurs toe aan middelbare scholieren die blijk geven van uitzonderlijk talent op het gebied van wiskunde en wetenschappen.
Met de beurs ging Navvye naar het Wolfram High School Summer Program in de VS. “Ik leerde van dr. Steven Wolfram, een baanbrekende computerwetenschapper en taalkundige, en ik kreeg de kans om mijn taalkundige vaardigheden te verfijnen en meer over taalkunde te leren”, zegt de tiener, die ook het Euler Circle-programma over getaltheorie bijwoonde. “Ik gebruikte de beurs om mijn opleiding te ondersteunen.”
Liefde voor woorden en talen
Navvye groeide op met een grootvader die meertalig was en zeven talen sprak, en voelde zich aangetrokken tot woorden en talen als een mot tot vlammen. “Mijn liefde voor talen heb ik geërfd, het speelde een cruciale rol in mijn opvoeding”, zegt de tiener, en voegt eraan toe: “We kregen een band dankzij onze gemeenschappelijke liefde voor taal, en elke keer dat ik een nieuwe doos van Pandora vond in een onbekende taal, Ik zou naar hem toe lopen en bespreken. Ik vond het heerlijk om met hem over talen te praten. We fixeerden ons vaak op bepaalde eigenaardigheden van een taal – zoals de gelijkenis tussen shakkar (rietsuiker) – een Urdu-woord en suiker in het Engels. Mijn liefde voor taalkunde zat van nature in mij verankerd.”
Nadat zijn grootvader in 2022 overleed, besloot Navvye hem hulde te brengen door te werken aan het nieuw leven inblazen van een dialect van zijn moedertaal. Bovendien zorgde zijn bezoek aan de regio Kangra Valley in 2018 ervoor dat hij verliefd werd op de warmte van de mensen. “Ze hadden altijd wat folklore of een verhaal te vertellen en waren trots op hun cultuur en erfgoed. Ik vond het paradoxaal dat Kangri een bedreigde taal was, omdat deze mensen van hun cultuur en erfgoed houden. Ik dacht dat als ik hun liefde zou kunnen verenigen met de vooruitgang op het gebied van AI, dat een geweldig project zou zijn om te starten”, onthult hij.
AI gebruiken om Kangri te behouden
Dit bracht hem ertoe artikelen te lezen van eerdere onderzoekers die ASR voor andere talen hadden gebruikt. Een bijzonder intrigerend onderzoek werd gedaan door Emily Prud'hommeaux, een assistent-professor aan het Boston College, die probeerde Seneca, een bedreigde taal in de VS, nieuw leven in te blazen. “Haar onderzoekspapers hebben mij geholpen de methodologie te begrijpen en hoe onderzoekers ASR gebruiken.” Later nam hij contact op met dr. Shweta Chauhan, een onderzoeker aan het National Institute of Technology Hamirpur, die een tekstcorpus voor de Kangri-taal had samengesteld. “Ze nodigde me uit om stage te lopen in haar laboratorium, en sindsdien is ze een mentor van onschatbare waarde.”
Dankzij de innovatie in ASR kunnen taalkundigen gesprekken in hun natuurlijke omgeving opnemen en de essentie ervan vastleggen zonder enig mondeling medium handmatig te digitaliseren. Navvye legt het proces uit en legt uit dat een gewone microfoon in het ASR-model kan worden ingevoerd, wat helpt bij het verkrijgen van een nauwkeurige transcriptie. De audio wordt via ASR omgezet naar tekst. “Momenteel bedraagt de nauwkeurigheid 85 procent, en in de loop van de tijd is het mijn doel om aanvullende gegevens te verzamelen en het systeem te verbeteren om een beoogde nauwkeurigheid van 95 procent te bereiken.” Het project werkt op twee fronten: één waarbij Navvye persoonlijk gegevens verzamelt door gesprekken op te nemen met behulp van ASR, en ten tweede waar hij verbinding maakt met lokale vertalers die hem audiotranscripties sturen met behulp van ASR. “Hierdoor kan ik een robuust audiorepertoire opbouwen. Daarnaast werk ik samen met de Indiase overheid via hun Bhashini-programma, waarbij ik hun middelen inzet om meer Kangri-gegevens te verzamelen. Ik kijk ernaar uit om het audiorepertoire uit te breiden, omdat het een enorme dataset zal opleveren om het model verder te verfijnen met verbeterde nauwkeurigheid.”
Toen Navvye begon was hij pas 15, maar zijn passie om zijn droom in werkelijkheid te vertalen hield hem op de been, samen met de steun van zijn ouders en de mensen van Kangra. Onderweg kwam hij echter enkele technische problemen tegen, voornamelijk gerelateerd aan het verzamelen van gegevens, het opschonen, het selecteren van modellen en het verfijnen ervan. “Nadat ik met andere modellen had geëxperimenteerd, heb ik gekozen voor Whisper van Open AI, het ultramoderne spraakherkenningsmodel. Het is moeilijk om een eenvoudig idee te verwezenlijken, maar als de zaak nobel is, zullen mensen je steunen”, voegt hij eraan toe.
LEES OOK | Induced AI to Karya: AI-startups om naar uit te kijken in 2024
Impact creëren
In de afgelopen twee jaar heeft het werk van Navvye verschillende vertalers de kans gegeven door hen in contact te brengen met multinationals die actief zijn in het Kangri-domein. “Ik heb een aantal vertalers geholpen de benodigde informatie te verzamelen om contact op te nemen met Lenovo, hun LinkedIn-profiel aangemaakt en technische documenten voor hen ingevuld”, zegt Navvye, die ook bewustzijn creëert over het belang van de Kangri-taal onder schoolkinderen. Als je hem vraagt naar de mogelijke reden waarom Kangri een bedreigde taal is, antwoordt hij prompt: “Er spreken nu meer mensen Hindi in vergelijking met Kangri, omdat ze door de mondialisering ervan worden weerhouden hun moedertaal te spreken. Het wordt niet cool genoeg gevonden – iets dat we moeten tegengaan”, zegt de tiener.
Navvye is er trots op de vervagende taal van zijn voorouders te behouden en zegt dat de vrucht van de arbeid enorm is geweest, maar dat de klus nog niet is geklaard. “Er is nog een lange weg te gaan, maar ik ben blij met de manier waarop die is gegaan. Ik voel me vereerd om mee te werken aan het behoud van mijn taal, die een rijke samensmelting is van geschiedenis en discours”, voegt Navvye toe. Omdat hij van plan is dit najaar lid te worden van het California Institute of Technology, wil hij zich blijven inzetten voor het project, met vertrouwen in zijn vermogen om de kracht van technologie te gebruiken om op afstand verder aan het project te werken. “Ik zal een goed ondersteuningssysteem krijgen om mijn kennis te vergroten. Ik heb al een nieuw idee over het classificeren van dialecten met behulp van inbedding die kan helpen verschillende dialecten te clusteren en te identificeren”, onthult Navvye, eraan toevoegend dat het als model voor andere talen kan worden gebruikt.
Navvye geeft advies aan medetieners en vraagt hen om niet langer bang te zijn om de sprong in het diepe te wagen. “Bang zijn om te falen is op zichzelf een teken van falen”, zegt hij, en voegt eraan toe: “Maak je geen zorgen of het wel of niet lukt, je zult je weg wel vinden. Als het niet lukt, leer je gaandeweg iets nieuws. Misschien kun je het aanpassen zodat het in de toekomst beter werkt.”
- Volg Navvye Anand verder LinkedIn