(März 17, 2024) In den malerischen Bergen von Himachal Pradesh befindet sich ein Flusstal – Kangra – die Heimat des herzlichen Himachali-Volkes, das seine Sprache und Bräuche schätzt. Die schöne Sprache erstreckt sich bis in den nördlichen Punjab – wo der Teenager Navvye Anand aus Delhi seine familiären Wurzeln hat. Obwohl sich seine Familie in Delhi niederließ, bleibt seine Verbindung zu seiner Kultur und seinem Erbe durch die Kangri-Sprache stark. Als er herausfand, dass die Kangri-Sprache auf der UNESCO-Liste der zehn gefährdeten Sprachen stand, fühlte er sich zum Handeln berufen. „Ich begann nach Möglichkeiten zu suchen, die Sprache wiederzubeleben, und konzentrierte mich hauptsächlich auf die Nutzung des mündlichen Mediums. Da ich den Mangel an schriftlicher Literatur in Kangri erkannte, wandte ich mich an ASR (Automated Speech Recognition) – das menschliche Sprache in geschriebenen Text umwandelt“, erzählt er Globaler Inder.
Traditionell verbrachten Linguisten Stunden damit, mit Einheimischen zusammenzuarbeiten, um mündliche Überlieferungen manuell zu transkribieren, wobei es aufgrund des enormen Zeit- und Arbeitsaufwands sowie der Möglichkeit menschlicher Fehler häufig zu Engpässen kam. „ASR kann verwendet werden, um den Transkriptionsprozess zu rationalisieren. Jüngste Fortschritte in der KI haben es möglich gemacht, ASR auf einem viel höheren Niveau als zuvor zu nutzen“, fügt Navvye hinzu, dessen Projekt „Cross-Lingual Automatic Speech Recognition for Endangered Languages“ ihm den „Spirit of Ramanujan Grant“ in Höhe von 4800 US-Dollar einbrachte. Jedes Jahr vergeben die University of Virginia und die Templeton World Charity Organization gemeinsam ein Stipendium an Oberstufenschüler, die außergewöhnliche Talente in Mathematik und Naturwissenschaften beweisen.
Mit dem Stipendium nahm Navvye am Wolfram High School Summer Program in den USA teil. „Ich habe von Dr. Steven Wolfram gelernt, einem bahnbrechenden Informatiker und Linguisten, und ich hatte die Gelegenheit, meine sprachlichen Fähigkeiten zu verfeinern und mehr über Linguistik zu lernen“, sagt der Teenager, der auch am Euler Circle-Programm zur Zahlentheorie teilnahm. „Ich habe das Stipendium genutzt, um meine Ausbildung zu unterstützen.“
Liebe zu Wörtern und Sprachen
Navvye wuchs bei einem polyglotten Großvater auf, der sieben Sprachen fließend beherrschte, und fühlte sich zu Wörtern und Sprachen hingezogen wie eine Motte zur Flamme. „Meine Liebe zu Sprachen ist vererbt, sie spielte eine entscheidende Rolle in meiner Erziehung“, sagt der Teenager und fügt hinzu: „Wir verbanden uns durch unsere gemeinsame Liebe zur Sprache, und jedes Mal, wenn ich eine neue Büchse der Pandora in einer unbekannten Sprache fand, Ich würde zu ihm gehen und mit ihm reden. Ich habe es geliebt, mit ihm über Sprachen zu reden. Wir haben uns oft auf bestimmte Besonderheiten einer Sprache konzentriert – etwa auf die Ähnlichkeit zwischen Shakkar (Jaggery) – einem Urdu-Wort und Zucker im Englischen. Meine Liebe zur Linguistik war von Natur aus in mir verankert.“
Nach dem Tod seines Großvaters im Jahr 2022 beschloss Navvye, ihn zu ehren, indem er sich für die Wiederbelebung eines Dialekts seiner Muttersprache einsetzte. Darüber hinaus verliebte er sich bei seinem Besuch in der Region Kangra Valley im Jahr 2018 in die Herzlichkeit der Menschen. „Sie hatten immer etwas Folklore oder eine Geschichte zu erzählen und waren stolz auf ihre Kultur und ihr Erbe. Ich fand es paradox, dass Kangri eine vom Aussterben bedrohte Sprache ist, weil diese Menschen ihre Kultur und ihr Erbe lieben. Ich dachte, wenn ich ihre Liebe mit Fortschritten in der KI vereinen könnte, wäre das ein großartiger Projektstart“, verrät er.
Einsatz von KI zur Erhaltung von Kangri
Dies veranlasste ihn, Artikel früherer Forscher zu lesen, die ASR für andere Sprachen verwendet hatten. Eine besonders interessante Studie stammt von Emily Prud'hommeaux, einer Assistenzprofessorin am Boston College, die versuchte, Seneca – eine vom Aussterben bedrohte Sprache in den USA – wiederzubeleben. „Ihre Forschungsarbeiten haben mir geholfen, die Methodik und die Art und Weise, wie Forscher ASR nutzen, zu verstehen.“ Später wandte er sich an Dr. Shweta Chauhan, eine Forscherin am National Institute of Technology Hamirpur, die ein Textkorpus für die Kangri-Sprache kuratiert hatte. „Sie hat mich zu einem Praktikum in ihrem Labor eingeladen und seitdem ist sie eine unschätzbar wertvolle Mentorin.“
Die Innovation von ASR ermöglicht es Linguisten, Gespräche in ihrer natürlichen Umgebung aufzuzeichnen und deren Essenz einzufangen, ohne ein mündliches Medium manuell zu digitalisieren. Navvye erklärt den Prozess und führt aus, dass ein normales Mikrofon in das ASR-Modell eingespeist werden kann, was zu einer genauen Transkription beiträgt. Der Ton wird über ASR in Text umgewandelt. „Derzeit liegt die Genauigkeit bei 85 Prozent, und mit der Zeit ist es mein Ziel, zusätzliche Daten zu sammeln und das System zu verbessern, um eine Zielgenauigkeit von 95 Prozent zu erreichen.“ Das Projekt arbeitet an zwei Fronten – zum einen sammelt Navvye persönlich Daten, indem er Gespräche mithilfe von ASR aufzeichnet, und zum anderen verbindet er sich mit lokalen Übersetzern, die ihm mithilfe von ASR Audiotranskriptionen senden. „Dadurch kann ich ein robustes Audiorepertoire aufbauen. Darüber hinaus arbeite ich im Rahmen ihres Bhashini-Programms mit der indischen Regierung zusammen und nutze ihre Ressourcen, um weitere Kangri-Daten zu sammeln. Ich freue mich darauf, das Audiorepertoire zu erweitern, da es einen umfangreichen Datensatz zur weiteren Feinabstimmung des Modells mit verbesserter Genauigkeit liefern wird.“
Als Navvye anfing, war er erst 15 Jahre alt, aber seine Leidenschaft, seinen Traum in die Realität umzusetzen, ließ ihn zusammen mit der Unterstützung seiner Eltern und der Menschen in Kangra weitermachen. Allerdings stieß er auf seiner Reise auf einige technische Probleme, vor allem im Zusammenhang mit der Datenerfassung, Bereinigung, Modellauswahl und Feinabstimmung. „Nachdem ich mit anderen Modellen experimentiert hatte, entschied ich mich für Whisper von Open AI, das modernste Spracherkennungsmodell. Es ist schwierig, eine einfache Idee in die Tat umzusetzen, aber wenn die Sache edel ist, werden die Leute einen unterstützen“, fügt er hinzu.
LESEN SIE AUCH | Induzierte KI für Karya: KI-Startups, auf die man sich im Jahr 2024 freuen kann
Wirkung erzeugen
In den letzten zwei Jahren hat Navvyes Arbeit verschiedene Übersetzer gestärkt, indem er sie mit MNCs verbunden hat, die im Kangri-Bereich tätig sind. „Ich habe einigen Übersetzern dabei geholfen, die erforderlichen Informationen für die Kontaktaufnahme mit Lenovo zu sammeln, ihr LinkedIn-Profil erstellt und technische Dokumente für sie ausgefüllt“, sagt Navvye, der auch Schulkinder für die Bedeutung der Kangri-Sprache sensibilisiert. Fragt man ihn nach dem möglichen Grund dafür, dass Kangri eine vom Aussterben bedrohte Sprache ist, antwortet er prompt: „Im Vergleich zu Kangri sprechen jetzt mehr Menschen Hindi, da sie aufgrund der Globalisierung davon abgehalten werden, ihren Mutterdialekt zu sprechen.“ Es wird nicht als cool genug angesehen – etwas, dem wir entgegenwirken müssen“, sagt der Teenager.
Navvye ist stolz darauf, die verblassende Sprache seines Vorfahren zu bewahren, und sagt, die Früchte der Arbeit seien riesig gewesen, aber die Arbeit sei noch nicht abgeschlossen. „Es liegt noch ein langer Weg vor uns, aber ich bin mit dem bisherigen Verlauf zufrieden. Es ist mir eine Ehre, mich den Bemühungen zum Erhalt meiner Sprache anzuschließen, die eine reiche Mischung aus Geschichte und Diskurs darstellt“, fügt Navvye hinzu. Da er plant, im Herbst dem California Institute of Technology beizutreten, möchte er sich weiterhin für das Projekt engagieren und ist zuversichtlich, dass er die Leistungsfähigkeit der Technologie nutzen kann, um aus der Ferne weiter an dem Projekt zu arbeiten. „Ich werde über ein geeignetes Unterstützungssystem verfügen, um mein Wissen zu erweitern. Ich habe bereits eine neue Idee zur Klassifizierung von Dialekten mithilfe von Einbettungen, die dabei helfen kann, verschiedene Dialekte zu gruppieren und zu identifizieren“, verrät Navvye und fügt hinzu, dass sie als Modell für andere Sprachen verwendet werden kann.
Navvye gibt anderen Teenagern Ratschläge und bittet sie, keine Angst mehr davor zu haben, den Schritt des Vertrauens zu wagen. „Angst vor dem Scheitern zu haben, ist ein Zeichen des Scheiterns an sich“, sagt er und fügt hinzu: „Machen Sie sich keine Sorgen, ob es klappt oder nicht, Sie werden Ihren Weg finden.“ Falls es nicht klappt, lernt man dabei etwas Neues. Vielleicht können Sie es optimieren, damit es in Zukunft besser funktioniert.“
- Folgen Sie Navvye Anand weiter LinkedIn