Som chef för divisionen för smartphones, surfplattor och uppkopplade klockor på JVTECH älskar jag att upptäcka nya funktioner som är mer eller mindre användbara och skriva om dem.
I nästan 40 år har en grupp forskare arbetat med att bryta ner barriärerna mellan människans språk och språket hos… marina djur. I delfinernas fall är detta nu möjligt tack vare Googles AI.
Är delfinernas språk på väg att översättas?
Forskare och marinbiologer har länge drömt om att kunna avslöja delfinspråkets hemligheter. Dessa marina däggdjur, som är kända för sin exceptionella intelligens och sina avancerade sociala interaktioner, fascinerar oss alla. De avger en mängd komplexa ljud, bland annat visslingar och klickljud, som används för ekolokalisering och kommunikation inom gruppen.
Wild Dolphin Project (WDP) har försökt förstå delfinerna sedan 1985. WDP leds av marinbiologen Denise Herzing och har blivit det längst pågående undervattensforskningsprojekt som någonsin genomförts, och har ägnat nästan fyrtio år åt att observera fläckiga delfiner i Bahamas klara vatten. Med hjälp av en icke-påträngande metod – ”i deras värld, på deras villkor” – har forskarna gradvis byggt upp en unik databas som kombinerar ljudinspelningar, videor och beteendekommentarer.
Forskarna kopplar sedan dessa inspelningar till specifika beteenden. Bland de ljud som analyserades fanns de ”signaturvisslor” som delfiner använder som egennamn, högfrekventa klickljud som är typiska för ekolokalisering och impulser som ofta avges i samband med aggression eller lek. Dessa element tycktes strukturera en form av språk, men deras komplexitet undgick fortfarande alla försök till sammanhängande översättning.
Artificiell intelligens har nu inneburit en verklig vändpunkt i dessa studier. I samarbete med Google har forskare lyckats utveckla en språkmodell som inte bara kan översätta delfinspråk, utan även kommunicera med det: Dolphin Gemma.
DolphinGemma, delfinernas algoritmiska röst
I samarbete med Georgia Tech och Wild Dolphin Project har Mountain View presenterat DolphinGemma, en modell för artificiell intelligens inspirerad av de stora språkmodellerna som Gemini. I korthet innebär DolphinGemma att samma principer som styr våra textchattbottar tillämpas på delfinernas akustiska värld. Målet är att identifiera, strukturera och förutsäga ljudsekvenserna hos dessa däggdjur med samma finess som en virtuell tolk.
Modellen, med sina 400 miljoner parametrar, tränas med hjälp av WDP:s enorma arkiv. Den använder SoundStream, en Google-teknik som är optimerad för kodning av komplexa ljudsignaler, för att omvandla delfinernas vokalisering till tolkningsbara enheter. Dessa enheter behandlas sedan på samma sätt som en mening på mänskligt språk: modellen analyserar sekvensen och förutspår vad som kommer härnäst. Ett klick, en vissling, en vindpust? Precis som en språkmodell förutser DolphinGemma ljud baserat på deras akustiska och beteendemässiga sammanhang.
Den första versionen av detta system används för närvarande ute på fältet, inbäddad direkt i de Pixel-smartphones som forskarna använder. Den senaste modellen, Pixel 9, kan samtidigt spela in, analysera i realtid, syntetisera ljud och interagera med tal, allt under vattnet tack vare ett benledningssystem.
Men målet är inte bara att avkoda. Tanken är också att skapa en gemensam grammatik, ett gemensamt språk mellan människor och delfiner. Tack vare CHAT-systemet associeras syntetiska visslingar med föremål som uppskattas av delfinerna – sjögräs, halsdukar eller till och med bollar. Om en delfin avger en motsvarande vissling informerar systemet forskaren i realtid via auditiv feedback. I utbyte presenteras föremålet för delfinen. På så sätt skapas en loop som lägger grunden för ett genuint interspecifikt lexikon.
DolphinGemma kommer inte att vara reserverad för enbart detta projekt. Google planerar att publicera modellen som öppen källkod i sommar, så att andra forskargrupper som specialiserar sig på andra valarter, t.ex. flasknosdelfiner eller spinndelfiner, kan anpassa den till sin egen akustiska korpus.