Pendant des décennies, comprendre les sons tels que les clics, les sifflements et les impulsions éclatées des dauphins a été un défi scientifique. Mais que se passerait-il si nous pouvions non seulement écouter, mais aussi comprendre leurs schémas de communication complexes et générer des réponses réalistes ?
À l’occasion de la Journée nationale du dauphin, Google s’est associé à des chercheurs de Georgia Tech et du Wild Dolphin Project (WDP) pour annoncer DolphinGemma — un modèle d’IA fondamental entraîné à apprendre la structure acoustique des dauphins et à générer de nouvelles séquences sonores ressemblant à celles des dauphins. Il s’agit d’une avancée significative dans le parcours de la communication interespèces, tout en élargissant le potentiel de connexion entre les humains et le monde océanique.
Des décennies de recherche sociale sur les dauphins
Comprendre une espèce nécessite un contexte approfondi — ce que le WDP a fourni. Depuis 1985, ils mènent le plus ancien projet de recherche sous-marine sur les dauphins au monde, en se concentrant sur les dauphins tachetés de l’Atlantique aux Bahamas. Ils utilisent des méthodes non invasives, enregistrant des vidéos et de l’audio associés à l’identité et au comportement de chaque dauphin individuel.
Quelques sons distinctifs :
- Sifflements signatures permettant aux mères d’appeler leurs petits
- Impulsions éclatées lors de conflits
- Clics bourdonnants lors de la parade nuptiale ou de la poursuite de requins
Présentation de DolphinGemma
Google a développé DolphinGemma en appliquant la technologie audio SoundStream et un modèle de 400 millions de paramètres pouvant fonctionner directement sur les téléphones Pixel. Ce modèle reconnaît, analyse les séquences sonores naturelles et prédit le son suivant — de manière similaire à la façon dont l’IA traite le langage.
DolphinGemma a été utilisé sur le terrain, aidant à détecter des motifs répétitifs, des groupes de sons et des significations potentielles. Les chercheurs ont également utilisé des sons synthétisés attachés aux objets préférés des dauphins pour construire un “vocabulaire partagé” pour une communication interactive.
Utiliser les téléphones Pixel pour la communication sous-marine
Le WDP développe également le système CHAT (Cetacean Hearing Augmentation Technology), en collaboration avec Georgia Tech. Ce système utilise des sons synthétisés représentant des objets tels que des algues ou des serviettes, aidant les dauphins à apprendre à imiter les sons pour formuler des “demandes”.
Comment cela fonctionne :
- Écouter avec précision malgré le bruit de l’océan
- Identifier correctement le son imité
- Notifier les chercheurs via des écouteurs à conduction osseuse
- Fournir l’objet approprié en réponse au dauphin
Le Pixel 6 a été utilisé, et le Pixel 9 (prévu pour l’été 2025) sera encore amélioré, intégrant à la fois haut-parleur/micro et exécution simultanée du modèle d’IA, améliorant la rapidité et la fluidité des réponses lors des interactions.
Partager DolphinGemma avec la communauté scientifique
Google rendra DolphinGemma open source cet été. Bien qu’il ait été entraîné sur des données de dauphins tachetés de l’Atlantique, le modèle peut tout de même être personnalisé pour une utilisation avec d’autres espèces telles que les grands dauphins ou les dauphins longirostres.
La combinaison de la recherche de terrain, de l’ingénierie et de la technologie de l’IA ouvre de nouvelles portes pour permettre aux humains de mieux comprendre les créatures marines intelligentes.
Source: https://blog.google/technology/ai/dolphingemma/