DolphinGemma：谷歌人工智能如何帮助解码海豚交流

Google推出DolphinGemma——一款能够分析和预测海豚声音的人工智能模型，为人类与海豚之间的交流铺平道路。该模型将于2025年夏季以开源形式发布。

几十年来，科学家一直在努力理解海豚发出的点击声、口哨声和爆发脉冲等声音。但如果我们不仅能聆听，还能理解它们复杂的交流模式，并生成逼真的回应呢？

在全国海豚日，谷歌与佐治亚理工学院和野生海豚项目（WDP）的研究人员合作，宣布推出DolphinGemma——一个基础性的人工智能模型，能够学习海豚的声学结构并生成新的类海豚声音序列。这标志着跨物种交流迈出了重要一步，同时也拓展了人类与海洋世界之间联系的潜力。

数十年的海豚社会研究

理解一个物种需要深入的背景——这是WDP一直在提供的。自1985年以来，他们开展了全球持续时间最长的水下海豚研究项目，专注于巴哈马的亚特兰大斑点海豚。他们采用非侵入性方法，结合每只海豚的身份和行为，记录视频和音频。

一些独特的声音：

介绍DolphinGemma

谷歌通过应用SoundStream音频技术和一个拥有4亿参数的模型开发了DolphinGemma，该模型可以直接在Pixel手机上运行。这个模型能够识别、分析自然声音序列，并预测下一个声音——类似于AI处理语言的方式。

DolphinGemma已被应用于实地研究，帮助检测重复模式、声音簇和潜在含义。研究人员还利用合成声音与海豚喜欢的物体结合，建立“共享词汇”，实现互动交流。

用Pixel手机进行水下交流

WDP还与佐治亚理工学院合作开发了CHAT系统（鲸类听觉增强技术）。该系统使用代表海藻或毛巾等物体的合成声音，帮助海豚学习模仿声音以提出“请求”。

工作原理：

已经使用了Pixel 6，预计2025年夏季推出的Pixel 9将进一步升级，集成扬声器/麦克风并同时运行AI模型，提升互动时的响应速度与流畅度。

与研究社区共享DolphinGemma

谷歌将在今年夏天开源DolphinGemma。虽然该模型以亚特兰大斑点海豚的数据训练，但仍可定制用于宽吻海豚或旋转海豚等其他物种。

实地研究、工程和人工智能技术的结合，正在为人类更深入理解智能海洋生物打开新的大门。

Source: https://blog.google/technology/ai/dolphingemma/