几十年来,科学家一直在努力理解海豚发出的点击声、口哨声和爆发脉冲等声音。但如果我们不仅能聆听,还能理解它们复杂的交流模式,并生成逼真的回应呢?
在全国海豚日,谷歌与佐治亚理工学院和野生海豚项目(WDP)的研究人员合作,宣布推出DolphinGemma——一个基础性的人工智能模型,能够学习海豚的声学结构并生成新的类海豚声音序列。这标志着跨物种交流迈出了重要一步,同时也拓展了人类与海洋世界之间联系的潜力。
数十年的海豚社会研究
理解一个物种需要深入的背景——这是WDP一直在提供的。自1985年以来,他们开展了全球持续时间最长的水下海豚研究项目,专注于巴哈马的亚特兰大斑点海豚。他们采用非侵入性方法,结合每只海豚的身份和行为,记录视频和音频。
一些独特的声音:
- 母海豚用来呼唤幼崽的标志性口哨
- 冲突时发出的爆发脉冲
- 求偶或追逐鲨鱼时发出的嗡嗡点击声
介绍DolphinGemma
谷歌通过应用SoundStream音频技术和一个拥有4亿参数的模型开发了DolphinGemma,该模型可以直接在Pixel手机上运行。这个模型能够识别、分析自然声音序列,并预测下一个声音——类似于AI处理语言的方式。
DolphinGemma已被应用于实地研究,帮助检测重复模式、声音簇和潜在含义。研究人员还利用合成声音与海豚喜欢的物体结合,建立“共享词汇”,实现互动交流。
用Pixel手机进行水下交流
WDP还与佐治亚理工学院合作开发了CHAT系统(鲸类听觉增强技术)。该系统使用代表海藻或毛巾等物体的合成声音,帮助海豚学习模仿声音以提出“请求”。
工作原理:
- 在海洋噪声中准确聆听
- 正确识别被模仿的声音
- 通过骨传导耳机通知研究人员
- 向海豚提供正确的物体作为回应
已经使用了Pixel 6,预计2025年夏季推出的Pixel 9将进一步升级,集成扬声器/麦克风并同时运行AI模型,提升互动时的响应速度与流畅度。
与研究社区共享DolphinGemma
谷歌将在今年夏天开源DolphinGemma。虽然该模型以亚特兰大斑点海豚的数据训练,但仍可定制用于宽吻海豚或旋转海豚等其他物种。
实地研究、工程和人工智能技术的结合,正在为人类更深入理解智能海洋生物打开新的大门。
Source: https://blog.google/technology/ai/dolphingemma/