DolphinGemma:谷歌人工智能如何帮助解码海豚交流

Google推出DolphinGemma——一款能够分析和预测海豚声音的人工智能模型,为人类与海豚之间的交流铺平道路。该模型将于2025年夏季以开源形式发布。

几十年来,科学家一直在努力理解海豚发出的点击声、口哨声和爆发脉冲等声音。但如果我们不仅能聆听,还能理解它们复杂的交流模式,并生成逼真的回应呢?

在全国海豚日,谷歌与佐治亚理工学院和野生海豚项目(WDP)的研究人员合作,宣布推出DolphinGemma——一个基础性的人工智能模型,能够学习海豚的声学结构并生成新的类海豚声音序列。这标志着跨物种交流迈出了重要一步,同时也拓展了人类与海洋世界之间联系的潜力。

数十年的海豚社会研究

理解一个物种需要深入的背景——这是WDP一直在提供的。自1985年以来,他们开展了全球持续时间最长的水下海豚研究项目,专注于巴哈马的亚特兰大斑点海豚。他们采用非侵入性方法,结合每只海豚的身份和行为,记录视频和音频。

一些独特的声音:

  • 母海豚用来呼唤幼崽的标志性口哨
  • 冲突时发出的爆发脉冲
  • 求偶或追逐鲨鱼时发出的嗡嗡点击声

介绍DolphinGemma

谷歌通过应用SoundStream音频技术和一个拥有4亿参数的模型开发了DolphinGemma,该模型可以直接在Pixel手机上运行。这个模型能够识别、分析自然声音序列,并预测下一个声音——类似于AI处理语言的方式。

DolphinGemma已被应用于实地研究,帮助检测重复模式、声音簇和潜在含义。研究人员还利用合成声音与海豚喜欢的物体结合,建立“共享词汇”,实现互动交流。

用Pixel手机进行水下交流

WDP还与佐治亚理工学院合作开发了CHAT系统(鲸类听觉增强技术)。该系统使用代表海藻或毛巾等物体的合成声音,帮助海豚学习模仿声音以提出“请求”。

工作原理:

  1. 在海洋噪声中准确聆听
  2. 正确识别被模仿的声音
  3. 通过骨传导耳机通知研究人员
  4. 向海豚提供正确的物体作为回应

已经使用了Pixel 6,预计2025年夏季推出的Pixel 9将进一步升级,集成扬声器/麦克风并同时运行AI模型,提升互动时的响应速度与流畅度。

与研究社区共享DolphinGemma

谷歌将在今年夏天开源DolphinGemma。虽然该模型以亚特兰大斑点海豚的数据训练,但仍可定制用于宽吻海豚或旋转海豚等其他物种。

实地研究、工程和人工智能技术的结合,正在为人类更深入理解智能海洋生物打开新的大门。

Source: https://blog.google/technology/ai/dolphingemma/