수십 년 동안 돌고래의 클릭, 휘파람, 버스트 펄스와 같은 소리를 이해하는 것은 과학적인 도전이었습니다. 하지만 우리가 단순히 듣는 것뿐만 아니라, 그들의 복잡한 의사소통 패턴을 이해하고 생생한 반응까지 생성할 수 있다면 어떨까요?
국제 돌고래의 날을 맞아 구글은 조지아 공대와 와일드 돌고래 프로젝트(WDP) 연구진과 협력하여 DolphinGemma를 발표했습니다. 이는 돌고래의 음향 구조를 학습하고 새로운 돌고래 유사 소리 시퀀스를 생성하도록 훈련된 기초 AI 모델입니다. 이는 종 간 소통의 여정에서 중요한 도약일 뿐만 아니라, 인간과 해양 세계 간의 연결 가능성을 확장하는 계기가 됩니다.
수십 년간의 돌고래 사회 연구
한 종을 이해하려면 깊은 맥락이 필요합니다. 이는 WDP가 제공해온 것입니다. 1985년부터 그들은 바하마에서 대서양 점박이 돌고래를 대상으로 세계에서 가장 오랜 기간 진행된 수중 돌고래 연구 프로젝트를 수행해왔습니다. 비침습적 방법을 사용하여, 각 개체 돌고래의 신원과 행동을 결합한 비디오 및 오디오를 기록합니다.
몇 가지 특징적인 소리:
- 어미가 새끼를 부를 때 사용하는 시그니처 휘파람
- 갈등 상황에서의 버스트 펄스
- 구애나 상어를 쫓을 때의 버징 클릭
DolphinGemma 소개
구글은 SoundStream 오디오 기술과 4억 개의 파라미터를 가진 모델을 적용해 DolphinGemma를 개발했습니다. 이 모델은 픽셀 폰에서 직접 실행될 수 있습니다. 이 모델은 자연스러운 소리 시퀀스를 인식, 분석하고 다음 소리를 예측합니다. 이는 AI가 언어를 처리하는 방식과 유사합니다.
DolphinGemma는 현장에서 반복되는 패턴, 소리 클러스터, 잠재적 의미를 탐지하는 데 사용되었습니다. 연구진은 돌고래가 좋아하는 물체에 합성된 소리를 붙여 “공유 어휘”를 구축하고 상호작용 소통을 시도하기도 했습니다.
픽셀 폰을 활용한 수중 소통
WDP는 조지아 공대와 협력하여 CHAT 시스템(Cetacean Hearing Augmentation Technology)도 개발 중입니다. 이 시스템은 해조류나 수건과 같은 물체를 나타내는 합성 소리를 사용하여, 돌고래가 소리를 모방해 “요청”을 할 수 있도록 돕습니다.
작동 방식:
- 바다 소음 속에서도 정확하게 듣기
- 모방된 소리를 올바르게 식별하기
- 골전도 헤드폰을 통해 연구진에게 알리기
- 돌고래에게 올바른 물체 제공하기
픽셀 6가 사용되었으며, 2025년 여름 출시 예정인 픽셀 9는 스피커/마이크 통합과 AI 모델 동시 실행이 가능해져, 상호작용 시 반응 속도와 부드러움이 더욱 향상될 예정입니다.
연구 커뮤니티와 DolphinGemma 공유
구글은 올여름 DolphinGemma를 오픈소스로 공개할 예정입니다. 비록 대서양 점박이 돌고래 데이터를 기반으로 훈련되었지만, 이 모델은 병코돌고래나 회전돌고래 등 다른 종에도 맞춤화하여 사용할 수 있습니다.
현장 연구, 엔지니어링, AI 기술의 결합은 인간이 지능적인 해양 생물을 더 깊이 이해할 수 있는 새로운 길을 열고 있습니다.
Source: https://blog.google/technology/ai/dolphingemma/