На протяжении десятилетий понимание звуков, таких как щелчки, свисты и импульсные сигналы дельфинов, оставалось научной задачей. Но что, если бы мы могли не только слушать, но и понимать их сложные коммуникационные паттерны и генерировать реалистичные ответы?
В Национальный день дельфина Google объединился с исследователями из Технологического института Джорджии и проекта Wild Dolphin Project (WDP), чтобы представить DolphinGemma — базовую модель искусственного интеллекта, обученную распознавать акустическую структуру дельфинов и генерировать новые звуковые последовательности, похожие на дельфиньи. Это знаменует собой значительный шаг на пути к межвидовой коммуникации, а также расширяет возможности для связи между человеком и океанским миром.
Десятилетия социальных исследований дельфинов
Понимание вида требует глубокого контекста — именно это предоставляет WDP. С 1985 года они ведут самый продолжительный в мире подводный исследовательский проект по изучению дельфинов, сосредотачиваясь на пятнистых атлантических дельфинах на Багамах. Они используют неинвазивные методы, записывая видео и аудио в сочетании с идентификацией и поведением каждого отдельного дельфина.
Некоторые характерные звуки:
- Фирменные свисты, с помощью которых матери зовут своих детёнышей
- Импульсные сигналы во время конфликтов
- Жужжащие щелчки во время ухаживания или при преследовании акул
Представляем DolphinGemma
Google разработал DolphinGemma, применяя аудиотехнологию SoundStream и модель с 400 миллионами параметров, которая может работать непосредственно на телефонах Pixel. Эта модель распознаёт, анализирует естественные звуковые последовательности и предсказывает следующий звук — аналогично тому, как ИИ обрабатывает язык.
DolphinGemma уже используется на практике, помогая выявлять повторяющиеся паттерны, звуковые кластеры и возможные значения. Исследователи также использовали синтезированные звуки, прикреплённые к любимым объектам дельфинов, чтобы создать «общий словарь» для интерактивной коммуникации.
Использование телефонов Pixel для подводной коммуникации
WDP также разрабатывает систему CHAT (Cetacean Hearing Augmentation Technology) в сотрудничестве с Технологическим институтом Джорджии. Эта система использует синтезированные звуки, обозначающие такие объекты, как водоросли или полотенца, помогая дельфинам учиться имитировать звуки, чтобы делать «запросы».
Как это работает:
- Точно слушать среди шума океана
- Правильно определять имитируемый звук
- Уведомлять исследователей через наушники с костной проводимостью
- Предоставлять правильный объект в ответ дельфину
Использовался Pixel 6, а Pixel 9 (ожидается летом 2025 года) будет дополнительно усовершенствован: интеграция динамика/микрофона и одновременная работа ИИ-модели повысят скорость и плавность отклика во время взаимодействий.
Открытый доступ к DolphinGemma для исследовательского сообщества
Google откроет исходный код DolphinGemma этим летом. Хотя модель обучалась на данных о пятнистых атлантических дельфинах, её можно адаптировать для использования с другими видами, такими как афалины или длиннорылые дельфины.
Сочетание полевых исследований, инженерии и технологий искусственного интеллекта открывает новые возможности для более глубокого понимания разумных морских существ человеком.
Source: https://blog.google/technology/ai/dolphingemma/