DolphinGemma: Cách AI của Google giúp giải mã giao tiếp của cá heo

Google ra mắt DolphinGemma – mô hình AI giúp phân tích và dự đoán âm thanh cá heo, mở đường cho giao tiếp giữa người và cá heo. Mô hình sẽ được phát hành mã nguồn mở vào mùa hè năm 2025.

Trong nhiều thập kỷ, việc hiểu được các âm thanh như tiếng nhấp, tiếng huýt gió và âm thanh bùng phát của cá heo là một thách thức khoa học. Nhưng nếu chúng ta không chỉ có thể nghe mà còn hiểu được các mô hình giao tiếp phức tạp của chúng và tạo ra các phản hồi giống thật thì sao?

Nhân Ngày Cá heo Quốc gia, Google đã hợp tác cùng các nhà nghiên cứu từ Georgia Tech và Dự án Cá heo hoang dã (WDP) để công bố DolphinGemma – một mô hình AI nền tảng được huấn luyện để học cấu trúc âm thanh của cá heo và tạo ra chuỗi âm thanh mới giống như tiếng cá heo. Đây là bước tiến vượt bậc trong hành trình giao tiếp liên loài, đồng thời mở rộng tiềm năng kết nối giữa con người và thế giới đại dương.

Nghiên cứu xã hội cá heo suốt nhiều thập kỷ

Hiểu được một loài cần có bối cảnh sâu sắc – điều mà WDP đã cung cấp. Từ năm 1985, họ đã thực hiện dự án nghiên cứu cá heo dưới nước lâu nhất thế giới, tập trung vào cá heo đốm Đại Tây Dương tại Bahamas. Họ sử dụng phương pháp không xâm lấn, ghi lại video và âm thanh kết hợp với danh tính và hành vi của từng cá thể cá heo.

Một số âm thanh đặc trưng:

  • Huýt gió đặc trưng để mẹ gọi con
  • Âm thanh bùng phát khi xảy ra xung đột
  • Tiếng nhấp rung khi tán tỉnh hoặc rượt đuổi cá mập

Giới thiệu DolphinGemma

Google đã phát triển DolphinGemma bằng cách ứng dụng công nghệ âm thanh SoundStream và mô hình 400 triệu tham số có thể chạy trực tiếp trên điện thoại Pixel. Mô hình này nhận dạng, phân tích các chuỗi âm thanh tự nhiên và dự đoán âm thanh tiếp theo – tương tự như cách AI xử lý ngôn ngữ.

DolphinGemma đã được sử dụng tại thực địa, giúp phát hiện các mẫu lặp lại, cụm âm thanh và ý nghĩa tiềm năng. Các nhà nghiên cứu còn dùng âm thanh tổng hợp gắn với vật thể cá heo yêu thích để xây dựng một “từ vựng chung” phục vụ giao tiếp tương tác.

Sử dụng điện thoại Pixel để giao tiếp dưới nước

WDP cũng đang phát triển hệ thống CHAT (Hệ thống Tăng cường Thính giác Cá voi), hợp tác với Georgia Tech. Hệ thống này sử dụng âm thanh tổng hợp tượng trưng cho các đồ vật như rong biển hay khăn, nhằm giúp cá heo học cách bắt chước âm thanh để đưa ra “yêu cầu”.

Cách hoạt động:

  1. Nghe chính xác giữa tiếng ồn biển
  2. Nhận diện đúng âm thanh được bắt chước
  3. Báo cho nhà nghiên cứu bằng tai nghe dẫn truyền xương
  4. Đưa đúng vật thể để phản hồi cá heo

Pixel 6 đã được sử dụng và Pixel 9 (dự kiến hè 2025) sẽ cải tiến hơn nữa, tích hợp cả loa/mic và chạy mô hình AI cùng lúc, nâng cao tốc độ phản ứng và độ mượt mà khi tương tác.

Chia sẻ DolphinGemma với cộng đồng nghiên cứu

Google sẽ mở mã nguồn DolphinGemma vào mùa hè năm nay. Mặc dù được huấn luyện trên dữ liệu cá heo đốm Đại Tây Dương, mô hình vẫn có thể tùy chỉnh để dùng cho các loài khác như cá heo mũi chai hay cá heo spinner.

Sự kết hợp giữa nghiên cứu thực địa, kỹ thuật và công nghệ AI đang mở ra cánh cửa mới để con người có thể hiểu sâu sắc hơn về các sinh vật thông minh dưới biển.

Source: https://blog.google/technology/ai/dolphingemma/