Понять дельфинов

Дельфины уже давно считаются одними из самых умных существ на планете. Они демонстрируют способность к обучению, взаимодействию, распознаванию себя в зеркале и коллективному поведению. Их сложная система звуков – свистов, щелчков и даже "кряканья" – долгое время оставалась загадкой для исследователей. Теперь, с применением инструментов искусственного интеллекта и смартфонов Pixel, появился шанс сделать реальный прорыв, сообщает 24 Канал со ссылкой на Neowin.

Смотрите также Google платит специалистам по ИИ за бездействие, чтобы те не перешли к конкурентам

Google активно интегрирует генеративный ИИ в свои продукты и сервисы, поэтому неудивительно, что компания присоединилась к Wild Dolphin Project (WDP) – исследовательской инициативы, которая с 1985 года изучает атлантических пятнистых дельфинов, используя ненавязчивые методы наблюдения. Команда WDP накопила огромную коллекцию аудио- и видеоматериалов вместе с детальными поведенческими заметками. Одна из главных задач исследователей – понять, как именно дельфины используют вокализацию в социальном взаимодействии.

Некоторые звуки за годы наблюдений уже удалось привязать к конкретному поведению. Например, дельфины выдают характерные "именные" свисты для идентификации друг друга, а то, что ученые назвали "кряканьем" часто сопровождает конфликты. Однако чтобы выяснить, достигает ли эта коммуникация уровня языка, требуется значительно более глубокое погружение в анализ.

Именно здесь и вступает в игру DolphinGemma – модель на основе открытых AI-моделей Google Gemma, которые построены на той же архитектуре, что и коммерческие Gemini. Она использует технологию SoundStream, которая позволяет преобразовывать звуки дельфинов в формат, пригодный для обработки искусственным интеллектом. Получив звуковое сообщение, модель пытается предугадать следующий "токен" – акустический элемент, который может нести значение для дельфинов. Принцип ее работы похож на то, как LLM генерируют текст для людей.

Ожидается, что DolphinGemma поможет выявить сложные звуковые паттерны, которые потенциально смогут стать основой для формирования общего "словаря" между людьми и дельфинами. В Google отмечают: вручную анализ таких объемов данных занял бы десятилетия.

Еще одно преимущество DolphinGemma – ее оптимизация для работы на смартфонах Pixel. В полевых условиях команда WDP уже несколько лет использует устройство под названием CHAT (Cetacean Hearing Augmentation Telemetry) – аудиосистему, собранную на базе Pixel 6. Этот гаджет позволяет как записывать звуки, так и воспроизводить синтетические вокализации, которые могут имитировать дельфиньи "слова" и таким образом разговаривать с дельфинами.

Устройство системы CHAT со смартфоном Pixel 9
Устройство системы CHAT со смартфоном Pixel 9 / Фото Google

Вскоре исследователи получат новую версию CHAT, построенную на Pixel 9. Ожидается, что обновление сможет одновременно обрабатывать глубокие нейросетевые модели и алгоритмы сопоставления шаблонов в реальном времени. В то же время команда не планирует сразу транслировать результаты работы DolphinGemma в море – текущие исследования с CHAT продолжаются параллельно.

Хотя эта инициатива не обещает мгновенного перевода дельфиньих звуков, она прокладывает путь к базовому взаимодействию между видами. Так же как LLM открыли новую эру в человеческой коммуникации, DolphinGemma может стать первым шагом к пониманию языка других интеллектуальных существ.

Google планирует сделать модель открытой для исследователей по всему миру уже этим летом. Несмотря на то, что она обучалась на звуках атлантических пятнистых дельфинов, компания предполагает возможность адаптации модели для анализа вокализаций других видов китообразных.