Нейросеть научили создавать звуки на основе «песен» кашалотов

В ЛЭТИ — вузе-участнике программы «Приоритет-2030» нацпроекта «Наука и университеты» — обучили нейросеть на основе «песен» кашалотов генерировать звуки, перспективные для систем подводной связи. Разработанный инструмент поможет в исследовании поведения этих крупных морских млекопитающих, а также в создании новых методов связи, основанных на акустических сигналах, сообщила пресс-служба вуза.

Для развития более эффективных систем подводной связи и навигации, а также гидролокаторов (средств звукового обнаружения подводных объектов с помощью акустического излучения),  специалисты изучают, как морские млекопитающие излучают звуковые волны и интерпретируют отраженные сигналы. Понимание того, как шумы, создаваемые этими морскими обитателями, влияют на передачу звука, может помочь в создании способов, которые минимизируют влияние помех на подводные коммуникации.

Исследование голосовых сигналов, например, издаваемых кашалотами, помогают морским биологам классифицировать отдельные типы по их диалогу. Это делается для того, чтобы распознать, кто из них исполняет те или иные «песни». Многие ученые считают, что кашалоты используют щелчки, трески и стоны с целью общения, эхолокации и ориентации в пространстве.

«Нами разработан метод генерации синтетических звуков, а именно щелчков кашалотов с помощью нейросети. Для этого „песни“ этих млекопитающих животных мы преобразовали в картинки, представив их в виде спектрограммы, а затем с помощью специального алгоритма машинного обучения для генерации изображений сгенерировали новые наборы звуков. Полученные данные не только представляют интерес для морской биологии, но и помогут усовершенствовать, например, методы подводной связи на основе акустических сигналов», — рассказала доцент кафедры систем автоматизированного проектирования (САПР), старший научный сотрудник Молодежного научно-исследовательского института (МолНИИ) СПбГЭТУ «ЛЭТИ» Екатерина Копец.

Исследователи получили щелчки определенного кашалота из базы данных звуков морских млекопитающих, находящейся в открытом доступе. Затем они занимались обработкой и искажением сигналов без влияния на исходные материалы — меняли тембр, тон, добавляли случайный шум, ускоряли и замедляли звук. Преобразовав голосовые данные в спектрограммы (фотографические изображения спектров), они вертикально и горизонтально «нарезали» эти картинки по частям и переставляли их местами. Это позволило получить новые наборы звуков без преобразования их структуры. После этого они усовершенствовали готовую архитектуру таким образом, чтобы она могла генерировать звуки с частотой свыше 20 кГц.

«Усовершенствованную модель мы обучили самостоятельно выполнять все нужные шаги для получения новых наборов данных и также их классифицировать. Результатом стала нейросеть, которая может работать с высокочастотными сигналами и выдавать очень похожие щелчки определенного кашалота — с 10-12% отклонением от метрик. В перспективе данный метод можно использовать для генерации звуков любого животного, например, птиц. Для этого необходимо будет настроить алгоритм на обработку их голосовых данных», — отметила Екатерина Копец.

Результаты исследований по генерации синтетических голосовых данных с использованием StyleGAN2-ADA представлены в научном журнале Big data and cognitive computing. Работа, поддержанная Российским научным фондом, велась в русле научно-исследовательской политики программы развития СПбГЭТУ «ЛЭТИ» «Приоритет 2030».