«Вычислительные ресурсы — наша главная "техника"»: ученый МФТИ о роли нейросетей в современной океанологии

Одним из первых в России, еще 11 лет назад, Михаил Криницкий стал развивать направление интеграции нейросетей в исследовательские и прикладные задачи океанологии. Сегодня его команда высококлассных специалистов за счет адаптации современных методов машинного обучения решает целый спектр вопросов: от океанологического прогнозирования и определения местонахождения морских млекопитающих до автоматизации измерений и исследования структуры данных о Земле. Кандидат технических наук, заведующий Лабораторией машинного обучения в науках о Земле Московского физико-технического института обозначил и такие важные темы, как понимание ошибок нейросетевых моделей и неоднозначное отношение научного сообщества к внедрению искусственного интеллекта (ИИ) в область исследований.


— Михаил, что стало для Вас решающим фактором при выборе профессии?

 — Выбирая между танцевальным спортом и наукой, я осознал, что карьера спортсмена коротка, а я стремлюсь к долгосрочной реализации. Так я решил искать сферу, где смогу работать дольше всего и с удовольствием, поэтому и выбрал науку. В океанологию я попал случайно: познакомился с людьми из этой области, которым были нужны мои навыки в программировании, физике и математической статистике. 15 лет назад в океанологии почти никто не знал о возможностях применения ИИ и машинного обучения, но я понял, что это востребовано, и начал развивать данное направление.


В то время я работал в Институте океанологии им. П. П. Ширшова РАН, в Лаборатории взаимодействия океана и атмосферы и мониторинга климатических изменений, возглавляемой Сергеем Константиновичем Гулевым, доктором физико-математических наук, на тот момент член-корреспондентом РАН, сейчас он уже избран академиком. Мой научный руководитель тогда не просто поддержал меня в спорном на тот момент начинании, но и снабдил нужными вычислительными ресурсами для исследований. За это я до сих пор ему очень благодарен.

— Какие исследования ведет Ваша лаборатория?

 — Мы занимаемся разработкой и адаптацией современных методов машинного обучения, можно сказать — искусственного интеллекта, для разных задач в науках о Земле. Это и фундаментальные исследования, и вполне прикладные проекты. Например, мы используем нейросети для прогнозов погоды и океанологических условий, особенно в Арктике, по маршруту Северного морского пути. Работаем и с биологами, определяя на фотографиях размеры и местоположение морских млекопитающих. Еще одно важное направление — обработка наблюдений: восстанавливаем пропуски в измерениях, устраняем шум, уточняем характеристики поверхности океана и суши даже тогда, когда спутники «не видят» поверхность из-за облаков. Для этого используем модели, которые могут работать как с временными рядами (температурой, влажностью, ветром), так и с двумерными картами вроде температурных полей океана. Нейросети заметно ускоряют такие задачи и в некоторых случаях позволяют получить более точные результаты, чем традиционные методы.

— Что входит в круг Ваших задач?

 — Много работаем со структурой климатических и атмосферных данных. Используем реанализ — сводку наблюдений и расчетов за последние десятилетия, позволяющую проследить изменения в атмосфере и океане. Нас интересуют такие вещи, как стабильные и особые (аномальные) состояния атмосферы, океана или стратосферы. В частности, поведение стратосферного полярного вихря. Раньше подобные исследования нередко проводили посредством статистики или буквально «методом пристального взгляда», когда эксперт сам просматривает данные, обнаруживает какие-то особенные явления и детально их исследует. Мы же применяем нейросети, которые позволяют искать такие феномены более системно. При этом мы заранее не знаем, какие именно результаты получим, и в этом есть особый интерес: модель может показать неожиданные связи или аномалии, которые не так просто заметить привычными методами.

— С какими научными организациями Вы сотрудничаете?

 — Я продолжаю сотрудничество с лабораторией Сергея Константиновича Гулева и с другими лабораториями Института океанологии РАН. Кроме этого, мы работаем со многими научными учреждениями России, которые занимаются науками о Земле, климате и атмосфере. У нас налажено взаимодействие с Институтом физики атмосферы им. А. М. Обухова РАН и Научно-исследовательским вычислительным центром МГУ, где есть лаборатория суперкомпьютерного моделирования природно-климатических процессов, с Гидрометцентром России, с Институтом вычислительной математики им. Г. И. Марчука РАН. Мы очень тесно сотрудничаем с институтами, известными своими разработками в сфере ИИ, например, со Сколковским институтом науки и технологий. С этого года нашим партнером станет Университет ИТМО.

— Как оборудована Ваша лаборатория?

 — У нас нет большого парка сложных приборов, наша главная «техника» — это вычислительные ресурсы. Но мы используем и оборудование для получения данных об окружающей среде, водонепроницаемые камеры с высоким разрешением, похожие на GoPro, которые ставим для съемки поверхности моря и обнаружения плавающего мусора. Есть широкоугольные камеры для съемки неба, с их помощью мы автоматически определяем характеристики облачности, раньше это требовало работы метеоролога в поле. Специализированных океанологических приборов, вроде доплеровского измерителя течений или термосалинографа, у нас нет, такие данные мы получаем от коллег, например, от Лаборатории арктической океанологии МФТИ.


Для запуска  нейросетевых моделей и обработки данных мы используем графические сопроцессоры (GPU), потому что на центральных процессорах (CPU) они считаются слишком медленно. При этом есть и другие ресурсоемкие задачи, которые мы выполняем на CPU, когда это оправдано. Современные вычисления, связанные с нейросетями, почти немыслимы без графических сопроцессоров, хотя есть и другие специализированные вычислительные устройства для нейросетей. Мы также сотрудничаем с партнерами: «Яндекс» поддерживает наши совместные проекты грантами на размещение вычислений в их облаке.

— Как Вы работаете с полученными данными?

 — Наш интерес в том, чтобы разрабатывать методы работы с данными: как выявлять смещения и сбои в приборах, как восстанавливать пропущенные значения, как убирать шум. Например, любая измерительная система со временем «дрейфует»: изначально откалиброванная, она смещается от этой калибровки, и важно уметь автоматически отслеживать подобное. Это позволяет отличить реальное нулевое значение температуры или скорости ветра (а такие, конечно же, бывают) от ошибки прибора. Для этих задач мы создаем и обучаем нейросетевые модели, которые позволяют это делать гораздо надежнее, чем раньше. Мы также работаем со спутниковыми и полевыми наблюдениями, где пропуски и искажения неизбежны, и здесь методы машинного обучения помогают восстанавливать картину или последовательность измерений целиком.

— Какие направления в океанологии имеют наибольший потенциал для применения методов ИИ?

 — Есть два больших направления. Первое — работа с измерениями и наблюдениями: восстановление пропусков, фильтрация шума, выявление смены режимов приборов. В качестве примера приведу то, как мы разрабатываем методы, которые по данным корабельного X-диапазонного навигационного радара автоматически оценивают характеристики ветрового волнения: значимую высоту, доминирующий период. Такая обработка требует учета геометрии съемки, помех и движения платформы, и здесь как раз помогают наши ИИ-подходы. Второе направление — моделирование атмосферы и океана: здесь мы используем ИИ для уточнения анализа текущего состояния и для прогноза. Это важно для практических задач — от оценки климатических рисков до планирования навигации в Арктике. 

— Какое практическое применение у данного направления?

 — Моделирование атмосферы и океана нужно, чтобы лучше понимать их текущее состояние и уметь строить прогнозы. Если нас интересует температура воздуха в Москве, то важно оценить эффект «острова тепла», когда температура в городе заметно выше, чем вокруг. Стандартные модели атмосферы учитывают это не всегда: сейчас они плохо описывают детали городской застройки, в мегаполисе иногда ошибаются на несколько градусов. Нейросетевые модели позволяют уточнять такие эффекты, подстраиваясь под реальные данные наблюдений. Подобный подход можно применять и к другим системам: от анализа региональных климатических особенностей до прогноза ледовой обстановки в Арктике. Все это дает возможность получать более точные и практически полезные результаты, будь то планирование городской инфраструктуры или обеспечение безопасной навигации.

— Как использование машинного обучения снижает стоимость вычислительных процессов?

 — Классические гидродинамические модели атмосферы и океана вычислительно очень дороги: они решают системы дифференциальных уравнений и интегрируют состояние среды вперед во времени, и такие расчеты выполняются на суперкомпьютерах. Однако эти модели не всегда учитывают региональные особенности, например, детали городской застройки или сложную береговую линию. Нейросетевые подходы позволяют получать прогнозы значительно быстрее, потому что вместо прямого решения уравнений они используют статистические зависимости, извлеченные из больших массивов данных. Кроме того, такие модели проще адаптировать к региональным задачам и специфическим типам данных, что дает возможность получать более точные локальные прогнозы. В последние годы мы видим, что именно комбинация традиционного моделирования и нейросетевых методов дает наибольший эффект: физическая модель задает базовый каркас, а ИИ позволяет уточнить детали и учесть факторы, которые раньше просто игнорировались. В нашей лаборатории мы уже разрабатываем такие модели атмосферы и океана и планируем в ближайшие годы довести их до полноценного рабочего уровня.

— Насколько существенно внедрение ИИ повышает скорость проведения научных исследований?

 — Тут важно различать разные уровни работы. Если говорить о прикладных задачах, например, о подсчете размеров или численности морских млекопитающих по фотографиям, то ускорение действительно впечатляющее. То, что раньше занимало месяцы ручной обработки, теперь можно сделать за часы. Но если брать весь цикл научного исследования, то основное время уходит не на вычисления, а на анализ результатов, постановку задач, написание статей. Здесь ИИ помогает меньше. То есть рутинные операции выполняются быстрее, иногда в два-три раза, иногда на порядок, но этапы осмысления и интерпретации все равно требуют того же внимания и времени. Поэтому я бы сказал так: ИИ уже серьезно сократил время на техническую обработку данных, но фундаментальные исследования остаются трудоемкими, и это вряд ли изменится.

— Что сейчас замедляет ускорение решения прикладных задач?

 — Основное ограничение сейчас в том, что мы не можем полностью доверять результатам ИИ-моделей. Даже если они хорошо справляются с обработкой, всегда остается вероятность ошибки или искажения. Поэтому за моделью приходится перепроверять: оценивать адекватность вывода, сверять с независимыми данными. На это уходит время, и тем самым эффект ускорения частично нивелируется. Кроме того, многие готовые решения, вроде тех же языковых моделей, пока дают слишком поверхностное или неточное представление о специфичных научных темах. В результате ИИ экономит время на рутине, но добавляет новые задачи по контролю качества, и именно это сейчас замедляет реальный прирост скорости в прикладных проектах.

— То есть «слабый ИИ» еще во многом зависит от человека?

 — Да, безусловно. Человек формулирует задачу, подбирает данные, задает структуру модели и контролирует результаты. Нейросеть сама по себе не знает, что именно мы от нее хотим: она лишь находит статистические зависимости в тех примерах, которыми ее обучили. Поэтому многое зависит от того, насколько правильно поставлена задача и насколько качественные данные использованы. В разных странах ИИ уже применяют для прогноза погоды, оценки ледовой обстановки, анализа спутниковых снимков, и во всех случаях за ним стоит команда специалистов, которая проверяет и интерпретирует результаты. То есть ИИ — инструмент в руках исследователя, а не замена эксперта.

— Почему в научном сообществе к развитию технологий и применению ИИ неоднозначное отношение?

 — Здесь действительно есть разные позиции. Одни ученые воспринимают ИИ как еще один инструмент: такой же, как статистика или численные модели, просто с другими возможностями и ограничениями. Они готовы обсуждать ошибки моделей, границы их применимости — и в итоге видят в ИИ полезное дополнение к привычным методам. Другая группа относится к этому чересчур оптимистично — верят, что нейросети способны заменить все и всех, что «ИИ сам все сделает». Это, конечно, иллюзия. И есть те, кто стоит на противоположных позициях: техноскептики, которые полностью отвергают ИИ и доверяют только традиционным подходам, например, гидродинамическим моделям. На практике же правильная позиция, на мой взгляд, где-то посередине: ИИ — это мощный, но все же ограниченный инструмент, который нужно применять осознанно и с пониманием его слабых мест.

— Учитывая, что нейросетевые модели допускают ошибки, насколько эффективно их применение на данном этапе?

 — Эффективность во многом зависит от того, насколько хорошо мы понимаем уровень ошибок моделей. В нашей области это критично: нельзя использовать прогноз или реконструкцию, не зная их точности. Поэтому, применяя ИИ, мы всегда оцениваем, где и насколько он ошибается, и обсуждаем это с коллегами. Для одних задач такой уровень может быть приемлем, для других — категорически нет. Именно об этом я говорил на Конгрессе молодых ученых, на встрече с президентом: что использование ИИ в климате, атмосфере или океанологии требует двойной экспертизы. Ученый должен разбираться в своей предметной области и в технологиях машинного обучения, чтобы правильно интерпретировать результаты.


— А что изменилось после конгресса?

 — Самое заметное изменение произошло буквально в том же году: я увидел интерес к внедрению образовательных программ и курсов по ИИ именно для географов, океанологов, специалистов по атмосфере и климату. То, что еще недавно воспринималось с осторожностью, стало очевидной потребностью. В результате в этом году я читаю курс по ИИ в задачах наук о Земле сразу в трех университетах — в МФТИ, МГУ и в Высшей школе экономики. И это, на мой взгляд, главный результат: интерес к этой тематике в профессиональном сообществе резко вырос, и появилось понимание, что без таких знаний молодым исследователям будет сложно двигаться дальше.

— Что Вы порекомендуете студентам и молодым ученым, стремящимся развиваться в области ИИ?

 — В первую очередь посоветую получить прочный фундамент в высшей математике: линейная алгебра, математический анализ, теория вероятностей и математическая статистика. Эти основы делают освоение технологий современного ИИ проще (именно проще, а не «легким»): начинаешь понимать, как устроены модели, откуда берутся методы и их ограничения. Имея такой базис, на дальнейшее освоение прикладных дисциплин (классические ML-алгоритмы, нейросетевые архитектуры, валидация и интерпретация, оптимизация вычислений, основы MLOps) может уйти около года интенсивной учебы и практики. И это, скорее, оптимистичный сценарий. Если цель — применять ИИ в науках о Земле, имеет смысл параллельно углубляться в предметную область; если интересует сам ИИ как технология — логичнее двигаться по треку компьютерных наук. В любом случае критично регулярно обновлять знания: инструменты быстро меняются.

— Михаил, а как Вы обычно проводите свое свободное время?

 — У меня несколько любимых занятий вне работы, и мне бывает даже трудно переключаться между ними, так как я очень увлекающийся человек. Я хожу в спортзал и занимаюсь танцами — сейчас это аргентинское танго, дансхолл и афро. Танцы приносят мне удовольствие и помогают отвлечься от административной нагрузки. Несмотря на то, что это занятие энергозатратное, танцы меня эмоционально очень заряжают. Между прочим, когда я отбираю сотрудников в свою лабораторию, то всегда обращаю внимание, есть ли у человека увлечение, занимается ли он спортом. Зачастую, если специалист сосредоточен только на работе, он за 2-4 года выгорает. Да, у нас интересные задачи и методы работы, но важно, чтобы сотрудники имели хобби и время для отдыха, своевременно уходили в отпуск. Обязательно нужен баланс, потому что мы стремимся к долгосрочной и продуктивной работе лаборатории.

Беседовала Светлана Минеева