ИИ научили различать происхождение людей из близкородственных популяций

Ученые Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ предложили новый подход для определения генетического происхождения человека. Графовые нейросети позволяют с высокой точностью различать даже очень близкие популяции, сообщили в пресс-службе Высшей школы экономики.

Генетический анализ — услуга, ставшая популярной в последние 10–15 лет не только как инструмент медицинской диагностики, но и как возможность узнать больше о своем происхождении. Анализ ДНК позволяет оценить этнический состав, определить, где жили и куда переселялись предки, найти количество мутаций неандертальца в геноме. Это стало доступно благодаря развитию современных технологий — генотипирования, систем хранения и обработки данных, машинного обучения — и значительного снижения их стоимости. Но при этом существующие методы тестирования не позволяют разделить генетически близкие, родственные популяции, которые долгое время жили на смежных территориях.

В Институте ИИ и цифровых наук НИУ ВШЭ разработали метод, позволяющий различать происхождение людей из близкородственных популяций. В основе технологии — графовые нейронные сети. Алгоритм опирается не на саму последовательность ДНК, а на графы, которые обозначают генетические связи между людьми с общими участками генома.

Такие участки отражают степень родства между людьми и указывают на то, сколько поколений назад у них были общие предки. Чем больше совпадений, тем ближе люди по происхождению. Вершины в модели соответствуют человеку, а ребра отражают степень родства.

Метод протестировали на данных из разных регионов. Особенно интересными оказались результаты по населению Восточно-Европейской равнины, по которым уже собрана большая база данных. Графовая нейросеть смогла точно определить популяционную принадлежность представителей генетически очень близких народов.

«Существующие методы генетического анализа решают иную задачу: они определяют принадлежность к крупным изолированным популяциям, например определяют, у кого в роду были французы, у кого немцы, у кого англичане. Наш метод позволяет работать с близкородственными популяциями, что особенно актуально для России, исторически многонациональной страны», — объяснил Алексей Шмелев, один из авторов работы, стажер-исследователь Международной лаборатории статистической и вычислительной геномики Института ИИ и цифровых наук ФКН НИУ ВШЭ.

Исследователи планируют научить нейросеть предсказывать процентное соотношение различных популяций в геноме. Они зарегистрировали свою разработку под названием AncestryGNN — «Нейросетевое предсказание популяционной принадлежности по общим сегментам генома».


По словам ученых, предложенный метод открывает новые перспективы для более точного определения популяционной истории людей и может применяться в генеалогических исследованиях и антропологии.