Маркировка последовательностей ДНК, регулирующих гены, штрихкодами позволяет лучше понять геном человека
Международная группа исследователей сделала важный шаг к пониманию того, как экспрессия генов контролируется в геноме человека. Исследование опубликовано в журнале Nature .
Исследование всесторонне проанализировало «цис-регуляторные элементы» (CRE), которые являются последовательностями ДНК, регулирующими транскрипцию генов. Эта работа проливает свет на то, как эти элементы способствуют экспрессии генов, специфичных для клеток, и как мутации в них могут влиять на здоровье и болезни.
CRE, включая энхансеры и промоторы, необходимы для контроля того, когда и где гены включаются или выключаются. Хотя их важность хорошо известна, изучение их активности в больших масштабах было сложной задачей.
«В геноме человека содержится множество CRE, и считается, что мутации в этих регионах играют важную роль в заболеваниях и эволюции человека», — пояснил доктор Фумитака Иноуэ, один из соавторов исследования. «Однако было очень сложно всесторонне количественно оценить их активность в геноме».
Чтобы решить эту проблему, команда использовала передовую технологию, называемую лентивирусным массовым параллельным репортерным анализом (lentiMPRA), которую авторы разработали ранее. Этот подход позволяет проводить одновременный анализ тысяч CRE, маркируя их уникальными ДНК-штрихкодами, которые отслеживают их активность.
Применяя lentiMPRA, исследователи изучили около 680 000 кандидатов на CRE в трех широко используемых типах клеток: гепатоцитах (клетках печени), лимфоцитах (типе белых кровяных клеток) и индуцированных плюрипотентных стволовых клетках (типе искусственных стволовых клеток, полученных из нормальной клетки организма).
Исследование выявило несколько ключевых идей. В трех типах клеток примерно 41,7% проанализированных CRE проявили активность. Промоторы, которые запускают транскрипцию генов, показали зависимость от ориентации последовательности, но были менее специфичны для типов клеток .
Усилители, которые усиливают транскрипцию генов, были активны независимо от их ориентации и демонстрировали специфичность к типу клеток. Эти результаты подчеркивают фундаментальные различия в том, как функционируют эти два типа CRE.
В исследовании было разработано несколько моделей машинного обучения для прогнозирования регуляторной активности CRE на основе крупномасштабных экспериментальных данных . MPRALegNet, модель, обученная на обширном наборе данных lentiMPRA, оказалась наиболее точной и эффективной в прогнозировании регуляторной активности любой последовательности ДНК. Ее прогнозы тесно согласуются с экспериментальными результатами, в некоторых случаях выполняя функции так же хорошо, как и экспериментальные реплики.
Модель также продемонстрировала свою способность идентифицировать важные мотивы связывания факторов транскрипции, то есть короткие последовательности ДНК, которые определяют активность CRE, тем самым предоставляя понимание того, как конкретные факторы управляют экспрессией генов , специфичной для типа клеток . Например, исследование определило мотивы HNF4 и GATA как критически важные для активности в гепатоцитах и лимфоцитах соответственно.
Обеспечивая точную идентификацию и количественную оценку активности усилителя, исследование открывает возможности для изучения молекулярных механизмов заболеваний человека. Будущие исследования будут сосредоточены на применении этого подхода для изучения генетических полиморфизмов, вариаций в последовательности ДНК, которые способствуют индивидуальным различиям и восприимчивости к болезням.
«Недавно был секвенирован почти полный геном человека, но многие из его функциональных областей остаются неизвестными. Наши выводы связывают информацию о последовательности ДНК с ее функциональными ролями. Мы надеемся, что эти результаты будут способствовать более глубокому пониманию биологических явлений, включая человеческие болезни и эволюцию», — сказал доктор Иноуэ.
Это исследование также вносит общедоступную базу данных активности CRE в портал ENCODE , предоставляя ценный ресурс для исследователей по всему миру. Интегрируя крупномасштабные экспериментальные данные с машинным обучением , работа закладывает основу для будущих открытий в области геномики и персонализированной медицины.
Кроме того, использование таких инструментов, как lentiMPRA и MPRALegNet, поможет исследователям лучше разобраться в сложностях регуляции генов и изучить обширные, неизведанные территории человеческого генома .