Референсный геном — база данных, содержащая информацию о последовательности нуклеиновых кислот абстрактного представителя биологического вида. Также называется референсной сборкой генома.
Референсный геном не является результатом секвенирования какого-либо конкретного индивидуума. Например, текущая сборка генома человека GRCh38 состоит из сиквенсов 11 библиотек, полученных от анонимных доноров (https://www.ncbi.nlm.nih.gov/grc/help/faq/#which-genome-is-reference). Референсные геномы насекомых получают выделением генетического материала сразу из группы особей (https://www.gov.spb.ru/gov/otrasl/c_science/news/209 774/). Важно понимать, что референсный геном — это абстракция. Не существует реального представителя вида с такой генетической последовательностью.
Записывается референсный геном в гаплоидном виде отдельно для каждой хромосомы вида, т.е. текстовая последовательность нуклеотидов дана только для одной цепи ДНК, а вторая достраивается по принципу комплиментарности.
Зачем нужен референсный геном?
Распечатанный геном человека в музее Welcome Collection в Лондоне. (скриншот сайта https://venueview.co.uk/tour/the-welcome-collection)
Цель создания референсной сборки — получить единую систему координат для дальнейших исследований. Унифицированные точки отсчета крайне важны для эффективной коллаборации внутри научного сообщества. Только имея общие точки отсчета можно определять популяционную вариабельность для каждого отдельного положения, картировать гены на хромосомах, экзоны, интроны и регуляторные последовательности.
В последствии с рефернсным геномом сравнивают результаты секвенирования, а индивидуальные отличия называют вариантами. Далеко не всякий вариант по определению является индивидуальной проблемой, мутацией, и требует внимания. Иногда встречаются ситуации, при которых в геноме записана патологическая аллель, а наиболее распространенная здоровая аллель при этом выглядит как доброкачественный вариант. Такие ситуации опасны для истинных носителей патологической аллели, поскольку для них вариант не отличается от референса, а значит не будет обнаружен в явном виде (https://www.gimjournal.org/article/S1098-3600(21)01876-1/fulltext). Выявленные ошибки устраняются в последующих версиях сборки, поэтому рекомендуется всегда использовать актуальную версию сборки.
Версии референсного генома
Визуальное представление сборки GRCh38.p13 в базе данных Ensembl (https://www.ensembl.org/Homo_sapiens/Location/Genome). Доступ от 20.05.2022
Не все положения референсного генома представлены самыми частыми в популяции нуклеотидами. По мере накопления статистических популяционных данных референсный геном меняется и дополняется. Это отражается в версиях референсных сборок. Версии могут не изменять геномных координат положений (например, изменение актуальной версии с GRCh37. p1 до GRCh37. p2), а могут значительно изменить систему координат (внедрение сборки GRCh38 вместо GRCh37).
Референсный геном не обязательно обладает полнотой данных. Например, актуальная сборка генома человека GRCh38 имеет пропуски в теломерных и центромерных областях хромосом, а также в части некодирующих областей. А недавняя сборка T2T-CHM13, лишенная этого недостатка, вовсе не несет информации об Y-хромосоме. При этом референсный геном остается тем скелетом, на котором держатся все остальные генетические исследования.
Сейчас референсный геном человека имеет 19 полноценных сборок, начиная с выпущенной в мае 2000 года hg1 (https://genome.ucsc.edu/FAQ/FAQreleases.html#release12), заканчивая новинкой 2022 года T2T-CHM13 (https://www.science.org/doi/10.1126/science.abj6987).
Genome Reference Consortium (GRC)
Заголовок сайта Genome Reference Consortium (https://www.ncbi.nlm.nih.gov/grc). Доступ от 20.05.2022
Биологический мир крайне разнообразен. Исследователи разных видов часто создают собственные рефернсные геномы в рамках тесно взаимосвязанных научных групп. Однако, для организмов, имеющих наибольшую практическую значимость, была учреждена специальная международная группа.
Genome Reference Consortium (GRC) — международная группа экспертов в области секвенирования, геномного картирования и биоинформатики. Задача консорциума — улучшение репрезентативности рефернсного генома. Под эгидой GRC подготовлены сборки геномов человека (GRCh38), мыши (GRCm39), крысы (mRatBN7.2), Данио-рерио (GRCz11) и курицы (GRCg6a).