Благодаря стремительному развитию технологии секвенирования нового поколения появляется все больше данных о строении и функциях генома человека. Так, известно, что один ген может быть источником различных мРНК. У транскриптов отличаются размеры, номера нуклеотидов, число экзонов, представленность в тканях и значимость при заболеваниях. Некоторые транскрипты появляются в клетке только при заболеваниях и существенно отличаются от канонических.
Роль референсного генома и выбор транскриптов
Референсный геном — это универсальная система координат для аннотации вариантов, но привязка к геномным координатам оказывается мало информативной для интерпретации значимости той или иной замены. Положение варианта относительно мРНК или транслированного белка гораздо важнее с точки зрения аннотации. Однако разнообразие последовательностей транскриптов и кодируемых ими белков значительно затрудняет интерпретацию новых данных. Ведь в некоторых случаях выбор транскрипта может изменить аннотацию варианта с экзонного на интронный или с мутации приводящей к сдвигу рамки считывания на вероятно доброкачественный полиморфизм в некодирующей части гена. Поэтому выбор наиболее биологически и клинически значимого транскрипта является критически важным этапом в процессе интерпретации вариантов.
Базы данных для выбора транскриптов
Для оптимизации и стандартизации выбора наиболее релевантного транскрипта используются различные базы данных, о которых мы рассказывали ранее. Наиболее популярные из них - Ensembl и RefSeq. Последняя содержит хорошо аннотированные референсные последовательности генов, транскриптов и белков и используется для аннотации вариантов в ПО OncoScope™ Software и Seq&Go Software.
Проект MANE: единый набор репрезентативных транскриптов
Ensembl и RefSeq - два независимых проекта, которые объединились с целью создать единый референсный набор репрезентативных транскриптов и соответствующих им белков человека - MANE. В проект MANE включают такие транскрипты генов, экзоны которых одинаково аннотированы в базах данных RefSeq и Ensembl. Кроме того, транскрипты MANE соответствуют координатам референсного генома GRCh38 и отбираются, в том числе на основе биологически значимых критериев, таких как уровень экспрессии и консервативность кодирующих областей.
В настоящее время проект включает:
По умолчанию при дизайне кастомных панелей Парсек Лаб использует MANE транскрипты для получения координат кодирующих последовательностей (CDS). Однако мы не можем гарантировать, что канонический транскрипт содержит требуемое количество экзонов и удобную для интерпретации нумерацию.
Пример различий в аннотациях транскриптов
Например, широко известный геномный вариант в гене BRAF NC_000007.14:g.140753336A>T в транскрипте NM_004333.6 будет обозначаться c.1799T>A и транслироваться в белок как классическая мутация V600E. Но в транскрипте MANE Plus Clinical NM_001374258.1 этот же вариант записывается как c.1919T>A и транслируется как V640E. Разница в записях обусловлена появлением дополнительного десятого экзона в более длинном транскрипте, координаты которого в коротком считаются интронными. Неожиданная запись в форматах кДНК и белка может смутить пациентов и врачей, занимающихся последующей интерпретацией результатов секвенирования.
Поэтому при заполнении анкеты на дизайн рекомендуется указывать конкретный транскрипт по базе RefSeq, который оптимален для ваших задач.
Несмотря на наличие «стандартных» последовательностей, на сегодняшний день каждый исследователь самостоятельно определяет, какой транскрипт использовать для аннотации, интерпретации и представлении информации о вариантах в любом гене исходя из целей анализа.
Мы призываем крайне ответственно подходить к выбору последовательностей для исследований.
Роль референсного генома и выбор транскриптов
Референсный геном — это универсальная система координат для аннотации вариантов, но привязка к геномным координатам оказывается мало информативной для интерпретации значимости той или иной замены. Положение варианта относительно мРНК или транслированного белка гораздо важнее с точки зрения аннотации. Однако разнообразие последовательностей транскриптов и кодируемых ими белков значительно затрудняет интерпретацию новых данных. Ведь в некоторых случаях выбор транскрипта может изменить аннотацию варианта с экзонного на интронный или с мутации приводящей к сдвигу рамки считывания на вероятно доброкачественный полиморфизм в некодирующей части гена. Поэтому выбор наиболее биологически и клинически значимого транскрипта является критически важным этапом в процессе интерпретации вариантов.
Базы данных для выбора транскриптов
Для оптимизации и стандартизации выбора наиболее релевантного транскрипта используются различные базы данных, о которых мы рассказывали ранее. Наиболее популярные из них - Ensembl и RefSeq. Последняя содержит хорошо аннотированные референсные последовательности генов, транскриптов и белков и используется для аннотации вариантов в ПО OncoScope™ Software и Seq&Go Software.
Проект MANE: единый набор репрезентативных транскриптов
Ensembl и RefSeq - два независимых проекта, которые объединились с целью создать единый референсный набор репрезентативных транскриптов и соответствующих им белков человека - MANE. В проект MANE включают такие транскрипты генов, экзоны которых одинаково аннотированы в базах данных RefSeq и Ensembl. Кроме того, транскрипты MANE соответствуют координатам референсного генома GRCh38 и отбираются, в том числе на основе биологически значимых критериев, таких как уровень экспрессии и консервативность кодирующих областей.
В настоящее время проект включает:
- MANE Select: содержит уникальный репрезентативным с точки зрения биологической значимости транскрипт гена. Эта база используется в качестве универсального стандарта для составления клинических отчетов, по умолчанию используется для отображения в браузерах и на ключевых геномных ресурсах. Большинство транскриптов MANE Select отбираются с помощью вычислительных методов, результаты которых критически оцениваются.
- MANE Plus Clinical: включает дополнительные транскрипты генов, для которых транскрипты MANE Select недостаточны для полноценного описания всех клинически значимых вариантов, найденных в открытых источниках.
По умолчанию при дизайне кастомных панелей Парсек Лаб использует MANE транскрипты для получения координат кодирующих последовательностей (CDS). Однако мы не можем гарантировать, что канонический транскрипт содержит требуемое количество экзонов и удобную для интерпретации нумерацию.
Пример различий в аннотациях транскриптов
Например, широко известный геномный вариант в гене BRAF NC_000007.14:g.140753336A>T в транскрипте NM_004333.6 будет обозначаться c.1799T>A и транслироваться в белок как классическая мутация V600E. Но в транскрипте MANE Plus Clinical NM_001374258.1 этот же вариант записывается как c.1919T>A и транслируется как V640E. Разница в записях обусловлена появлением дополнительного десятого экзона в более длинном транскрипте, координаты которого в коротком считаются интронными. Неожиданная запись в форматах кДНК и белка может смутить пациентов и врачей, занимающихся последующей интерпретацией результатов секвенирования.
Поэтому при заполнении анкеты на дизайн рекомендуется указывать конкретный транскрипт по базе RefSeq, который оптимален для ваших задач.
Несмотря на наличие «стандартных» последовательностей, на сегодняшний день каждый исследователь самостоятельно определяет, какой транскрипт использовать для аннотации, интерпретации и представлении информации о вариантах в любом гене исходя из целей анализа.
Мы призываем крайне ответственно подходить к выбору последовательностей для исследований.