Новости

Эволюция геномных баз данных: от GenBank к RefSeq, Ensembl, LRG и MANE Select

Мы уже рассказывали о референсном геноме, как о системе координат, относительно которой строится общение между исследователями. А откуда берутся референсы? Из баз геномных данных.

Одной из самых известных баз данных является GenBank. Однако, со временем GenBank столкнулся с серьезной проблемой – его начали "заваливать" огромными объемами информации, значительная часть которой была либо избыточной, либо недостаточно хорошо аннотированной. Это привело к усложнению поиска релевантных данных и необходимости в более организованных и стандартизированных базах геномной информации. В ответ на эту потребность были созданы различные специализированные базы данных, такие как RefSeq, Ensembl, LRG и MANE Select, которые предоставляют комплексную информацию о генах, транскриптах и вариантах в геномах различных организмов, включая человека.

Каждая из этих баз данных имеет свои уникальные особенности и направленность, способствуя как фундаментальным исследованиям в области генетики, так и диагностическим процедурам в клинической практике.

RefSeq (Reference Sequence Database)
RefSeq - это часть GenBank’а, база данных, созданная и поддерживаемая Национальным центром биотехнологической информации (NCBI) США. Она предоставляет хорошо аннотированные референсные последовательности геномов, транскриптомов и протеомов. RefSeq включает данные о генах, РНК и белках для множества организмов, что позволяет ученым использовать стандартные референсные последовательности для анализа генетических данных.

При дизайне кастомных панелей Parseq Lab опирается на базу RefSeq.

Ensembl
Ensembl – это независимый от GenBank’а, совместный проект Европейского института биоинформатики (EBI) и Института Сенгера, направленный на создание и поддержание базы данных геномов различных организмов, включая человека. Наполнение базы Ensembl ведется избранными Европейскими институтами. Ensembl предоставляет аннотированные геномные данные, которые включают информацию о генах, регуляторных элементах, вариантах и других геномных функциях. Ensembl также предлагает инструменты для анализа геномных данных.

MANE Select (Matched Annotation from NCBI and EMBL-EBI)
Разные пути наполнения и аннотирования содержимого двух главных баз привело к определённой путанице в научном сообществе. Что послужило толчком к процессу объединения. MANE Select - это совместный проект NCBI и Ensembl (EMBL-EBI) с целью создания единого, согласованного референсного набора транскриптов для человеческого генома. MANE Select выбирает один транскрипт для каждого белок-кодирующего гена, который наиболее подходит для клинических и генетических исследований.

MANE Plus Clinical

В дополнение к MANE Select был создан проект MANE Plus Clinical, который ориентирован на расширение аннотаций для включения транскриптов, важных для клинических исследований, но не включенных в основной набор MANE Select. Этот проект призван обеспечить более широкий охват и более детализированные аннотации, поддерживая клинические исследования на более высоком уровне точности и надежности. MANE Plus Clinical позволяет использовать различные транскрипты в зависимости от их значимости в контексте конкретных клинических ситуаций.

LRG (Locus Reference Genomic)

LRG - это ресурс, созданный для предоставления стабильных референсных геномных последовательностей для клинически значимых генов. LRG обеспечивают последовательности, которые не изменяются со временем, что особенно важно для клинических исследований и диагностики, где требуется стабильность и повторяемость данных. LRG включает стабильные референсные последовательности и аннотации, которые могут использоваться в клинической генетике.

Эти базы данных обеспечивают стандартизированные и хорошо аннотированные референсные последовательности, что значительно упрощает исследовательскую и клиническую работу в области геномики. Их использование позволяет ученым и медицинским специалистам работать с точной, надежной и актуальной генетической информацией, что способствует развитию как фундаментальной науки, так и клинической практики.
Блог Инфопоток