Снип минимальная глубина заложения фундамента: Глубина заложения ленточного фундамента дома

Содержание

Глубина заложения ленточного фундамента дома

III. Упрощенный расчет монолитного малозаглубленного ленточного фундамента для стандартных случаев

Глубина заложения ленточного фундамента

Определяя глубину заложения ленточного фундамента, следует иметь в виду следующие принципиальные факторы:

Фундамент должен опираться на грунт с достаточной несущей способностью.

На глинистых грунтах фундамент должен прорезать слои, где возможны сезонные движения грунта из-за изменения режима влажности (влияние растительного покрова, кустарника, деревьев).

Фундамент должен прорезать слои, где возможны движения грунтов при замерзании.

Фундамент должен опираться на грунты, несущая cпособность которых не меняется при водонасыщении.

С увеличением глубины заложения фундамента, основание способно нести большие нагрузки.

Выбор рациональной глубины заложения фундаментов в зависимости от учета указанных выше условий рекомендуется выполнять на основе технико-экономического сравнения различных вариантов. При требуемой большой глубине заложения ленточного фундамента возможно дешевле будет применить фундамент другого типа: свайный, свайно-ростверковый или поверхностный фундамент из монолитной железобетонной плиты. Максимальная экономически оправданная глубина заложения ленточного фундамента по английским рекомендациям – 2,5 метра.

Минимальная глубина заложения мелкозаглубленного ленточного фундамента определяется глубиной промерзания грунта, степенью пучинистости грунта и высотой грунтовых вод. Чем больше в грунте воды и чем ближе она к поверхности (уровню планировки), чем больше глубина промерзания грунта, тем сильнее будут силы пучения, воздействующие на малозаглубленный фундамент снизу, по касательной и сбоку. Эти силы будут выталкивать малозаглубленный фундамент к поверхности, и будут сдавливать фундамент. Чтобы снизить степень воздействия этих сил, ленточный фундамент придется заглублять. Кроме заглубления на силы морозного пучения можно влиять утеплением грунта, полной или частичной заменой грунта, его уплотнением, водоотведением и дренированием.

Заложение ленточного фундамента на глубину менее глубины сезонного промерзания грунтов возможно только при проведении «специальных теплотехнических мероприятия, исключающие промерзание грунтов» [пункт 2.29 СНиП 2.02.01-83, пункт 12.2.5 СП 50-101-2004].Втерриториальных строительных нормах ТСН МФ-97 Московской области указывается, что при проектировании и устройстве мелкозаглубленных фундаментов малоэтажных зданий рекомендуется “применение утеплителей, укладываемых под отмостку” с обязательной защитой их гидроизоляцией.

По строительным нормам Великобритании минимальная глубина заложения мелкозаглубленного ленточного фундамента на всех типах грунтов (кроме скального и глинистого) равняется 45 см BR 2010, A1/2, 2E4]. По отечественным нормам [п. 2.30 СНиП 2.02.01-83] минимальная глубина заложения ленточного фундамента составляет 50 см. На скальном грунте, при физической невозможности заглубления, ленточный фундамент может быть устроен прямо на поверхности без заглубления. Минимальная глубина закладки мелкозаглубленного ленточного фундамента на глинистых (и других пучинистых) грунтах по британским нормам составляет 75 см (оптимальная глубина заложения 90-100 см).

Таблица №15. Рекомендуемые минимальные глубины заложения ленточных фундаментов (Великобритания).

Грунт

Глубина заложения фундамента

Примечание

Скальный, каменистый грунт

45 см или менее

При невозможности заглубления фундамент может устраиваться по поверхности земли.

Глина

75 -100 см

Глубина заложения фундамента может быть увеличена при наличии близко растущих деревьев.

Пески, супеси, суглинки

45-90 см

В «Рекомендациях по проектированию оснований и фундаментов на пучинистых грунтах» (Москва, 1972) указывается, что наиболее рациональным решением при проектировании фундаментов будет заложение ленточных фундаментов на глубину 0,5-0,6 м от планировочной отметки. При этом должны быть предусмотрены следующие инженерно-мелиоративные и строительно-конструктивные мероприятия, направленные на снижение потенциала пучинистости подлежащих грунтов. Под ленточным фундаментом должна быть устроена песчаная подушка минимальной толщиной 20 см и максимальной – до трех размеров ширины фундамента. Рядом с фундаментом в траншее ниже песчаной подушки устроить систему дренажа с отводом воды в нижележащие песчаные слои или вниз по рельефу. Толщина засыпки пазух между фундаментом и грунтом должна составить не менее 20 см. Вокруг здания на ширину 2-3 м по поверхности уложить 10-15 см почвенный слой с уклоном от здания и посеять многолетние дернообразующие травы. При невозможности задернения поверхности грунта вокруг здания следует сделать отмостку шириной до 1 м.

В некоторых отечественных нормативных документах определено ограничение использование технологии малозаглубленного ленточного фундамента в климатических зонах с глубиной промерзания грунта свыше 1,7 метра. Также, в случае чрезмерной мягкости, возможной подвижности (пески, супеси, водонасыщенные грунты) и малой несущей способности поверхностных слоев почвы, глубина заложения мелкозаглубленного ленточного фундамента может быть увеличена до глубин достижения грунтов с хорошими несущими способностями и стабильными характеристиками.

Глубину заложения мелкозаглубленного ленточного фундамента допускается назначать независимо от расчетной глубины промерзания, если фундамент опираются на пески с подтвержденным отсутствием пучинистости. Другой возможностью отступить от привязки глубины заложения ленточного фундамента к глубине промерзания грунта являются » специальные теплотехнические мероприятия, исключающие промерзание грунтов» [Пункт 2.29 СНиП 2.02.01-83].

Таблица №16. Рекомендуемые минимальные глубины заложения ленточных фундаментов.*

Расчетная глубина промерзания условно непучинистого грунта

Расчетная глубина промерзания слабо пучинистого грунта твердой и полутвердой консистенции

Глубина заложения фундамента

до 2 метров

до 1 метра

0,5 м

до 3 метров

до 1,5 метров

0,75 м

Более 3 метров

от 1,5 до 2,5 м

1 м

от 2,5 до 3,5 м

1,5 м

* Таблица адаптирована на основании таблицы №2 п. 2.30 СНиП 2.02.01-83 «Основания зданий и сооружений»

То есть речь идет о горизонтальном утеплении грунта и вертикальном утеплении мелкозаглубленного ленточного фундамента в совокупности с постоянным поддержанием положительной температуры в доме. По нормам IBC/IRС-2012 R403.3, глубина фундамента может не достигать глубины промерзания, если грунт и фундамент утеплены, и в здании круглогодично поддерживается температура не менее 18 °С Наличие высоко стоящих грунтовых вод может внести свои коррективы в глубину заложения ленточного фундамента. При высоком уровне грунтовых вод вполне возможно, что мелкозаглубленный ленточный фундамент придется превращать в глубоко заглубленный ленточный фундамент. Для ориентира следует руководствоваться требованиями п. 2.30 СНиП 2.02.01-83 «Основания зданий и сооружений»:

Таблица №17. Глубина заложения фундаментов зданий с холодными подвалами и техническими подпольями (имеющими отрицательную температуру в зимний период) в зависимости от глубины расположения уровня подземных вод и глубины сезонного промерзания. *

Грунты под подошвой фундамента, залегающие на глубину не менее нормативной глубины промерзания

Глубина заложения фундаментов в зависимости от глубины расположения уровня подземных вод и глубины сезонного промерзания

Уровень глубины подземных вод выше уровня глубины промерзания грунта + 2 метра

Уровень глубины подземных ниже уровня глубины промерзания + 2 метра

Скальные, крупнообломочные с песчаным заполнителем, пески гравелистые, крупные и средней крупности

не зависит от глубины промерзания грунта

Пески мелкие и пылеватые

не менее глубины промерзания грунта

не зависит от глубины промерзания грунта

Супеси

не менее глубины промерзания грунта

не зависит от глубины промерзания грунта

Cуглинки, глины, а также крупно-обломочные грунты с пылевато-глинистым заполнителем

не менее глубины промерзания грунта

Не менее ½ глубины промерзания грунта

* Таблица адаптирована на основании таблицы №2 п. 2.30 СНиП 2.02.01-83 «Основания зданий и сооружений»

Минимальные расстояния от границы промерзания грунта до уровня подземных вод, при котором грунтовые воды не оказывают влияния на увлажнение промерзающего грунта можно определить по следующей таблице:

Таблица №18. Минимальные расстояния от границы промерзания грунта до уровня подземных вод *

Наименование грунта

Значение минимального расстояния до уровня подземных вод, м

Глина с монтмориллонитовой и иллитовой основой

3,5

Глины с каолинитовой основой

2,5

Суглинки пылеватые

2,5

Суглинки

2,0

Супеси пылеватые

1,5

Супеси

1,0-1,3

Пески пылеватые

1,0

Пески мелкие

0,8

* Таблица адаптирована с упрощениями на основании таблицы №3 ВСН 29-85 «Проектирование мелкозаглубленных фундаментов на пучинистых грунтах».

Если грунт на вашем участке пучинистый и грунтовые воды стоят высоко, то целесообразно подумать о применении другого типа фундамента: свайного или свайно-ростверкового (свайный фундамент с несущими балками). Такой фундамент не боится ни морозного пучения, ни высокого грунтовых вод.

Стоп-халтура! Под свайным фундаментом понимаются бетонные сваи на опорных площадках, сваи ТИСЭ, буронабивные сваи, или винтовые сваи большого диаметра промышленного производства из толстостенной оцинкованной или нержавеющей стальной трубы. Для жилых зданий предлагаются винтовые сваи с несколькими уровнями лопастей для увеличения несущей способности и предупреждения просадки свай. Такие сваи могут быть установлены только механизированным способом. Тонкостенные (4 мм) винтовые сваи из бывшей в употреблении трубы, диаметром 10 см из неоцинкованной стали, с кустарно приваренными лопастями, закручиваемые в землю ручным сбособом, подойдут только для неответственных сооружений типа времянок, небольших садовых домиков, беседок, гульбищ, дек, настилов, сараев, туалетов и заборов.

Как определить глубину заложения фундамента

Уже на этапе оценки характера грунта стоит задуматься над тем, какой будет глубина заложения фундамента. От этого зависит не только объем земляных работ, но и будущие затраты на строительные материалы. В этой статье мы поговорим о том, на какую глубину копать фундамент, от чего стоит отталкиваться при выборе конкретных параметров будущего основания дома. При этом будем руководствоваться нормативным документом СНиП 2.02.01–83, с которым советуем ознакомиться и нашим читателям.

Определение глубины фундамента под дом

Если еще недавно большинство индивидуальных застройщиков стремилось к возведению загородных домов, в проекте которых обязательно должен был быть либо подземный гараж, либо подвал (что уже само по себе требовало большого заглубления фундамента), то сегодня переплачивать за такое удовольствие 15-20 тыс. $ мало кому хочется. Допустим, что с большой высотой фундамента над землей можно смириться – все-таки уже часть надземной постройки, а вот зарывать деньги в землю не всегда хочется. Поэтому в большинстве случаев все сводится к заглублению фундамента на достаточную минимальную глубину. От чего она зависит?

Что учитывается при расчете глубины заложения фундамента

Все тот же СНиП 2.02.01–83 определяет, на что стоит обращать внимание при выборе глубины заложения фундамента под дом:

в первую очередь, на проект строящегося дома. Например, стоит рассчитать нагрузку на фундамент со стороны дома. О том, как это сделать, мы писали в этой статье;
конечно же, самого пристального внимания требует грунт на стройплощадке, глубина промерзания грунта (ГПГ), а также уровень грунтовых вод (УГВ), который меняется сезонно;
если рядом с уже построенным зданием планируется возведение иной постройки, то нужно руководствоваться иными правилами выбора глубины заложения основания. В статье «Фундамент для пристройки к дому» этот вопрос изложен достаточно подробно. Так же придают немалое значение глубине прокладки инженерных коммуникаций, которые не должны быть расположены ниже подошвы фундамента;
многое зависит от рельефа территории, на которой находится стройплощадка

Расчет нормативной глубины сезонного промерзания грунта

В принципе, рассчитывать нормативную ГПГ вовсе необязательно. Можно, например, воспользоваться информацией, представленной на рисунке ниже и с достаточной степенью точности вычислить ГПГ для вашего участка.

А можно пойти по более сложному пути и воспользоваться следующей формулой:

d₁=d₀√M, где
d₁ – искомое значение нормативной сезонной ГПГ;
d₀ – величина, которая зависит от характера грунта. Так, для скальных и крупнообломочных грунтов она принимает значение 0,34 м, для крупных и средних песков – 0,3, для супесей и мелких песков – 0,28, для глин и суглинков – 0,23;
M – коэффициент, принимающий значение модуля среднемесячной отрицательной температуры за зиму. Например, в декабре средняя температура составила -10 °С, в январе – -16 °С, в феврале – -18°С. Тогда наш коэффициент М примет значение 14,7.
Для глинистого грунта, используя значение коэффициента М, полученное ранее, получаем:
d₁=0,23×√14,7=0,88 м

Величина расчетной ГПГ

Однако полученное значение нормативной ГПГ не учитывает влияние теплового режима отапливаемого сооружения. А ведь в половине случаев загородная недвижимость используется и в зимнюю пору. Для расчета более точного значения ГПГ вводят соответствующий коэффициент, величина которого зависит от ряда факторов (см. таблицу ниже).

Тогда величина расчетной ГПГ будет определяться по следующей формуле:
d=k×d₁
Обращаем ваше внимание, что для неотапливаемых зданий коэффициент k принимают равным 1,1. Это актуально для дачных построек и бань, которые используются только в теплую пору.

Глубина заложения фундамента в зависимости от УГВ и ГПГ

Глубина заложения фундаментов для наружных типов определяется от уровня планировки по таблице, представленной ниже. При этом учитывается значение расчетной ГПГ и УГВ.

В отдельных случаях, когда определено, что грунт на участке не отличается пучинистыми свойствами, например, на стройплощадке скальный или песчаный грунт, глубина заложения фундамента определяется исходя из проекта дома (с подвалом или без). В целом, даже для пучинистых грунтов можно обеспечить такие условия, что зимой почва под домом промерзать не будет и, соответственно, не будет никаких отрицательных последствий для сооружения.

То, на какую глубину «копать фундамент», зависит по большей части от характера грунта. На рисунке выше мы изобразили различные варианты заглубления, которые применяют на практике в индивидуальном строительстве. После того как выкопаете шурфы и исследуете грунт, сможете выбрать наиболее подходящий для вас вариант строительства основания дома, определить, какой будет высота и ширина фундамента.

Загрузка…

Глубина заложения фундамента –

При любом строительстве глубина заложения фундамента является одной из важнейших расчетных проектных характеристик. Она определяется по нормам СНиП 2.02.01-83 и выполнить правильный расчет можно самостоятельно. От правильного расчета зависит несущая способность всего здания и его долговечность, а также стоимость самих работ и материалов. Наша компания готова заняться строительством фундамента под ключ Вашего дома.

Глубина заложения фундамента зависит от типа грунта, глубины промерзания, от параметров и назначения постройки, климатической зоны. Основная характеристика почвы в этом случае — пучинистость или непучинистость. Пучинистые грунты промерзают в зимнее время, в результате чего увеличиваются в объеме. Непучинистыми являются почвы, где земля не промерзает в силу климатических условий или имеют скальную каменистую, песочную структуру.

В наших климатических условиях большинство грунтов являются пучинистыми. Глубина заложения фундамента в них определяется глубиной промерзания грунта:

при глубине промерзания до 1 м фундамент закладывается на глубину 0.5 м;

при промерзании до 1.5 м фундамент закладывается на 0.75 м;
промерзание о 2.5 м — закладка на 1 м;
промерзание на 3.5 м — фундамент на глубине 1.5 м.

Другие величины принимаются на непучинистых почвах:

промерзание до 2 м — закладка на 0.5 м;
промерзание до 3 м — фундамент на 0.75 м;
промерзание от 3 м — фундамент на глубине 1 м.

До недавнего времени использовалось общее правило для всех типов почв: глубина заложения фундамента принималась на 0.5 м ниже, ем глубина промерзания. Но такой подход делает строительство слишком затратным и сейчас чаще используется достаточная минимальная безопасная глубина.

Принимается во внимание и вес строения, который рассчитывается исходя из массы используемых материалов, предполагаемого внутреннего оборудования и коммуникаций, нагрузок в зависимости от сезонных условий. При деревянном домостроении глубина заложения фундамента может быть меньше, чем при возведении тяжелых кирпичных жомов, но при расчете во внимание принимаются обильные снегопады.

Если к уже существующим строениям достраиваются новые корпуса, вес готовой конструкции также должен учитывать общую массу всего строения, часть которой придется на фундамент новой конструкции. Пользуясь параметрами СНиПа, можно учесть все необходимые данные и выбрать оптимальную по характеристикам и стоимости работ глубину заложения фундамента.

Глубина заложения мелкозаглубленной фундаментной плиты

Ленточный фундамент по праву занимает первое место в индивидуальном жилом строительстве среди прочих подтипов фундаментных конструкций. Они недорогой, простой в монтаже и эксплуатации. Но прежде чем приступать к монтажу, следует определить их технические параметры, важнейшим из которых является размер глубины заложения. Эта характеристика зависит от множества факторов, разобраться в которых не составит труда даже для начинающего строителя.

От чего зависит глубина заложения фундамента

Два типа ленточных фундаментов – глубокого заложения и мелкозаглубленный – отличаются геометрическими параметрами, но общие принципы расчета их характеристик остаются одинаковыми. Нижняя отметка фундаментной плиты – это нефиксированное значение, по большей части результат эмпирических расчетов, чем точных математических операций. Государственный стандарт не предусматривает утвержденного размера, только дает предписания и приблизительный диапазон глубин. Фактически глубину заложения предопределают следующие параметры:

Руководствуясь вышеуказанными данными, обычно определают не только подходящую глубину заложения, но наиболее рациональный и тип фундаментной плиты. Такие данные как глубина промерзания и предел прочности можно найти, изучив соответствующую документацию, например, СНиП 2.02.01-83 или СНиП II-Б.1-62 «Основания зданий и сооружений». Важно отобрать данные в соответствии с климатическим районом, к которому относится регион строительства. Рассмотрим подробнее все остальные перечисленные факторы.

Глубина промерзания почвы

Для ленточного фундамента этот параметр является решающим. На любом типе грунта – пучинистом, непучинистом или сыпучем – основание конструкции должно располагаться либо ниже отметки мерзлого слоя, либо в пределах её центральной части. Поскольку при замерзании происходит деформация пласта, рекомендуется устраивать фундаменты таким образом, чтобы они опирались на прочный незамерзающий слой.

Заложение фундамента ниже глубины промерзания грунта

Основание ленточного мелкозаглубленного фундамента располагают в пределах зоны промерзания, поскольку нагрузки на конструкцию такого типа незначительны и фактор промерзания грунта не оказывает существенного влияния на устойчивость сооружения. Для ленточных фундаментов глубокого заложения важно сооружать траншеи глубже, чем располагается промерзающий слой почвы.

Данные о средней глубине промерзания грунта в определенном регионе находятся в свободном доступе в интернете или соответствующих СНиПах. При этом максимальная глубина заложения ленточного мелкозаглубленного фундамента составляет 700 мм, а минимальная отметка основания фундаментов глубокого заложения зависит от региона строительства, но должна быть не менее 0,7 метра.

Геологические изыскания

Для большей уверенности в надежности и капитальности возводимого здания или сооружения проводят мероприятия, связанные с исследованием геологии участка. Геологию необходимо изучать, чтобы узнать состояние грунтовых оснований, тип грунта, а также удостовериться в рациональности выбранного типа фундаментных конструкций.

На высокопучинистых, сыпучих и просадочных грунтах не рекомендуется устраивать монолитные фундаменты, и вообще, ленточные жёстко закреплённые конструкции – в данном случае предпочтительны свайные конструкции. Информация о состоянии грунта в этом случае может спасти от существенных проблем при эксплуатации. По результатам изысканий, подрядчик также получает данные о расположении надежного несущего слоя и уровне нахождения грунтовых вод.

Грунтовые воды

Схема расположения грунтовых вод

В соответствии с данными об уровне грунтовых вод глубина траншеи может значительно измениться. Причем, изменения могут быть и в сторону увеличения, и в сторону уменьшения глубины заложения. Для мелкозаглубленного ленточного фундамента этот фактор не столь критичен, поскольку грунтовые воды редко находятся на отметке менее 700 мм.

В любом случае, следует учитывать этот показатель, поскольку даже гидроизоляция фундаментных конструкций не сможет создать полноценную их защиту от коррозии вследствие взаимодействия с грунтовыми водами.

Расчет нагрузки

Эти показатели не критичны в индивидуальном жилом строительстве, а тем более при устройстве ленточного мелкозаглубленного фундамента. Обычно прочности фундаментов, глубина которых более 1,2 метра, а ширина соответствует ширине стеновых конструкций, хватает для работы с двухэтажными сооружениями. А устанавливать сложные и массивные сооружения на ленточный мелкозаглубленный фундамент вообще не следует – они предназначены для легких построек из бруса или бревен.

Итоговый расчет глубины заложения

Собрав воедино все полученные сведения о грунтовом основании, глубине промерзания, типе фундамента и его несущей способности, можно приступать к устройству траншеи. Принципиальная схема расчета глубины заложения не зависит от того, монолитный или сборный фундамент будет сооружен. Посмотрев видео, Вы узнаете, как заложить и залить фундамент без ошибок.

Устраивая траншею, следует учесть размер амортизирующей песчаной подушки – нижний обрез фундаментной плиты должен находиться на расчетной отметке, а песчаная прослойка располагаться ниже неё. Размер возможной выступающей части фундамента зависит от выбранной ширины продольного сечения плиты и должен быть максимум в четыре раза больше этого значения.

Глубина заложения фундаментов в зданиях с техническим подпольем или подвалом не имеет значения, поскольку такие фундаментные конструкции находятся заведомо ниже уровня промерзания и залегания грунтовых вод. Если же подвал отсутствует, следует проделать небольшие вентиляционные отверстия в выступающей над землей части фундамента для проветривания подпола. Следует также учесть, что верхний плодородный или техногенный слой лучше удалять при планировке, поэтому размер глубины фундаментной плиты отсчитывается от уже распланированного уровня грунта.

Глубина заложения фундамента — узнайте как определить!

Глубина заложения фундамента

При индивидуальном строительстве началу общестроительных работ предшествует составление проекта. Так, в частности производится определение конфигурации фундамента под строение и расчет его размеров и характеристик.

Ширина и протяженность фундамента, площадь его опоры зависит от веса конструкции дома и характеристик грунта на участке.

Также от характеристик грунта зависит и глубина заложения фундамента. Это достаточно важная величина, ведь от нее зависит не только и не столько объем земляных работ при создании опалубки для бетонной отливки фундамента, не только затраты на приобретение строительных материалов, но и то, как поведет себя ваш фундамент в течении всего периода эксплуатации вашего дома.

В большей части нашей страны зимой наступают холода, грунт промерзает. Влага, содержащаяся в грунта расширяется и грунт начинает «пучиниться», то есть увеличивать свой объем, выталкивая погруженную в него строительную конструкцию на поверхность. Это может привести к повреждению фундамента и строения.

Основным нормативным документом, описывающим глубину заложения фундаментов при строительстве является стандарт СНиП 2.02.01–83, мы постараемся изложить его идеи в доступном виде.

Определяем глубину заложения фундамента под дом

Закладка фундамента под дом, как правильно и как не правильно

Общим правилом для возведения фундаментов капитальных жилых строений до последнего времени являлось его заглубление ниже уровня промерзания грунта. Как правило нижний уровень фундаментного основания опускался примерно на полметра ниже этой линии. В ходе строительства производился существенный объем работ по утеплению и гидроизоляции вертикальных и горизонтальных поверхностей фундамента, и в конечном итоге помещения, ограниченные стенами фундаментного основания становились пригодными для бытовой или хозяйственной деятельности. Однако это удовольствие обходилось недорого и иногда такие затраты были неоправданы и большие и глубокие подвалы долгие годы пылились у владельцев без дела.

Однако многие владельцы домов не стремятся создавать подвалы, похожие на имперские бункеры и будут счастливы удовлетвориться минимальной глубиной залегания фундаментного основания, достаточной для нормального функционирования сооружения.

На что влияет сделанный неправильно расчет глубины заложения

Параметры, влияющие на глубину заложения фундамента

Параметры, определяющие величину глубины заложения фундамента определяются в уже упомянутом выше стандарте СНиП 2.02.01–83. Перечислим основные характеристики, от которых зависит глубина нижней линии фундамента.

Во-первых, это вам проект дома, его вес. Вес строения суммируется не только из массы строительных материалов, но и из полезной нагрузки (например, оборудование и инфраструктура) и из временных нагрузок, которые могут вызываться различными климатическими или сезонными условиями. Эта сумма определит площадь основания фундамента и его необходимую прочность.
Во-вторых, на процесс строительства существенно влияет глубина промерзания грунта и уровень, на который могут подниматься грунтовые воды на вашем участке. И та и другая величина изменяются в течении года и могут изменяться от года к коду.
Особое внимание оказывается, если новый фундамент служит для создания пристройки к дому. В этом случае его параметры выбираются в том числе и исходя из характеристик соседнего строения.
Также характеристики фундамента зависят от рельефа участка местности, на котором расположена ваша строительная площадка.

Карта для определения глубины промерзания грунта

Рассчитываем глубину промерзания грунта на вашем участке

В принципе, глубина промерзания грунта может быть получена из карт, которые составлены на основании многолетних климатических исследований. Для этого составлены специальные карты, на которых линиями определена средняя величина зимнего промерзания грунта.

Однако эта карта показывает скорее «среднюю температуру по больнице». Для того, чтобы точно вычислить глубину промерзания грунта конкретно в вашей местности следует воспользоваться специализированной формулой:

d₁=d₀√(M1+М2+М3)

В этой формуле «d_{1» — это та самая величина,}на которую промерзает грунт в вашей местности. Она вычисляется как квадратный корень из сумм показателей ежемесячных отрицательных температур зимних месяцев в вашей местности, умноженный на специальный коэффициент, который зависит от характеристик грунта.

Величина специального коэффициента берется из таблиц и зависит от состава и консистенции грунта:

«0,34» — для скального грунта или грунта из крупных обломков скал,
«0,30» — для грунта из песка крупной или средней фракции,
«0,28» — для грунта, состоящего из мелкого песка и для супесей,
«0,23» — для суглинистого грунта.

Возьмем условную местность, в которой в декабре средняя температура составил «-10 градусов», в январе этот показатель составил «-16 градусов», а в феврале – «-18 градусов». Извлекаем из суммы этих показателей квадратный корень и умножим его на коэффициент «0,28». Итак, в нашей условной местности, мелкопесчаный грунт зимой будет промерзать на 1,34 метра.

Влияние помещения на глубину промерзания грунта

Но на грунт, расположенный под строением может влиять и само строение. Конечно, тепловое воздействие сарая или неотапливеамого гаража можно и не учитывать, но если ваш дом будет обладать круглосуточным отоплением – то такие влиянием пренебречь никак нельзя.

Вследствие этого на глубину промерзания дома под конкретным отапливаемым строением вводят еще один коэффициент.

Для того, чтобы определить глубину промерзания грунта под постоянно отапливаемыми помещениями необходимо вычисленную среднюю расчетную величину умножить на этот коэффициент.

Рассчитываем глубину заложения фундамента в зависимости от глубины промерзания грунта и уровня подъема грунтовых вод

Для расчета глубины заложения фундамента в зависимости от рассчитанной на основе формул и параметров глубины промерзания грунта и величины подъема грунтовых вод также воспользуемся специальной таблицей.

Пренебречь уровнем промерзания грунта можно на грунтах, которые не отличаются пучинистостью. К таковым могут относиться, например, скальные грунты. Они практически не изменяют своего объема при замерзании, так как фактически не содержат влаги.

Кроме того, при грамотном проектировании индивидуального жилого дома можно продумать такую конструкцию строения, что грунт под фундаментом вашего дома не будет промерзать вообще, вследствие чего глубину заложения фундамента можно будет выбирать исключительно исходя из ваших эстетических предпочтений.

Глубина заложения фундамента

На приведенном выше рисунке приведены различные варианты решения вопроса с глубиной залегания фундамента. Как видите, основные проблемы, которые влияют на величину заложения фундамента вызываются характеристиками почвы под домом. Если исключить ее неблагоприятное влияние на фундамент и сезонном замерзании, то глубина заложения может быть выбрана на любой величины в соответствии с проектом.

Какой глубины должен быть фундамент

Согласно нормам строительства для того чтобы противостоять силам морозного пучения, подошву необходимо заглублять на 15-20 см ниже уровня промерзания для грунта. При выполнении этого условия фундамент называют «глубокого заложения» или «заглубленный».

При глубине промерзания больше 2 метров проведение земляных работ имеет очень большие объемы, велик также расход материалов и очень высока цена. В этом случае рассматривают другие типы фундаментов — свайные или свайно-ростверковые, а также возможность заложения выше нормативной точки промерзания. Но это возможно только при наличии грунтов с нормальной несущей способностью, обязательном утеплении цоколя и фундамента, а также при устройстве утепленной отмостки. В этом случае глубина заложения уменьшается в разы и обычно составляет менее метра.

Иногда фундамент заливают прямо на поверхности. Это — вариант для хозпостроек, причем, скорее всего из древесины. Только она в таких условиях способна компенсировать возникающие перекосы.

Первым делом вы должны определиться с местом для дома на участке

Место дома на участке

Перед началом планирования дома, вы должны решить, в каком месту участка хотите поставить дом. Если геологические исследования уже есть, учитывайте их результаты: чтобы меньше было проблем с фундаментом, имел он минимальную стоимость, желательно выбрать самый «сухой» участок: там, где грунтовые воды находятся как можно ниже.

Далее в выбранном месте проводят геологические исследования почвы. Для этого бурят шурфы на глубину от 10 до 40 метров: зависит от строения пластов и планируемой массы здания.

✍Скважин делают как минимум, пять: в тех, точках, где планируются углы и посередине.

Исследуем геологию своими руками

Для проверки геологического строения грунтов своими руками вооружаемся лопатой. Во всех пяти точках — под углами будущего строения и в середине — придется копать глубокие ямы. Размер: метр на метр, глубина — не менее 2,5 м. Стенки делаем ровные (хотя бы относительно). Выкопав яму, берем рулетку и листок бумаги, замеряем и записываем слои.

Что можно увидеть в разрезе👇

Сверху идет самый темный слой — плодородный. Его толщина от 10 см до 1,5 метров, иногда больше. Этот слой обязательно удаляется. Во-первых, он рыхлый, во-вторых, в нем живут разные животные/насекомые/бактерии/грибки. Потому сразу после разметки фундамента первым делом этот слой удаляют.
Ниже расположен естественный грунт. Таким он был до «обработки» животными и микроорганизмами. Тут могут быть такие грунты;
Плотный песок (крупный, средний, с гравием). Отличное основание для постройки дома: и вода уходит быстро и основание надежное. На таких грунтах можно ставить дом на мелкозаглубленный фундамент (глубина заложения от 50 см).
Сыпучие пески (мелкие и пылеватые). Если подземные воды расположены глубоко, строится можно. Но эти грунты опасны тем, что плывут при насыщении водой.
Глина, суглинок, супесь. Ведут себя точно также как и пылеватые пески: при намокании плывут, если воды мало, но их несущая способность высокая. Тут еще нужно смотреть на количество осадков в регионе.
Торфяники. Самые ненадежные основания. На них можно строиться только с использованием столбчатых фундаментов. И то, только при условии, что не очень глубоко расположен слой грунта с хорошей несущей способностью.

Необходимо определить, что за грунты в каждом слое

Часто сложности возникают при попытках различить глиносодержащие грунты. Иногда достаточно только на них посмотреть: если преобладает песок и имеются вкрапления глины — перед вам супесь. Если преобладает глина, но есть и песок — это суглинок. Ну а глина не содержит никаких вкраплений, копается тяжело.

Есть еще один метод, который поможет вам удостоверится насколько правильно вы определили грунт. Для этого из увлаженного грунта скатывают руками валик (между ладонями, как когда-то в детском саду) и сгибают его в бублик. Если все рассыпалось — это малопластичный суглинок, если развалилось на куски — пластичный суглинок, если осталось целым — глина.

✍Определившись с тем, какие грунты у вас находятся на выбранном участке, можно приступать к выбору типа фундамента.

Глубина заложения фундамента в зависимости от от типа грунта и уровня грунтовых вод

Таблица с рекомендуемой глубиной заложения фундамента в зависимости от типа грунта и уровня подземных вод (чтобы увеличить размер картинки, щелкните по ней правой клавишей мышки)

Все особенности проектирования описаны в СНиП 2.02.01-83*.

Обобщенно все можно свести к следующим рекомендациям:

При планировании на скальных, песчаных крупной и средней крупности, гравенистых, крупнообломочных с песчаным заполнителем грунтах глубина залегания фундамента от уровня расположения подземных вод не зависит.
Если под подошвой фундамента находятся мелкие или пылеватые пески, то при уровне подземных вод расположенных на 2 метра ниже уровня промерзания грунта, глубина заложения фундамента может быть любой.
Если воды находятся выше этой отметки, то закладывать фундамент нужно ниже уровня промерзания.
Если под подошвой находится будут глины, суглинки, крупнообломочные грунты с пылеватым или глинистым заполнителем, то фундамент однозначно должен быть ниже уровня промерзания (от уровня подземных вод не зависит).

Как видите, в основном уровень заложения фундамента фундамента определяется наличием подземных вод и тем, насколько сильно промерзают грунты в регионе. Именно морозное пучение становится причиной проблем с фундаментами (или изменение уровня грунтовых вод).

Глубина промерзания грунтов

По этой карте можно примерно определить уровень промерзания грунтов в регионе (чтобы увеличить размер картинки, щелкните по ней левой клавишей мышки)

Чтобы примерно определить до какого уровня промерзают грунты в вашем регионе, достаточно взглянуть на расположенную ниже карту.

Но это — усредненные данные, так что для конкретной точки определить значение можно с очень большой погрешностью. Для пытливых умов приведем методику расчета глубины промерзания грунта в любой местности. Вам нужно будет знать только средние температуры за зимние месяцы (те, в которых среднемесячная температура имеет отрицательные значения).

Формула расчета глубины промерзания

Можете посчитать сами, формула и пример расчета выложены ниже.
Dfn — глубина промерзания в данном регионе,
Do — коэффициент, учитывающий типы грунта:

для крупнообломочных грунтов он равен 0,34;
для песков с хорошей несущей способностью 0,3;
для сыпучих песков 0,28;
для глин и суглинков он равен 0,23;

Mt — сумма среднемесячных отрицательных температур за зиму в вашем районе. Находите статистику службы метрологии по вашему региону.
Выбираете месяца, в которых среднемесячная температура ниже нуля, складываете их, находите квадратный корень (есть функция на любом калькуляторе). Результат подставляете в формулу.

👉Например, собираемся строиться на глине. Средние зимние температуры в регионе: -2°C, -12°C, -15°C, -10C, -4°C.

👉Расчет промерзания грунта будет таким:
Mt=2+12+15+10+4=43, находим квадратный корень из 43, он равен 6,6;
Dfn= 0,23*6,6= 1,52 м.

Получили, что расчетная глубина промерзания по заданным параметрам: 1,52 м. Это еще не все, учесть нужно будет ли отопление, и, если будет, какие температуры будут поддерживаться в нем.
Если здание неотапливаемое (баня, дача, стройка будет идти несколько лет), применяют повышающий коэффициент 1,1, который создаст запас прочности. В этом случае глубина заложения фундамента 1,52 м * 1,1 = 1,7 м.

Если здание будет отапливаться, грунт тоже будет получать порцию своего тепла и промерзать будет меньше. Потому при наличии отопления коэффициенты понижающие. Их можно взять из таблицы.

Коэффициенты, учитывающие наличие отопления в здании. Получается, чем теплее в доме, тем на меньшую глубину нужно заглублять фундамент. Коэффициенты, учитывающие наличие отопления в здании. Получается, чем теплее в доме, тем на меньшую глубину нужно заглублять фундамент (чтобы увеличить размер картинки, щелкните по ней)

👉Итак, если в помещениях будет постоянно поддерживаться температура выше +20°С, полы с утеплением, то глубина заложения фундамента будет 1,52 м * 0,7 = 1,064 м. Это уже меньшие затраты, чем углубляться на 1,52 м.
В таблицах и на картах приведен средний уровень за последние 10 лет. Вообще, наверное, в расчетах стоит использовать данные за самую холодную зиму, которая была за последние 10 лет. Аномально холодные и бесснежные зимы бывают примерно с такой периодичностью. И при расчетах желательно ориентироваться на них. Ведь вас мало успокоит, если отстояв 9 лет, на 10-й ваш фундамент даст трещину из-за слишком холодной зимы.

На какую глубину копать фундамент

Глубина заложения фундамента

Вооружившись этими цифрами и результатами исследования участка, нужно подобрать несколько вариантов фундаментов. Самые популярные — ленточный и столбчатый или свайный. Большинство специалистов сходится во мнении, что при нормальной несущей способности грунта их подошва должна находиться на 15-20 см ниже глубины промерзания. Как ее посчитать, мы рассказали выше.

При этом учитывайте следующие рекомендации✍

Опираться подошва должна на грунт с хорошей несущей способностью.
Фундамент должен погружаться в несущий слой минимум на 10-15 см.
Желательно чтобы грунтовые воды располагались ниже. В противном случае необходимо принимать меры по отведению воды или понижению их уровня, а это требует очень больших средств.
Если несущий грунт находится слишком глубоко, стоит рассмотреть вариант свайного фундамента.

Выбрав несколько типов фундамента, определив для них глубину заложения, проводят ориентировочный подсчет стоимости каждого. Выбирают тот, который будет экономичнее.

👉 Еще обратите внимание, что для уменьшения глубины заложения фундамента можно применять утепленную отмостку. При строительстве ленточного фундамента мелкого заложения отмостка обязательна.

Мелкозаглубленный фундамент

Фундамент мелкого заложения

Иногда фундамент глубокого заложения строит очень дорого.
Тогда рассматривают свайный (свайно-ростверковый) или фундаменты мелкого заложения (мелкозаглубленные). Их еще называют «плавающими». Их только два вида — это монолитная плита и лента.

Плитный фундамент считается самым надежным и легко предсказуемым.
У него такая конструкция, что она может получить значительные повреждения только при грубых просчетах при проектировании.
Тем не менее, и его можно испортить.
Тем не менее, застройщики плитные фундаменты не любят: они считаются дорогими. На них уходит много материала (в основном арматуры) и времени (на вязку той же арматуры). Но иногда плитный фундамент получается дешевле ленточного глубокого заложения или даже свайного. Так что не сбрасывайте его сразу со счетов. Он бывает оптимальным, если строить хотят тяжелое здание на пучинистых или сыпучих грунтах.

Мелкозаглубленная лента может иметь глубину от 60 см. При этом она должна опираться на грунт с нормальной несущей способностью. Если глубина плодородного слоя больше, то глубина заложения ленточного фундамента увеличивается.

С ленточными фундаментами мелкого заложения под легкие здания все очень просто: они работают хорошо. Комбинация со срубом из бревна или бруса — это экономный и в то же время надежный вариант. Если и случаются перегибы ленты, то упругая древесина отлично с ними справляется. Почти также хорошо себя на такой основе чувствует себя каркасный дом.

✍Более внимательно нужно просчитывать если на мелкозаглубленном ленточном фундаменте собираются строить задние из легких строительных блоков (газобетона, пенобетона, и т.п.). Они на изменения геометрии реагируют не самым лучшим образом. Тут нужна консультация опытного и, обязательно, компетентного специалиста с большим опытом.

Строение плитного фундамента

А вот под тяжелый дом мелкозаглубленный ленточный фундамент ставить невыгодно. Чтобы передать всю нагрузку, его нужно делать очень широким. В этом случае, скорее всего, дешевле будет плитный.

Как работает мелкозаглубленный фундамент

Этот тип используется тогда, когда бороться с силами пучения слишком дорого и не имеет смысла. В случае с фундаментами мелкого заложения с ними и не борются. Их, можно сказать, игнорируют. Просто делают так, что фундамент и дом поднимаются и опускаются вместе с вспучившимся грунтом. Потому их еще называют «плавающими».

Все что при этом необходимо — обеспечить стабильное положение и жесткую связь всех частей фундамента и элементов дома.
А для этого нужен правильный расчет.

Остались вопросы? Звоните

+7-977-553-03-40

СП 40-102-2000 : Проектирование наружного водопровода

Введение
Область применения
Общие положения
Проектирование внутренних водопроводных сетей
Проектирование внутренней канализации и водотоков

5.1.1 Выбор напорных труб из полимерных материалов для наружных систем водоснабжения производится с учетом климатических условий и технико-экономических оценок.

5.1.2 Трубы подбирают расчетом, при этом для наружного водопровода, как правило, следует принимать трубы типа «С» (PN-6) и выше.

5.2.1 Требования к геометрическим размерам труб и их параметрам указаны в разделе 3.2.

5.2.2 Длину отрезков труб или бухты указывают в документации изготовителя.

5.3.1 Для соединения труб из полимерных материалов должны использоваться, как правило, соединительные детали из полимерных материалов. Допускается использовать специальные соединительные детали из металла.

5.3.2 Для соединения труб диаметром до 110 мм из полиолефинов следует использовать сварку. Трубы из ПВХ, стеклопластиков и базальтопластиков следует соединять на раструбных соединениях, уплотняемых профильным резиновым кольцом, или на клею.

5.3.3 Для присоединения труб из полимерных материалов к арматуре и металлическим трубам следует использовать пластмассовые буртовые втулки и свободные металлические фланцы или неразъемные соединения из пластмассы-металла.

5.4.1 Трассировка водопровода должна осуществляться в соответствии со СНиП 2.04.02 с учетом способа прокладки — в грунте, в коллекторах, непроходных каналах либо в реконструируемых трубопроводах, определяемого местными условиями и результатами экономического расчета.

5.4.2 При новом строительстве предпочтение следует отдавать прокладке трубопровода в грунте.

5.4.3 Следует использовать возможность поворота трассы за счет изгиба трубы с минимальным радиусом

где E0 — модуль упругости полимера при растяжении, МПа;

D — наружный диаметр труб, мм;

s — расчетная прочность (предел текучести) для материала труб при растяжении, МПа.

5.4.4 Поворот трассы может быть осуществлен также за счет отклонения оси одной трубы относительно другой в раструбном соединении, уплотняемом кольцом, на угол до 2°.

5.4.5 Минимальное заглубление водопровода до верха трубопровода согласно СНиП 2.04.02 должно превышать глубину промерзания грунта для данной местности не менее чем на 0,5 м. Уменьшать глубину заложения трубопровода допускается только при применении тепловой изоляции, конструкция которой не поглощает влагу.

5.4.6 Минимальное заглубление водопровода из условий прочности при отсутствии транспортных нагрузок (кроме поливочного водопровода) должно быть не менее 1,0 м.

5.4.7 Пересечение водопровода с другими коммуникациями, а также автомобильными и железными дорогами следует выполнять в соответствии с требованиями СНиП 2.04.02.

5.4.8 При пересечении с канализацией на расстоянии, меньшем 0,4 м (по вертикали в свету), водопроводы из полимерных труб должны проектироваться в футлярах. Расстояние от края футляра до пересекаемого трубопровода должно быть не менее 5 м в каждую сторону.

5.4.9 Соединение пластмассовых труб с трубами из других материалов (стальными, чугунными, асбестоцементными и т.д.) следует выполнять на разъемных соединениях. При подземной прокладке такие соединения следует устанавливать в колодцах.

5.4.10 Пересечение пластмассовым трубопроводом стен сооружений следует предусматривать в футлярах. Зазор между футляром и трубопроводом заделывается эластичными материалами, предотвращающими попадание влаги внутрь футляра.

5.4.11 При прокладке труб в тоннелях (коммуникационных коллекторах) следует выполнять требования СНиП 2.07.01, при этом электрические кабели и провода должны прокладываться выше трубопроводов из полимерных материалов и должны быть конструктивно выделены.

5.4.12 Крепление арматуры к стенкам и днищу колодца, туннеля или канала следует производить с помощью анкерных болтов и хомутов или замоноличивать бетоном.

5.4.13 Пересечение трубопроводом стенок колодцев или фундаментов зданий следует предусматривать в стальных или пластмассовых футлярах. Зазор между футляром и трубопроводом заделывается водонепроницаемым эластичным материалом.

Расчет трубопровода на прочность возможно производить по различным методикам, приведенным в справочной литературе. Одна из них дана в приложении Д.

Гидравлический расчет систем водоснабжения, изложенный в разделе 3.5, следует применять также и для расчета наружных систем водоснабжения.

5.7.1 Компенсация температурного удлинения подземных водопроводов холодной воды из труб с раструбными соединениями, уплотняемыми резиновыми кольцами, достигается в раструбах.

5.7.2 Для подземных водопроводов на сварных или других неразъемных соединениях, прокладываемых в грунте, с учетом защемления труб грунтом специальной компенсации не требуется. При прокладке в каналах следует проводить расчет на компенсацию удлинения в соответствии с разделом 3.7.

Проектирование наружной канализации, водостоков и дренажей
Монтаж трубопроводов
Испытание и сдача трубопроводов в эксплуатацию
Техника безопасности при монтаже труб из полимерных материалов
Транспортирование и хранение труб из полимерных материалов
Приложение А
Приложение Б
Приложение В
Приложение Г
Приложение Д
Приложение Е

Высокоточный вариант Neisseria gonorrhoeae и определение устойчивости к противомикробным препаратам из метагеномного секвенирования нанопор

Николас Д. Сандерсон1,
Джереми Суонн1,
Линн Баркер1,
Джеймс Кавана2,
Сара Хусдалли1,
Деррик Крук1,2,
Группа исследователей GonFast,
Тереза Л.Street1 и
Дэвид В. Эйр1,2,3

¹ Кафедра клинической медицины Наффилда, Оксфордский университет, больница Джона Рэдклиффа, Оксфорд OX3 9DU, Соединенное Королевство;
² Национальный институт медицинских исследований Оксфордский центр биомедицинских исследований, Больница Джона Рэдклиффа, Оксфорд, OX3 9DU, United
Королевство;
³ Институт больших данных, Оксфордский университет, Оксфорд OX3 7LF, Великобритания

Автор, ответственный за переписку: николай.sanderson {at} ndm.ox.ac.uk

Абстрактные

Рост числа устойчивых к противомикробным препаратам Neisseria gonorrhoeae представляет собой серьезную проблему для общественного здравоохранения. На этом фоне быстрая независимая от культуры диагностика может позволить
лечения и предотвращения дальнейшей передачи. Ранее мы показали метагеномное секвенирование образцов мочи мужчин с
от гонореи уретры можно избавиться почти полностью от N.gonorrhoeae геномов. Однако выделение генома N. gonorrhoeae из метагеномных образцов и надежное определение детерминант устойчивости к противомикробным препаратам из подверженных ошибкам нанопор
секвенирование — серьезная задача биоинформатики. Здесь мы демонстрируем диагностический рабочий процесс N. gonorrhoeae для анализа данных метагеномного секвенирования, полученных из клинических образцов с использованием секвенирования R9.4.1 Nanopore.
Мы сравнили результаты симулированных и клинических инфекций с данными известных эталонных штаммов и секвенирования Illumina.
изолятов, выращенных от одних и тех же пациентов.Мы оценили три вызывающих варианта Nanopore и разработали случайный лесной классификатор.
для фильтрации названных SNP. Clair был наиболее подходящим вызывающим вариантом после фильтрации SNP. Требуется минимальная глубина 20-кратного чтения.
для уверенной идентификации резистентных детерминант по всему геному. Наши результаты показывают, что секвенирование метагеномных нанопор
может предоставить надежную диагностическую информацию о инфекции N. gonorrhoeae .

Устойчивый к противомикробным препаратам Neisseria gonorrhoeae представляет собой серьезную угрозу общественному здоровью, и возможности лечения ограничены (Unemo 2015).Недавно мы описали это быстрое долгосрочное секвенирование с использованием платформы Oxford Nanopore Technologies (ONT) R9.4.1.
предлагает потенциал для обнаружения и секвенирования почти полных геномов N. gonorrhoeae непосредственно из образцов мочи (Street et al. 2020). Этот клинический метагеномный подход имеет то преимущество, что он не требует предварительной бактериальной культуры, которая обычно
добавляет два-три дня к рабочим процессам диагностики и может быть недоступен во всех случаях, особенно в условиях, когда диагностика
основаны только на молекулярном тестировании.Поскольку анализ возможен во время секвенирования (Sanderson et al. 2018), он потенциально может предложить инструмент диагностики гонореи в тот же день, который может помочь в лечении противомикробными препаратами.

Данные

ONT имеют несколько потенциальных преимуществ в дополнение к скорости и портативности диагностической платформы. Длинные чтения
сгенерированный может позволить таксономическую классификацию с большей специфичностью, чем это возможно с короткими чтениями (Cuscó et al. 2018). Кроме того, считывания, содержащие детерминанты устойчивости к противомикробным препаратам (за исключением плазмид), содержат
при большем количестве генетического контекста, чем при коротких чтениях, определение детерминант устойчивости к виду является более сложным.
точный.Тем не менее, данные ONT содержат значительную частоту ошибок в расчете на базу до 10% для сборок, содержащих открытое считывание.
фрейм, нарушающий ошибки вставки или удаления (Watson and Warr, 2019). Создание гибридных сборок с данными для короткого чтения для уменьшения количества ошибок (Де Майо и др., 2019) сводит на нет скорость и переносимость, доступные с ONT. Если секвенирование нанопор должно использоваться отдельно для секвенирования патогенов
приложения непосредственно из клинических образцов, например, для прогнозирования устойчивости к противомикробным препаратам и отслеживания передачи,
тогда это нужно преодолеть.

Предыдущая работа (Golparian et al. 2018) показывает, что секвенирование изолятов N. gonorrhoeae на основе Nanopore 2D можно использовать для определения детерминант лекарственной устойчивости и для выполнения филогенетических выводов. Однако эта работа
был предпринят на изолятах, а не непосредственно на клинических образцах, и с тех пор 2D-секвенирование Nanopore не рекомендуется. Этот
исследование (Golparian et al. 2018) также обнаружило некоторые различия между филогенезами, полученными в результате секвенирования ONT и Illumina тех же изолятов, что и
результат различий в консенсусных последовательностях, вызываемых двумя методами.Большая часть предыдущей работы по оптимизации согласованной последовательности
вызов из данных Nanopore был предпринят после вирусного секвенирования, например, вируса Эбола с использованием Nanopolish (Quick et al., 2016) или смещения частоты и цепочки (Grubaugh et al., 2019). Некоторые исследователи успешно перенесли эти подходы в данные о бактериальных последовательностях, например, Escherichia coli , используя оптимизированное приложение пакета GATK (Greig et al.2019).

Здесь мы продолжаем эту работу, выпуская пакетный рабочий процесс для анализа 1D R9.4.1. Данные о нанопорах N. gonorrhoeae , полученные путем прямого секвенирования клинических образцов. Чтобы сгенерировать консенсусную последовательность для всего генома, мы используем вариант, вызывающий
подход из согласованных чтений. Для детерминантного обнаружения устойчивости мы применяем несколько подходов, включая анализ показаний.
привязаны к конкретным генам. Для более разнообразных генов мы используем собранные контиги, чтобы сначала выбрать эталонный ген перед тем, как приступить к
выравнивание.

Результаты

Данные ONT (таблица 1) секвенирования пяти образцов, содержащих Neisseria gonorrhoeae , были использованы для первоначальной разработки метода: три метагеномные последовательности образцов мочи с добавлением известных
эталонные штаммы (ВОЗ F, V и X) и два из секвенирования изолятов (ВОЗ Q и h28-208).Средняя глубина секвенирования была
> 100 × для каждого образца, а ширина охвата составляла 97% –99,7% при охвате 1 × или выше (дополнительный рисунок S1). Каждая последовательность была подвергнута субдискретизации с различной глубиной от 2 × до 100 ×.

Таблица 1.

Секвенированные изоляты и образцы

Вариант настройки звонка

вариантов было запрошено для каждой подвыборки генома с использованием Nanopolish, Clair и Medaka.Предыдущие эпизоды того же Illumina
изоляты использовались как «набор истинности» или «золотой стандарт» (дополнительная таблица S1). Все три варианта звонков идентифицировали многочисленные ложноположительные SNP по сравнению с данными Illumina. Получен вариант звонящего
Оценки QUAL не смогли надежно дифференцировать ложные и истинные SNP (рис. 1), например, с использованием Nanopolish и порогового значения оценки QUAL ≥25 для вызывающих вариантов, при 100-кратном охвате отзыв составил 0,94–0,97,
точность 0.68–0,99 и количество ложных SNP 32–1870 в пяти геномах. Уровень отзыва, точности и ложных срабатываний
для Медаки и Клера были еще хуже (рис. 1; дополнительная таблица S2).

Рисунок 1.

Обнаружение SNP с использованием только оценок QUAL. Графики роя истинных (оранжевый) и ложных SNP (синий), обнаруженных Clair ( вверху ), Nanopolish ( посередине ) и Medaka ( внизу ).Каждый столбец представляет собой отдельную последовательность. Каждая строка имеет разные значения оси y .

Для повышения производительности мы обучили классификатор случайного леса фильтровать варианты, используя входные функции из SAMtools и
варианты вызывающих абонентов (подробно описаны в разделе «Методы»). Производительность оценивалась с использованием 50% баз в наборе проверки для каждого
геном на всех подвыборочных глубинах.Этот подход улучшил площадь под кривой (AUC) для истинной идентификации SNP для
Нанополировка от 0,86 с использованием только порога QUAL до 0,98 (рис. 2A). Для Medaka улучшение AUC было менее выраженным, с 0,93 до 0,97. Клер увидел самое большое относительное улучшение по сравнению с
От 0,84 до 0,97. Относительная важность каждой функции варьировалась для каждого варианта вызывающего абонента (рис. 2B).

Фигура 2.

Случайная фильтрация вариантов на основе леса с использованием Nanopolish, Medaka и Clair. ( A ) Кривая рабочих характеристик приемника (ROC) для произвольного классификатора лесов с использованием различных функций, включая качество (QUAL
только пунктирная линия) и составной выбор входных объектов (составной, сплошная линия) для Nanopolish (зеленый), Medaka (оранжевый),
и Клэр (синий). AUC для каждого варианта вызывающего абонента: Nanopolish 0.От 86 до 0,98, Medaka от 0,93 до 0,97, Clair от 0,84 до 0,97, используя QUAL
и составные элементы соответственно. ( B ) Столбчатая диаграмма важности признаков для составного выбора признаков, используемых для обучения классификатора.

Влияние глубины покрытия

Используя наш обученный классификатор, мы оценили влияние глубины охвата на обнаружение SNP, сообщая результаты по
весь геном.Увеличение охвата до 20 раз улучшило обнаружение SNP, например, с помощью Nanopolish, чувствительность SNP составила 0,35–0,56,
0,88–0,92 и 0,93–0,95 при 2-кратном, 10-кратном и 20-кратном охвате, соответственно, по пяти геномам (рис. 3A). Уровень отзыва у Medaka был на ~ 5% ниже, чем у Nanopolish и Clair. Более высокая глубина охвата также снизила количество ложных срабатываний.
SNP (рис. 3Б). У Nanopolish было наименьшее количество ложных срабатываний на глубинах ниже 20-кратного покрытия. При 100-кратном охвате количество ложных SNP на
геном варьировал от 8 до 13 с использованием Nanopolish (i.е., <1 из 100000 баз), от 7 до 28 при использовании Medaka и от 15 до 130 при использовании Clair (рис. 3) с коэффициентами отзыва 93–95%, 85–92% и 94–98% соответственно.

Рисунок 3.

Влияние глубины охвата считыванием на вызовы SNP для каждого штамма и варианта вызывающего абонента. ( A ) Отзыв SNP по средней глубине покрытия.( B ) Ложноположительные SNP (FP) по средней глубине охвата. Цвет представляет разные последовательности, фигуры — варианты абонентов,
круги — Клер, кресты — Медака, квадраты — Нанополиш. Вставки более подробно показывают верхних и нижних областей оси y для A, и B , соответственно.

Производительность отзыва в важных регионах и отсутствие вызовов SNP

Мы использовали Clair для последующего анализа, поскольку он предлагал производительность, аналогичную Nanopolish, не требуя ресурсоемких
доступ к файлам fast5.Как и все протестированные варианты абонентов, Клер пропустила SNP (1,5–3%), поэтому они были недоступны.
на этапе фильтрации. Если эти ошибки возникают систематически, они не влияют на сравнение геномов; однако, если они
происходят случайно, они могут привести к тому, что геномы будут ошибочно более похожими или разными.

пропущенных SNP были связаны с расхождением с эталонным геномом, так что пропущенные SNP были более близко расположены к
другие SNP (дополнительный рис.S2A). Не было увеличения гетерозиготности SNP в генах, общих между видами Neisseria (дополнительный рис. S2A), что позволяет предположить, что потенциальное загрязнение от комменсальных бактерий удаляется с помощью центрифуги в этих образцах. Для антимикробного
предсказания устойчивости, мы вызвали только варианты хромосомных генов с низким ожидаемым разнообразием и выбрали ближайшую ссылку
гены для различных мишеней, например, penA .Пропущенные SNP не наблюдались в пределах gyrA , porB , mtrR , parC или ponA на глубинах покрытия более 10 × (дополнительный рисунок S3).

Идентификация детерминант устойчивости к противомикробным препаратам в консервативных генах

Детерминанты устойчивости к противомикробным препаратам были надежно идентифицированы всеми тремя вариантами, за исключением нескольких исключений.Все четыре копии гена 23S рРНК были идентифицированы отдельно с использованием длинных считываний нанопор. ВОЗ V и ВОЗ Q содержат четыре копии
мутации A2059G, придающей высокий уровень устойчивости к азитромицину. Все четыре мутации были идентифицированы как 5 ×, 10 × или 20 ×
покрытие с использованием Clair, Nanopolish или Medaka соответственно (дополнительная таблица S3). Мутации, приводящие к заменам в положениях 91 и 95 в gyrA и в положениях 86–88 в parC , придают устойчивость к ципрофлоксацину.Эти аминокислоты были правильно идентифицированы в gyrA для всех геномов при ≥10-кратном покрытии Clair и Nanopolish, но Medaka не смогла обнаружить 95N в WHO X на какой-либо глубине. Ожидал
результаты были получены для parC для всех вариантов вызывающих даже при 2-кратной глубине (дополнительная таблица S4). Аналогичным образом мутации ponA и rpsJ (связанные с устойчивостью к пенициллину и тетрациклину соответственно) были идентифицированы на всех глубинах со всеми вариантами.
звонящие.

Два различных типа мутаций были исследованы для гена mtrR , замены G45D и вариантов промотора, которые связаны с устойчивостью к азитромицину, цефтриаксону, пенициллину,
и тетрациклин. Аминокислота в положении 45 была правильно вызвана для всех геномов на всех глубинах и со всеми вариантами вызывающих,
за исключением 2-кратного покрытия для ВОЗ Q с помощью Medaka (дополнительная таблица S4).Также была обнаружена делеция одного основания в промоторе, присутствующая во всех изученных геномах, кроме ВОЗ F. Потому что
эталонная последовательность содержала делецию, ожидалось, что она будет обнаружена как вставка в ВОЗ F. Эта вставка была
обнаруживается только Nanopolish при 100-кратном охвате. Медака и Клер обнаружили проникновение на всех глубинах, но тоже неправильно.
идентифицировал вставку в ВОЗ X при ≤5-кратном охвате (дополнительная таблица S5).Поскольку индели не входили в нашу фильтрацию SNP, мы разработали эвристический фильтр для вставки: 40% или более чтений, содержащих
вставленный аденозин с глубиной охвата более 5 × предполагал генотип дикого типа (дополнительный рисунок S4).

Характеристика penA с использованием полногеномных и локальных сборок de novo

Ген penA , связанный с устойчивостью к пенициллину и цефтриаксону, является детерминантой хромосомной антимикробной устойчивости с относительно
высокая вариабельность нуклеотидной последовательности в пределах N.gonorrhoeae видов, возникших в результате событий рекомбинации. Мы идентифицировали его с помощью полногеномных и локальных сборок de novo с последующим картированием.
ближайший известный аллель.

Требуемая средняя глубина охвата для создания контигов, содержащих ген penA , варьировалась между штаммами (дополнительная таблица S6): h28-208, WHO Q, WHO X, WHO V, последовательно обеспечивая правильный аллель с глубиной ≥10 ×.ВОЗ F требовал 50-кратного покрытия
для метода сборки всего генома (WGA), чтобы вспомнить аллель. Подход локальной сборки работал для всех штаммов от 10 ×
охват и выше, и он показал лучшую чувствительность при более низком охвате чтения, но не предоставил столько геномного контекста.

Обнаружение плазмид-опосредованных детерминант устойчивости

Несущий плазмиду tetM и blaTEM-1 придают устойчивость к тетрациклину и пенициллину соответственно.Были извлечены и собраны чтения, содержащие последовательность tetM или blaTEM-1 . Чтобы определить, соответствовали ли плазмиды таковым в N. gonorrhoeae , а не другим присутствующим контаминирующим видам, мы проанализировали ген и фланкирующую плазмидную последовательность. Чтобы достоверно подтвердить
Присутствие этих генов, контигов, содержащих blaTEM-1 или tetM , необходимо для того, чтобы доля последовательности> 60% соответствовала известной плазмиде-носителю (дополнительный рис.S5) с идентичностью последовательностей> 95%. Используя этот эвристический порог, можно было правильно определить, что ВОЗ Q и ВОЗ V
содержал tetM и blaTEM-1, соответственно.

Более длинные чтения улучшают распутывание метагеномных видов

Чтобы избежать ошибочных результатов, связанных с ДНК других видов, для анализа использовались только чтения, классифицированные как Neisseria gonorrhoeae на уровне вида.Ограничивая анализ только этим подмножеством чтений, существует риск пропустить
области генома путем фильтрации считываний, относящихся к более низкому таксону (Nasko et al. 2018). Поэтому мы проверили ожидаемую долю генома N. gonorrhoeae , которая будет классифицирована на уровне вида путем моделирования (дополнительный рисунок S6). В отличие от других видов, N. gonorrhoeae можно было надежно идентифицировать до уровня вида с длиной считывания в несколько сотен пар оснований.Средняя длина чтения с
наше секвенирование составляло от 2 до 4 т.п.н. (Street et al. 2020), что позволило отнести высокую долю последовательности N. gonorrhoeae к уровню вида. Кроме того, учитывая способность Centrifuge различать близкородственные
видов Neisseria (дополнительный рис. S6), мы ожидаем, что этот процесс будет применим к другим образцам, таким как мазки из носоглотки, которые часто содержат комменсальные виды Neisseria .

Дальнейшая фильтрация для удаления ложных вызовов SNP

При использовании данных SNP для восстановления событий передачи ложные SNP могут привести к неправильному исключению передачи или
считается маловероятным. Точно так же случайно пропущенные SNP, в которых консенсусная последовательность ошибочно установлена как дикий тип,
может увеличить измеренное генетическое расстояние между двумя похожими штаммами.Напротив, ожидаемая разница в последовательности при отфильтрованных
сайты, база которых неизвестна, могут быть скорректированы пропорционально проценту отфильтрованного генома и вариации
в известном геноме. Следовательно, для исследований передачи предпочтение отдается удалению ложноположительных и ложноотрицательных результатов.
SNP предпочтительнее отзыва. Для этого классификации SNP были дополнительно отфильтрованы путем маскировки классификаций нуклеотидов.
к N, если доля оснований в данной позиции, поддерживающих классификацию, была меньше 0.8. Это значение было выбрано
поскольку доля истинно положительных SNP с поддержкой менее 0,8 относительно низка, но этот порог достаточно высок
чтобы избежать большинства ложноотрицательных вызовов (дополнительный рис. S7).

Благодаря использованию этого окончательного фильтра с данными, называемыми базой Clair, при 100-кратном охвате, количество ложноположительных SNP было уменьшено с
От 15–130 до 9–35 в пяти проанализированных геномах (таблица 2).Количество ложноотрицательных SNP также снизилось с 49–249 до 4–19. В целом это привело к ложным показателям SNP (ложноотрицательные
+ ложноположительные SNP) снижается с 66–428 до 15–45, с уменьшением отзыва с 0,93–0,99 до 0,76–0,94, что, вероятно,
оставаться приемлемым для большинства исследований передачи.

Таблица 2.

Частота отзыва для отфильтрованных и нефильтрованных геномов с пиками, вариант, вызываемый с помощью Clair и случайного классификатора леса

Применение рабочего процесса на клинических образцах

Мы проанализировали ранее полученные данные метагеномного секвенирования нанопор из 10 образцов мочи мужчин с уретральной гонореей.Мы сравнили результаты с нашим рабочим процессом с данными Illumina, полученными в рамках этого исследования при секвенировании изолятов из того же
инфекции. Посредством секвенирования нанопор ≥92,8% охвата эталонного генома N. gonorrhoeae было достигнуто во всех образцах, при ≥93,8% охвата дыханием на ≥10-кратной глубине в семи образцах.

Все SNP гена устойчивости были правильно идентифицированы в метагеномных клинических образцах (таблица 3).Используя эвристический метод, делеция промотора mtrR была правильно обнаружена в образцах 202, 250, 301 и 314, а секвенирование дикого типа — в образцах 271,
294 и 315. Однако образец 303 был идентифицирован неправильно: только 11-кратная средняя глубина покрытия генома и 8-кратный охват более
ген mtrR , предполагающий отсутствие глубины секвенирования для точного определения положения (таблица 3). Аллель penA был правильно идентифицирован в девяти из 10 клинических образцов (дополнительная таблица S7).Все идентифицированные клинические метагеномные образцы соответствовали секвенированным культурам Illumina со 100% идентичностью в соответствии с
Результаты BLASTN. Образец 303 не дал достаточных данных для обнаружения гена penA . Также можно было определить, что образцы 206, 271, 294 и 304 содержали ген tetM на плазмиде pEP5050, а образцы 294 и 303 содержали ген blaTEM-1 на плазмиде pEM1 (дополнительный рисунок S8) .

Таблица 3.

Обнаружение детерминанты устойчивости к противомикробным препаратам в клинических образцах

Путем создания консенсусной последовательности Nanopore с добавлением только SNP с высокой вероятностью и сайтов с поддержкой <80%, установленной на N (т. Е. unknown) можно использовать обычные методы построения деревьев. Этот подход показал сопоставимые результаты для культивируемых изолятов. секвенирование с помощью Illumina и клинические метагеномные образцы с использованием Nanopore (рис.4). Образцы 303 и 304 предоставили недостаточно данных для генерации полных согласованных последовательностей (только 53% и 56% контрольных длина генома). Для остальных восьми клинических образцов и пяти последовательностей разработки методов медиана (IQR) [диапазон] генетическое расстояние между последовательностями Illumina и Nanopore от одной и той же инфекции составляло 5 (3–6) [1–10] SNP, что достаточно близко, чтобы сделать возможным изучение передачи с использованием одних только метагеномных данных.

Рисунок 4.

Скорректированное рекомбинацией дерево максимального правдоподобия метагеномных последовательностей нанопор и парных последовательностей изолята Illumina. Все Нанопоры
Консенсусные последовательности были получены из метагеномного секвенирования, за исключением h28-208 и WHO Q, которые были секвенированы
из изолятов.

Время до результатов

Скорость определения устойчивости к противомикробным препаратам — важная цель клинической метагеномики.Лабораторные работы перед секвенированием
старт занимает 6–7 ч. Это включает экстракцию ДНК в течение 2–3 часов и подготовку библиотеки секвенирования в течение 4,5 часов (что включает 3,5 часа
Этап ПЦР). С начала цикла секвенирования клинические образцы достигли 20-кратного покрытия, необходимого для достижения 20-кратного покрытия.
для уверенного анализа (дополнительный рис. S9). Четыре образца, 301, 314, 271 и 250, заняли менее 1 часа. Образец 315 занял <2 часов. Образцы 294 и 206 заняли 5 и 9 часов соответственно.Образцы 202 и 304 прошли 10-кратное покрытие через 6 часов, а образец 303 никогда не достиг 10-кратного покрытия.

Обсуждение

Мы демонстрируем подход, который позволяет использовать данные секвенирования нанопор для реконструкции точных согласованных бактериальных геномов. Этот
может выполняться без сопроводительных данных короткого чтения Illumina и может применяться к данным метагеномного секвенирования.Показываем реконструированный
геномы позволяют точно определять резистентность и делать выводы о передаче у N. gonorrhoeae , в том числе с использованием образцов, полученных при клинических инфекциях.

Мы оценили три варианта вызывающих, Nanopolish, Medeka и Clair, в сравнении с вызовом вариантов Illumina из секвенированных культур.
После фильтрации вызовов вариантов с помощью обученного классификатора случайных лесов мы обнаружили, что Clair работает лучше, чем Nanopolish.
и Medaka, выявив 94–98% SNP, присутствующих в последовательностях Illumina при 100-кратном охвате, по сравнению с 93–95% и 85–92%, соответственно.Первоначально у Clair было наибольшее количество ложноположительных SNP на геном (15–130 по сравнению с 8–13 и 7–28 соответственно).
При использовании дополнительной фильтрации, требующей, чтобы доля операций чтения, поддерживающих любой вызов, была ≥0,8, количество ложных срабатываний
SNP можно было уменьшить с помощью Clair до 4–35 на геном, хотя и со снижением обнаружения SNP до 76–94%. Эта фильтрация и
Подход маскировки также снизил количество ложноотрицательных SNP с 49–289 на геном до 4–19 на геном, что в противном случае увеличило бы
генетическая дистанция во время филогенетического вывода.В частности, для выявления вариантов в генах устойчивости Клэр смог:
обнаруживать все важные SNP с охватом 10 × и выше, тогда как Medaka пропустила важный SNP в штамме WHO X.

Medaka (v0.10) все еще является ранним экспериментальным исследовательским инструментом, который больше ориентирован на вызов диплоидных вариантов и гаплотип.
фазирование, а не приложение, протестированное здесь. У Медака и Клэр есть то преимущество, что они не нуждаются в файлах fast5, которые
имеют огромные требования к хранилищу и вычислительным ресурсам.Одно ограничение для вызывающих вариантов на основе нейронной сети, включая Clair
и Медака понимает решения, принятые для объявления позиций. Написанный здесь рабочий процесс анализа пороговых значений был разработан
добавить компоненты вызова различных вариантов, чтобы в будущем можно было тестировать новые параметры вызова.

Поскольку наш конвейер набора истинности данных Illumina генерировал только вызовы SNP, наша текущая фильтрация вызовов вариантов была ограничена SNP.Индели не рассматривались, за исключением промоторной области mtrR , где использовался специальный эвристический метод. Следовательно, потребуется дальнейшая работа над последовательностями Illumina.
предоставить набор истинности для данных indel, чтобы обеспечить возможность разработки надежных вызовов indel из данных Nanopore, которые также могут
улучшить с будущей технологией Nanopore pore.

С помощью субдискретизации считываний для создания искусственно уменьшенной глубины покрытия мы определили требуемую глубину, необходимую для точного
вызовите варианты из данных Nanopore: 10-кратное покрытие достаточно для определения детерминант устойчивости с минимальным увеличением
при отзыве выше 20-кратное покрытие.

Нам удалось успешно выявить соответствующие N. gonorrhoeae детерминанты устойчивости к противомикробным препаратам, придающие устойчивость к клинически важным антибиотикам во всех протестированных образцах.
с глубиной покрытия более 10 ×. Большинство вариантов можно было обнаружить из соответствующим образом отфильтрованных вызовов вариантов из сопоставленных данных,
и penA Определение аллеля может быть достигнуто с использованием комбинированного подхода к сборке и картированию.Подход WGA предоставил больше геномных
контекст вокруг аллеля penA , который мог гарантировать, что аллель был от Neisseria gonorrhoeae , а не контаминационным комменсалом, тогда как локальная сборка генов (LGA) работала лучше при более низких глубинах считывания. Ра был выбран
Поскольку ассемблер для WGA как WTDBG2 (красный боб) произвел некоторую неправильную сборку, которая предотвратила повторное отображение считываний на локус penA (дополнительный рисунок S10). Однако Ra не смог создать контиги для большинства попыток при использовании для LGA.Удалось восстановить четыре
Локусы 23S рРНК отдельно от каждого образца, содержащего ожидаемую мутацию A2059G. Это было невозможно при использовании короткого чтения
Секвенирование Illumina. Длина чтения нанопор позволила нам охватить весь ген с достаточным геномным контекстом, чтобы уверенно
сопоставить каждый локус независимо. Мы прогнозируем, что стратегия центрифугирования и картирования позволит различить близкородственные виды Neisseria , обычно обнаруживаемые в образцах из носоглотки.Дальнейшее секвенирование образцов из этих сайтов потребовалось бы эмпирически
показать, что эта стратегия работает.

Наше окончательное сравнение согласованных последовательностей дало медианное значение пяти SNP между последовательностями Illumina и Nanopore. Хотя это
не соответствует воспроизводимости, наблюдаемой при секвенировании изолятов Illumina (De Silva et al., 2016), это достаточно близко, чтобы судить о том, являются ли инфекции частью определенных кластеров передачи (De Silva et al.2016), даже если точная реконструкция отдельных событий передачи может оставаться сложной задачей только с данными по нанопорам. Ограничение
в этом исследовании использовался только эталонный геном NCCP11945. Использование эталонного генома, более тесно связанного с кластером
Как видно из данных Illumina, геномы могут снизить частоту ложноположительных вариантов вызова, чтобы сделать возможным анализ передачи. Однако это выходит за рамки настоящего анализа и будет предпринята в будущей работе с образцами из тех же кластеров.

Рабочий процесс биоинформатики занимает около 30 минут. Тем не менее, самые большие проблемы — это классификация видов, читайте подборку,
и картографирование. Они могут быть дополнительно оптимизированы или запускаться в реальном времени, как показано ранее (Sanderson et al. 2018), который выполняет эти шаги по мере создания файлов чтения и непрерывно объединяет выходные данные в один отсортированный файл BAM.

Текущее поколение проточных ячеек ONT, используемых в этом анализе, — R9.4.1. Однако новые поры, такие как R10, в настоящее время
разработка и может предложить повышенную точность. Часть валидации этого рабочего процесса должна выполняться на новых сгенерированных последовательностях.
будущими порами, чтобы установить новые пороговые значения и модели фильтрации, соответствующие этим новым профилям ошибок пор.

Разработанные нами подходы обеспечивают механизм определения устойчивости к противомикробным препаратам и выявления передачи инфекции.
отслеживание с использованием клинических образцов.Это вместе с недавними достижениями в оптимизации экстракции ДНК для метагеномных нанопор.
секвенирование N. gonorrhoeae непосредственно из образцов мочи (Street et al. 2020) теперь дает возможность проверить эффективность секвенирования нанопор в качестве клинической диагностики инфекции N. gonorrhoeae . Кроме того, этот подход может иметь широкое применение для ряда бактериальных патогенов, а не только для N. gonorrhoeae, , где бактериальные геномы могут быть успешно отделены от метагеномных образцов с умеренной длиной считывания секвенирования.Оценки
в наборах клинических данных позволит изучить потенциальную полезность наших подходов и потенциально обеспечить
новые методы диагностики для ведения пациентов и общественного здравоохранения при гонорее.

Методы

Мы разработали оптимизированный рабочий процесс для получения нескольких выходных данных из данных метагеномной последовательности, содержащих N.gonorrhoeae : (1) классификация считываний последовательностей по видам происхождения, позволяющая определить наличие / отсутствие N. gonorrhoeae , (2) идентификация детерминант устойчивости к противомикробным препаратам N. gonorrhoeae и (3) консенсус полногеномная последовательность для облегчения сравнения геномов
для отслеживания передачи.

Источники данных

Для разработки и тестирования производительности нашего рабочего процесса мы использовали данные ONT, полученные в предыдущем исследовании (Street et al.2020) из метагеномного секвенирования отрицательных образцов мочи в тесте амплификации нуклеиновых кислот (NAAT) N. gonorrhoeae с добавлением различных концентраций трех эталонных штаммов ВОЗ N. gonorrhoeae : ВОЗ F, ВОЗ V и ВОЗ X. Было описано секвенирование ранее (Street et al.2020). Вкратце, образцы секвенировали на проточных кюветах FLO-MIN106D (v.R9.4.1) с использованием набора для штрих-кодирования Rapid PCR (SQK-RPB004) (ONT),
с модификациями протокола производителя, как описано ранее (Charalampous et al.2019). Также были использованы дополнительные данные из последовательностей ONT изолятов ВОЗ Q (Eyre et al. 2018; Jennison et al. 2019) и h28-208 (Eyre et al. 2019) с использованием тех же проточных кювет. Подробная информация о последовательностях и инвентарных номерах представлена в таблице 1. Данные ONT сравнивались с данными Illumina, доступными для эталонных штаммов и клинических изолятов, которые использовались в качестве
золотой стандарт вместе с опубликованными описаниями имеющихся вариантов (Unemo et al., 2016; Eyre et al., 2018, 2019).Данные Illumina обрабатывались, как описано ранее (De Silva et al., 2016; Eyre et al., 2017).

Кроме того, мы также протестировали наш окончательный алгоритм на 10 метагеномных последовательностях нанопор из N. gonorrhoeae положительных образцов мочи, полученных от мужчин с симптоматической уретральной гонореей, описанной ранее (Street et al.2020). Культивированные изоляты от тех же инфекций секвенировали с помощью Illumina MiniSeq, следуя инструкциям производителя.
для сравнения.

Базовый вызов

Считывание необработанных нанопор

было вызвано базой для Guppy версии 3.1.5 + 781ed57 с использованием высокоточных моделей HAC (dna_r9.4.1_450bps_
hac.cfg, template_r9.4.1_450bps_hac.jsn). У прогонов были отдельные штрих-коды на каждую проточную кювету, поэтому их не демультиплексировали.

Считайте классификацию с помощью центрифуги и прочитайте биннинг

Таксономическая классификация прочтений нанопор, называемых основанием, была проведена с использованием Centrifuge версии 1.0.4-бета (Ким и др., 2016), с базой данных, построенной на основе геномов NCBI RefSeq, включая геномы бактерий и вирусов, депонированных по состоянию на 10 августа 2018 г., как
а также эталонный геном hg38 человека. Центрифуга была запущена с минимальной длиной удара 16 (-‐ min-hitlen 16) и сообщением
одно отдельное первичное назначение для каждого чтения (-k 1). Считывания, которые были классифицированы как штамм N. gonorrhoeae , были собраны в отдельный файл FASTQ с использованием специального скрипта Python (bin_reads.py), доступный в репозитории GitLab.

Выравнивание генома

Чтобы уменьшить количество ошибок, возникающих при считывании карт других видов на аналогичные гены в геноме N. gonorrhoeae , как это наблюдается в других метагеномных образцах, например, с Mycobacterium tuberculosis (Wyllie et al. 2018), читается только классифицируется как N. gonorrhoeae были выровнены. считываний N. gonorrhoeae были сопоставлены с эталонным геномом NCCP11945 N. gonorrhoeae (номер доступа NC_011035.1) с использованием Minimap2 версии 2.17-r941 (Li 2018) с использованием настроек для данных нанопор (-ax map-ont). Выровненные чтения были отфильтрованы, чтобы удалить выравнивания с показателем качества карты.
меньше 50 и отсортированы и проиндексированы с помощью SAMtools версии 1.9 (Li et al. 2009).

Глубина субдискретизации генома

Чтобы понять влияние глубины чтения на точность вызова вариантов, выровненные файлы BAM для каждого из пяти изолятов были подвергнуты подвыборке.Пользовательский сценарий оболочки (subSampleBam.py, в репозитории GitLab) для «представления SAMtools» (Ли и др., 2009) использовался для нацеливания на среднюю глубину покрытия 2, 5, 10, 20, 50 и 100 ×.

Вызов варианта

Варианты были вызваны из выровненных чтений нанопор либо для полного генома, либо, для вариабельных генов, после переназначения на
ближайший доступный аллель гена устойчивости из базы данных NG-STAR (https: // ngstar.canada.ca). Было протестировано несколько вариантов звонков. Nanopolish версии 0.11.1 (Симпсон и др., 2017) использовался с опциями, учитывающими метилирование (-‐ метилирование dcm, dam), -‐fix-гомополимерами и плоидностью, установленной на 1 (‐‐ploidy
1). Версия Medaka v0.10.0 (https://github.com/nanoporetech/medaka) использовалась с подкомандами консенсуса и варианта. Clair callVarBam (git commit 54c7dd4) (Luo et al.2020) использовался с настройками ONT по умолчанию. Дополнительная информация была получена из pysamstats версии 1.1.2 (https://github.com/alimanfoo/pysamstats, pysam 0.15.2) с использованием параметра вариационной нити (-t вариационная_ нить).

Варианты, идентифицированные вызывающими вариантами, были отфильтрованы на основе показателей, сгенерированных pysamstats вместе с Nanopolish,
Медака или Клэр. Фильтрация проводилась с использованием случайного лесного классификатора с использованием пакета scikit-learn (Pedregosa 2011) путем сравнения выходных данных вызывающего варианта варианта Nanopore и «истинных» данных секвенирования того же изолята компанией Illumina.Поскольку
цель классификатора заключалась в том, чтобы отфильтровать потенциальные варианты, идентифицированные вызывающим вариантом, только эти сайты использовались для
обучение. Однако в результатах представлены сводные данные о производительности классификатора на уровне всего генома. Мы
определены истинно положительные (TP) SNP как те, которые были вызваны и переданы обоими методами, ложноположительные (FP) Nanopore SNP, которые
не были обнаружены с помощью секвенирования Illumina, а истинно отрицательные (TN) сайты были названы диким типом обоими методами.Сайты могли
быть ложноотрицательным (FN) от Nanopore, когда SNP Illumina был либо пропущен альтернативным вызывающим абонентом изначально, либо отфильтрован
некорректно классификатором случайного леса.

Для обучения и тестирования классификатора мы использовали последовательность Nanopore и Illumina для каждого из пяти изолятов. Включить чтение
глубина в качестве компонента классификации SNP, пять штаммов генома были отнесены к шести целевым глубинам 2, 5, 10,
20, 50 и 100-кратное покрытие.Все сайты из каждого из 30 подвыборок геномов были случайным образом разделены на 50% обучающую и
Установлено 50% валидации. Использовались значения гиперпараметров по умолчанию. Сообщаемые показатели производительности включают чувствительность или отзыв, отзыв
= TP / ( TP + FN ) и точность (или положительное прогнозируемое значение для варианта вызова), Precision = TP / ( TP + FP ).

Мы рассмотрели следующие дополнительные метрики, полученные с помощью Nanopolish и pysam, в качестве входных характеристик для классификатора: Вариант
качество (QUAL), доля поддержки нанополистов (доля поддержки), общее количество считываний, выровненных по каждой позиции (Всего считываний),
близость к ближайшему варианту в парах оснований (близость), комбинация эталонной и вариантной базы (baseChange),
доля оснований такая же, как и у большинства (% большинства), соответствие между доминирующей базой и вариантом, о котором сообщается
(Верхняя база соответствует вызывающему варианту), доля считываний в каждом направлении (смещение цепочки) и доля считываний, которые
вставки (% удалений,% вставок).Это было повторено для Медаки и Клэр, за исключением показателя доли поддержки.
это характерно для Nanopolish.

Гетерозиготность в общих генах

Prokka v1.14.6 (Seemann 2014) и Roary v3.13.0 (Page et al. 2015) использовались для идентификации общих генов у нескольких разных видов, включая N. gonorrhoeae (NC_002946.2), N.meningitidis (NC_003112.2), N. lactamica (NC_014752.1), N. elongata (NZ_ CP007726.1), N. mucosa (NZ_CP020452.2), N. subflava (NZ_ CP031251) .1), N. cinerea (NZ_LS483369.1), N. weaveri (NZ_LT571436.1) и N. zoodegmatis (NZ_LT

4.1). Гены, общие для двух или более видов с идентичностью> 95%, были описаны как общие гены. Классифицированные SNP
Clair и отфильтрованные обученным случайным лесом использовались для визуализации разницы в поддерживающих базах (дополнительные данные
из pysamstats) между разными образцами и общим статусом гена.

Обнаружение Indel в промоторе

mtrR

Indels были обнаружены в определенных местах в BAM-файле с помощью специального скрипта Python (indel_class.py, доступный в
репозиторий GitLab), который использует pysam (https://github.com/pysam-developers/pysam) для подсчета доли вставленных чтений в позиции.

Сборка всего генома (WGA)

Бинированные чтения были отфильтрованы по длине и качеству с помощью Filtlong commit 13504b7 (https: // github.com / rrwick / Filtlong) для минимальной длины 1000 bp (‐‐min_length 1000), сохраняя до 90% баз (‐‐keep_percent 90) и используя целевые базы
значение 500 мегабаз (‐‐target_bases 500000000), как определено в предыдущей работе над сборкой с длинным чтением (Де Майо и др., 2019). Отфильтрованные чтения были собраны в контиги с использованием Ra commit 07364a1 (https://github.com/lbcb-sci/ra) с использованием параметров -x ont.

Локальная сборка генов (LGA) и переназначение для характеристики

penA

Для генов с высокой степенью вариабельности, то есть penA , сопоставление с единственной эталонной последовательностью было невозможно из-за присутствующего разнообразия.Следовательно, чтения, содержащие гены
интерес был выявлен и изолирован с помощью minimap2 и скрипта bin_reads.py. Эти локальные чтения были впоследствии собраны
с использованием wtdbg2 версии 2.3 (Ruan and Li 2020) с самым длинным подпотоком 3 КБ (-L 3000), то есть настройкой по умолчанию во время разработки рабочего процесса. База данных
доступных аллелей для penA был создан с использованием аллелей, доступных в базе данных NG-STAR (https: // ngstar.canada.ca). Ближайший совпадающий аллель для каждого гена определяли с использованием BLASTN (Altschul et al. 1990) для поиска контигов LGA / WGA. Было выбрано наиболее близкое соответствие с охватом темы> 95% и наибольшим биткорем. В
ближайший совпадающий аллель затем использовался в качестве ссылки на повторное сопоставление объединенных чтений с использованием того же сопоставления и вызова вариантов.
методы, описанные выше.

Neisseria gonorrhoeae Идентификация детерминанты устойчивости к антибиотикам

После обработки данных, описанной выше, оставшиеся детерминанты устойчивости к противомикробным препаратам были идентифицированы аналогичным образом.
к нашему предыдущему подходу (Eyre et al.2017), разработанный для короткого секвенирования изолятов. Исследуются варианты в следующих генах в схеме NG-STAR: penA , mtrR , porB , ponA , gyrA , parC , 23S рРНК, а также мутации rpsJ и Гены семейства tet , придающие устойчивость к тетрациклину. Аминокислотные изменения были идентифицированы с использованием вариантных вызовов в формате VCF.
преобразованы в консенсусные последовательности ДНК и затем переведены.Мутации и варианты в промоторных последовательностях были идентифицированы из
консенсусные последовательности ДНК.

Для penA было произведено поиск точных совпадений с одним из аллелей в базе данных NG-STAR (поскольку все секвенированные изоляты / эталоны были
уже в базе данных), но также могут быть обнаружены отклонения от них.

Для выявления мутаций в каждой из четырех копий генов 23S рРНК, связанных с устойчивостью к макролидам, четыре 23S рРНК
Локусы рРНК были независимо исследованы на глубину охвата и изменения оснований.Это отличается от предыдущих подходов с использованием
данные короткого чтения, в которых разные локусы должны были быть проанализированы вместе путем сопоставления с одной копией гена (Eyre et al., 2017).

Устойчивость к противомикробным препаратам, обусловленная наличием определенного вспомогательного гена, например, ассоциированного с плазмидой tetM / blaTEM-1 , была идентифицирована с использованием стратегии сборки. Чтения были идентифицированы с использованием перекрытия Minimap2 (-x ava-ont) всех вызываемых базой
читает по базе данных дополнительных последовательностей генов и собирается с помощью wtdbg2.Полученные контиги анализировали на последовательность tetM / blaTEM-1 и известные плазмиды-носители для Neisseria gonorrhea e, используя поиск BLASTN в той же базе данных, включая pEP5289 (GU479464), pEP5233 (GU479465), pEP5050 (GU479466) для tetM . (Pachulec and van der Does 2010) и pEM1 (HM756641.1), pGF1 (U20421), pJD5 (U20375) и pJD7 (U20419) для blaTEM-1 (Müller et al. 2011).

Филогенетический вывод

Мы сравнили филогенетические выводы с использованием данных Nanopore и Illumina с использованием консенсусных последовательностей всего генома, полученных после
фильтрация.Чтобы уменьшить количество ложноположительных и ложноотрицательных вызовов Nanopore SNP, мы также протестировали дополнительное маскирование.
позиции (т.е. установка базы на N), где доля чтений, поддерживающих вызываемую базу, была меньше заданного порога,
например 0,8. Филогенетические деревья максимального правдоподобия были построены с помощью IQ-TREE (v1.6.1) (Chernomor et al., 2016), а длина ветвей была скорректирована с учетом рекомбинации с ClonalFrameML (v1.11-1) (Didelot and Wilson 2015) с использованием настроек по умолчанию.Используемый рабочий процесс предоставляется в рабочем процессе Nextflow и основан на runlistcompare (https://github.com/davideyre/runListCompare).

Отчет о конкурирующих процентах

D.W.E. получил плату за лекции и расходы от Gilead, не связанные с текущим исследованием. Остальные авторы заявляют об отсутствии конкурирующих
интересы.

Благодарности

Мы благодарим сотрудников микробиологической лаборатории Фонда Национальной службы здравоохранения (NHS) больниц Оксфордского университета и
больнице округа Сассекс в Брайтоне за помощь в сборе образцов.Группа исследователей GonFast
включает Джоанну Риз и Эмили Лорд (Служба сексуального здоровья Оксфордшира, больницы Оксфордского университета, Фонд NHS),
Оксфорд, Великобритания), Сунита Сони, Селия Ричардсон, Джоан Джессоп и Таня Адамс (Брайтон энд Хоув, отдел сексуального здоровья и контрацепции.
Service, Королевская больница округа Сассекс, Брайтон, Великобритания) и Martin Llewelyn (Королевская больница округа Сассекс, Брайтон, Великобритания). Этот
Работа финансировалась Центрами по контролю и профилактике заболеваний в рамках премии Broad Agency Award FY2018-OADS-01.

Вклад авторов: N.D.S., T.L.S., S.H., D.C. и D.W.E. задумал исследование. N.D.S. и D.W.E. провели биоинформатический анализ и подготовили
рукопись с T.L.S. N.D.S. и Дж. собрал рабочий процесс и написал программное обеспечение. ФУНТ. и J.K. проведена мокрая лаборатория
эксперименты. Группа исследователей GonFast набрала пациентов и собрала образцы. Все авторы прочитали и внесли свой вклад в
рукопись.

Сноски

[К этой статье доступны дополнительные материалы.]
Статья перед печатью опубликована в Интернете. Статья, дополнительные материалы и дата публикации находятся по адресу http://www.genome.org/cgi/doi/10.1101/gr.262865.120.
В свободном доступе онлайн через опцию Genome Research Open Access.

Поступила 27.02.2020 г.
Принята к печати 27 июля 2020 г.

Повышение точности вызова, охвата и глубины считывания данных последовательностей за счет использования блоков гаплотипов

Аннотация

Высокопроизводительное генотипирование большого количества линий остается ключевой проблемой в генетике растений, требующей от генетиков и селекционеров поиска баланса между качество данных и количество генотипированных линий при использовании множества различных существующих технологий, когда ресурсы ограничены.В этой работе мы предлагаем новый конвейер вменения («HBimpute»), который можно использовать для генерации высококачественных геномных данных из данных последовательности всего генома с низкой глубиной считывания. Ключевая идея конвейера — использование блоков гаплотипов из программного обеспечения HaploBlocker для определения локально похожих строк и локального объединения их считываний. Эффективность конвейера продемонстрирована на наборе данных из 321 удвоенной гаплоидной линии европейского староместного сорта кукурузы, которые были секвенированы с глубиной считывания 0,5X. Общее количество ошибок при вычислении сокращено вдвое по сравнению с современным программным обеспечением BEAGLE, а средняя глубина считывания увеличена до 83X, что позволяет вызывать структурные вариации.Полезность полученной панели вмененных данных дополнительно оценивается путем сравнения производительности в обычных селекционных приложениях с производительностью геномных данных из массива 600 тыс. В частности, для полногеномных ассоциативных исследований данные о последовательностях показали более высокие результаты. Кроме того, геномное прогнозирование на основе перекрывающихся маркеров из массива и последовательности приводит к несколько более высокой предсказательной способности для данных импутированной последовательности, тем самым указывая на то, что качество данных, полученных при секвенировании с низкой глубиной чтения, находится на уровне или даже немного выше, чем высокое. -данные массива плотности.При включении всех маркеров для данных последовательности предсказательная способность немного снижается, что указывает на общее более низкое качество данных в маркерах, не являющихся массивом.

Резюме автора Генотипирование большого количества линий с высокой пропускной способностью остается ключевой проблемой в генетике и селекции растений. Стоимость, точность и пропускная способность должны быть сбалансированы для достижения оптимальной эффективности с учетом доступных технологий и ограниченных ресурсов. Хотя массивы генотипирования по-прежнему считаются золотым стандартом в высокопроизводительной количественной генетике, последние достижения в области секвенирования открывают для этого новые возможности.Как качество, так и стоимость геномных данных, созданных на основе секвенирования, сильно зависят от используемой глубины чтения. В этой работе мы предлагаем новый конвейер вменения («HBimpute»), который использует блоки гаплотипов для обнаружения людей одного и того же генетического происхождения, а затем использует все чтения этих людей в вызывающем варианте. Таким образом, полученная виртуальная глубина считывания искусственно увеличивается, что приводит к более высокой точности вызова, охвату и способности изменять количество копий на основе относительно дешевых данных секвенирования с низкой глубиной считывания.Таким образом, наш подход делает секвенирование экономически выгодной альтернативой массивам генотипирования с дополнительным преимуществом потенциального использования структурных вариаций.

Введение

Генотипирование большого количества линий с высокой пропускной способностью остается ключевой проблемой в генетике и селекции растений. Стоимость, точность и пропускная способность должны быть сбалансированы для достижения оптимальной эффективности с учетом доступных технологий и ограниченных ресурсов. Повышение рентабельности или разрешения высокопроизводительного генотипирования является стоящей целью для поддержки усилий селекционеров по увеличению генетического прироста и тем самым помощи в обеспечении планеты растущей популяцией людей [1].

В настоящее время высокопроизводительное генотипирование выполняется с использованием массивов однонуклеотидного полиморфизма (SNP) в большинстве распространенных сельскохозяйственных культур и видов домашнего скота. Эти массивы могут иметь разную плотность, от 10 тыс. SNP [2] до 50 тыс. [3] до 600 тыс. SNP [4,5], относительно просты в использовании [6] и обычно создают надежные генотипы с относительно небольшим количеством пропущенных вызовов или ошибок вызова. [5]. В результате массивы генотипов широко используются для широкого круга приложений, включая анализ разнообразия [7,8], геномный отбор [9,10] или исследования ассоциаций в масштабе всего генома [11,12].Ограничения технологии включают сложность и стоимость разработки массивов, их неспособность типизировать полиморфизмы de novo , отсутствие гибкости в выборе позиций маркеров и стоимость генотипирования, которая значительно возрастает с увеличением количества SNP на множество. Кроме того, маркеры массива обычно представляют собой SNP, выбранные так, чтобы они находились в относительно консервативных областях генома [13,14], т.е. по дизайну они предоставляют мало информации о структурных вариантах, хотя определение структурных вариаций также возможно с помощью массивов генотипирования [15].

В последние годы стремительный прогресс в секвенировании следующего поколения (NGS) позволил целевому генотипированию путем секвенирования (GBS) и полному геномному секвенированию (WGS) стать более дешевым, точным и широко доступным [16,17 ]. По сравнению с массивами генотипирования, данные GBS и WGS предоставляют дополнительную информацию, такую как локальная глубина считывания и более высокая общая плотность маркеров, которые успешно использовались в различных исследованиях [18–20]. Исследования, которые используют данные GBS или WGS для вызова структурных вариаций, обычно используют глубину чтения не менее 5X [21].Для таких приложений, как геномное прогнозирование, можно вообразить использование глубины чтения от 1X до 2X. Однако на сегодняшний день сообщаемая точность прогнозов при использовании данных простой последовательности в таких подходах существенно ниже [22]. С известными родословными [23] и / или линиями основателей с более высокой глубиной чтения [24] даже более низкая средняя глубина чтения оказалась полезной для геномного прогнозирования, хотя прогнозирующая способность все еще немного ниже, чем у данных массива. Ключевым ограничением NGS является то, что стоимость секвенирования увеличивается почти линейно с глубиной секвенирования [25].Таким образом, создание данных последовательностей с адекватной глубиной считывания по-прежнему является слишком дорогостоящим для большинства рутинных приложений, и поэтому массивы генотипирования по-прежнему считаются золотым стандартом в высокопроизводительной количественной генетике.

Важно отметить, что из-за стохастических аспектов секвенирования при отборе образцов из считываний генома не все варианты вызываются при полногеномном секвенировании на низкой или очень низкой глубине (например, ниже 1-2x) [6, 26]. В контексте упорядоченной популяции практически в каждой вариантной позиции отображается значительное количество пропущенных вызовов, оставляя эти пробелы для заполнения до последующих приложений.Эта процедура in silico называется условным исчислением. За прошедшие годы было предложено множество подходов к вменению [27–31]. Заинтересованного читателя отсылаем к Das et al. [32] для подробного обзора и сравнения широко используемых программ вменения. Поскольку инструменты обычно разрабатываются для применения в генетике человека с высоким генетическим разнообразием, оптимизация параметров является обязательной для популяций домашнего скота и сельскохозяйственных культур [33]. Однако до тех пор, пока рассматриваются несколько связанных лиц и настройки параметров выбираются надлежащим образом [33], частота ошибок для вменения данных массива обычно незначительна.

Одним из ограничений импутации при работе с данными последовательности с низкой глубиной считывания была проблема фазирования считываний, в результате чего частота ошибок импутации заметно возрастала. В отличие от генетики человека и домашнего скота, где фазирование является абсолютным требованием, полностью инбредные и гомозиготные линии легко образуются у кукурузы [7,34] и других видов растений [35]. Такие инбредные линии все чаще используются в селекции, среди прочего, для сокращения продолжительности цикла разведения, увеличения генетической изменчивости и защиты генетического разнообразия [7,36–38].Без необходимости поэтапного анализа существует высокий потенциал использования глубины секвенирования от очень низкой до низкой для генотипирования большого количества линий и применения эффективного вменения для получения максимального качества данных при минимальных затратах. В частности, информация о глубине чтения может использоваться для поддержки вмененных вызовов вариантов. Насколько нам известно, ни один из существующих подходов вменения в настоящее время не решает эту проблему.

В этой работе мы предлагаем новый конвейер вменения («HBimpute») для генотипических данных, полученных из последовательностей гомозиготных линий, который использует блоки дальних гаплотипов из программного обеспечения HaploBlocker [39].Блоки гаплотипов в HaploBlocker указывают на случаи групповой идентификации по происхождению (IBD) [40]. Эта информация служит для искусственного слияния считываний строк в одном блоке гаплотипа для локального увеличения глубины чтения, позволяя повысить точность вызова и тем самым повысить точность вызова и уменьшить долю пропущенных вызовов. Мы сравниваем наши вмененные данные с данными массива, данными последовательности с высокой глубиной чтения и данными последовательности с низкой глубиной чтения, которые были вменены с помощью современного программного обеспечения BEAGLE [31].Эффективность различных наборов данных оценивается по их полезности в последующем общегеномном исследовании ассоциации (GWAS) и для геномного прогнозирования (GP).

Результаты

Далее мы кратко набросаем ключевые этапы конвейера HBimpute (рис. 1). На первом этапе конвейера выполняется сопоставление чтения и вызов вариантов для создания необработанного набора данных SNP с потенциально высокой долей пропущенных вызовов. Для этого мы предлагаем использовать FreeBayes [41], но приемлемой альтернативой здесь является такое программное обеспечение, как GATK [42] и рабочий процесс в соответствии с лучшими практиками GATK [26].

Рис. 1.

Схематический обзор конвейера HBimpute с атрибутированием примерных данных (глубина чтения / отсутствие доли) в соответствии с данными по кукурузе.

Во-вторых, библиотека гаплотипов для имеющегося набора данных должна быть получена с помощью программного обеспечения HaploBlocker [39]. Поскольку HaploBlocker не поддерживает большую долю отсутствующих данных, сначала необходимо сгенерировать импутированный набор данных (вспомогательный импутированный набор данных SNP, рисунок 1) и использовать этот набор для вычисления библиотеки гаплотипов. Возможное программное обеспечение для использования здесь — BEAGLE [31].Вместо использования самих данных последовательности, библиотека гаплотипов также может быть вычислена из других генотипических данных рассматриваемых строк, таких как данные массива. Далее мы представим результаты для двух подходов и проведем различие между HB-seq и HB-array, в зависимости от того, использовались ли сами данные последовательности или данные массива 600k [5] для получения библиотеки гаплотипов.

В-третьих, информация о локальном IBD из полученной библиотеки гаплотипов используется на втором этапе вызова варианта.В отличие от первоначального вызова варианта, все отображенные чтения от индивидуумов, которые локально находятся в одном блоке гаплотипа, также используются для каждого соответствующего индивидуума. Поскольку локальная глубина чтения в большинстве регионов значительно увеличивается с помощью процедуры локального слияния, может быть выполнен дополнительный шаг для обнаружения вариации числа копий (CNV). Наконец, результирующий набор данных (набор данных HBimpute SNP, рисунок 1) импулируется с помощью традиционного программного обеспечения для вменения (набор данных импутинга SNP, рисунок 1) [31] и может использоваться для последующих последующих приложений.

Мы применили наш конвейер вменения к набору данных из 321 удвоенной гаплоидной линии кукурузы (DH), полученной из открытого опыляемого староместного сорта [43]. DHs были секвенированы полногеномами с глубиной считывания 0,5X, при этом FreeBayes вызывал 2152026 SNP [41] (по сравнению с 616201 в массиве высокой плотности [5]). Несмотря на то, что различия в плотности маркеров между данными последовательности и массива немного уменьшаются после применения фильтров контроля качества, удаления фиксированных маркеров и вменения (1 069 959 против 404 449 SNP), это все же значительное увеличение плотности маркеров.

При использовании конвейера HB-seq средняя глубина чтения увеличилась с 0,53X до 83X. В результате доля клеток набора данных генотипа, которые были вызваны, увеличивается с 39,3% до слияния до 95,2% после слияния гаплотипических блоков. Обратите внимание, однако, что глубина чтения сильно различалась между линиями и областями генома, поскольку она зависит в первую очередь от частот блоков гаплотипов в популяции. При использовании HB-массива средняя глубина чтения 51,3X была получена при 93,1% вызываемых вариантов.Это меньшее увеличение средней глубины чтения в основном связано с более длинными блоками гаплотипов, в HaploBlocker идентифицируется меньшее количество людей. Однако более низкая глубина чтения не обязательно означает более низкое качество данных в этом случае, поскольку более высокая степень родства между строками в одном и том же блоке гаплотипа может уменьшить шум, вносимый людьми, которые похожи, но не одинаковы локально. Фактически, мы ожидаем, что качество библиотеки гаплотипов на основе массивов будет выше, чем качество, полученное с помощью данных BEAGLE вмененных последовательностей с низкой глубиной чтения (HB-array), поскольку доля пропущенных вызовов в необработанных данных массива существенно ниже ( 1.2% против 60,7%) [33]. Однако на практике такие данные обычно недоступны, когда генерируются данные о последовательности. Настройки параметров в HaploBlocker могут быть изменены для управления структурой библиотеки гаплотипов [39].

Импутация

При сравнении показателей несоответствия вмененного набора данных SNP с данными генотипа из 600k Affymetrix® Axiom Maize Genotyping Array [5], частота ошибок в целом снижается с 1,03% до 0,60% в конвейере HB-seq и 0,50 % в конвейере HB-массива (Таблица 1).Коэффициенты ошибок здесь относятся к коэффициентам несоответствия между соответствующей вмененной панелью и данными 600k. Набор данных был разделен на три класса для дальнейшего доступа к эффективности вменения (рисунок 1):

Ячейки, впервые вызванные на этапе FreeBayes («Присутствуют в необработанных данных»)
Ячейки, впервые вызванные на этапе HBimpute («С вызовом после HB»)
Ячейки, впервые вызванные в наборе данных вмененного SNP ( «Без звонка после НВ»)

Таблица 1.

Скорости несоответствия данных импутированной последовательности и набора данных сравнения (массив / данные последовательности с высокой степенью считывания) для различных алгоритмов импутации.

Для всех трех классов повышение точности вызова достигается с наибольшим приростом для тех ячеек, которые были впервые вызваны на этапе HBimpute, поскольку средняя частота ошибок снижается с 0,83% до 0,17% / 0,10% в HB-seq / HB. -множество. Точно так же частота несоответствия для ячеек, уже вызванных на этапе FreeBayes, снижается примерно на 40%, поскольку вызовы перезаписываются (0.29% по сравнению с 0,19 / 0,18%, таблица 1), когда большое количество других лиц в том же блоке несут другой вариант, что свидетельствует о силе нашего подхода к обнаружению ошибок вызова. Обратите внимание, что вмененный набор данных в HB-массиве сравнивался с тем же массивом данных, который использовался для расчета библиотеки гаплотипов, и поэтому результаты для HB-массива потенциально смещены в сторону уменьшения. Однако, поскольку аналогичные улучшения наблюдались при сравнении панели вмененных данных с данными последовательности с высокой глубиной считывания, этот эффект должен быть незначительным.Благодаря общему более высокому качеству данных и меньшей доле отсутствующих маркеров после этапа HBimpute, даже частота ошибок для ячеек, вмененных на последующем этапе вменения BEAGLE, немного снижается.

При сравнении показателей несоответствия данных вмененной последовательности с данными последовательности 30X, которые были сгенерированы для семи из рассматриваемых строк, мы снова наблюдаем гораздо лучшие результаты в наборе данных, вмененном с помощью предлагаемого нами конвейера (HB-seq: 1,01% / HB- массив: 0,87%) по сравнению с набором данных, рассчитанным с помощью BEAGLE (1.65%, таблица 1). В отличие от сравнения с данными массива, частота ошибок для позиций, вызываемых на этапе HBimpute, даже ниже, чем для маркеров, вызываемых на этапе FreeBayes, поскольку перезапись уже вызванных вариантов требует более убедительных доказательств, чем вызов ранее отсутствующего варианта. Несмотря на то, что общая частота ошибок кажется выше по сравнению с данными последовательности с высокой глубиной чтения, это в основном связано с более низкой общей частотой ошибок в SNP, которые были размещены в массиве. Если просто учитывать положения маркеров, которые также находятся в массиве, частота ошибок уменьшается до 0.90% для HB-seq, 0,68% для HB-array и 1,38% для простого вменения BEAGLE [31]. Ячейки без вызываемого варианта в данных последовательности 30X здесь игнорировались.

При анализе частотного спектра аллелей полученной панели данных (рис. 2.A-D) мы можем наблюдать увеличенное количество маркеров для всех частот второстепенных аллелей. В целом, распределение частотного спектра аллелей выглядит очень похожим с примерно трехкратным увеличением количества маркеров для данных последовательности.Если просто рассмотреть положения маркеров, которые перекрываются с массивом 600k, можно наблюдать более высокую долю чрезвычайно редких вариантов (≥ 1%) в данных последовательности (рис. 2.E-H). Поскольку второстепенный вариант сложнее вменять, и для данных 600 тыс. 98,8% всех вариантов были вызваны до вменения [33], этого искажения в сторону более частого варианта следует ожидать. Общее количество нефиксированных маркеров, которые совместно используются массивом и последовательностью, является самым низким в массиве данных 600 тыс. С 366 822 SNP по сравнению с 368 095 SNP для HB-seq, 369 211 SNP для HB-массива и 377 900 SNP для простого вменения BEAGLE.Панель данных, созданная путем вменения через BEAGLE, включает в себя наибольшее количество редких вариантов, что также связано с тем, что вызовы редких вариантов перезаписываются в HB-seq и HB-array, когда дается сильная поддержка альтернативы.

Рис. 2.

Частотный спектр аллелей различных наборов генотипических данных для всех маркеров (A-D) и панель маркеров, общих для массива и данных последовательности (E-H).

Оценка локальной глубины считывания и структурной изменчивости

Генотипирование структурных вариантов на основе считывания-картирования обычно требует более высокой глубины секвенирования, чем вызов SNP.При сравнении полученной локально сглаженной глубины чтения данных последовательности 30X с вмененными данными низкой последовательности мы наблюдали среднюю корреляцию 0,750 по сравнению с 0,257 для необработанных данных 0,5X, что указывает на то, что вмененные данные можно использовать для вызова структурная изменчивость (корреляция без локального сглаживания: 0,442 против 0,102). Визуальный осмотр локальной глубины чтения также показывает, что пики (Рисунок 3.A / C) и локальный образец (Рисунок 3.B / D) между условно вычисленными данными последовательности с низкой глубиной чтения и данными последовательности с высокой глубиной чтения совпадают, тогда как необработанные данные последовательности с низкой глубиной чтения имеют гораздо более высокую волатильность (рисунок 3.E / F). Обратите внимание, что HBimpute может предоставить только приблизительную глубину чтения для регионов, которые находятся в локальном блоке гаплотипа, что приводит к некоторым пробелам (4,1%, рис. 3.C / D).

Рис. 3.

Расчетная стандартизованная глубина считывания для линии PE0213 с использованием данных последовательности с высокой глубиной считывания (A / B), условно вычисленных данных последовательности с низкой глубиной считывания с помощью HBimpute (C / D) и необработанных данных последовательности с низкой глубиной ( E / F) для хромосомы 10 и примерный выбранный сегмент в области пика.

Геномное предсказание

Производительность данных импутированной последовательности HBimpute и BEAGLE для геномного предсказания оценивалась по сравнению с данными массива.Для этого мы сравнили полученную прогностическую способность каждого набора по девяти признакам, включая раннюю силу роста и высоту растений на разных стадиях роста, дни до шелушения, дни до образования кисточки и полегания корней [43]. Прогностическая способность панелей данных вмененной последовательности была незначительно ниже для восьми из девяти рассматриваемых признаков. Однако различия между панелями данных были небольшими, так как средняя разница составляла всего 0,0028 и самое большее 0,0069 (таблица 2 и дополнительная таблица S1). Напротив, при использовании только позиций маркеров, которые являются общими для последовательности и данных массива, незначительные улучшения были получены для восьми из девяти признаков (парный t-критерий, p-значения ¡10 ⁻¹⁵).Поскольку разница в среднем составляет всего 0,0011, на практике ею все же можно пренебречь. Включение вызовов CNV из конвейера HBimpute привело к небольшому снижению возможностей прогнозирования, особенно при отсутствии фильтрации.

Таблица 2.

Средняя прогностическая способность по девяти признакам кукурузы [43] в зависимости от данных генотипа, используемых для предсказания. Панель перекрывающихся маркеров включает в себя все маркеры, включенные в массив и панель данных последовательности после фильтрации контроля качества.

Общегеномное ассоциативное исследование

Кроме того, мы оценили пригодность вмененных данных последовательности с низкой глубиной чтения для использования в GWAS по сравнению с данными массива высокой плотности.Наша цель состояла в том, чтобы оценить, влияет ли большее количество вариантов, генотипированных по сравнению с чипом, на мощность или разрешение GWAS. При сравнении графиков Манхэттена, полученных на основе данных последовательности и данных массива по смоделированным признакам, в целом, более высокие пики наблюдаются для всех вариантов данных последовательности, что приводит к большему количеству регионов, идентифицированных при использовании одних и тех же значений p. Поскольку результаты GWAS для разных наборов данных и одних и тех же p-значений несопоставимы, а коррекция значимого порога не является простой задачей, вместо этого мы сообщаем долю истинно положительных совпадений QTL по сравнению с общим количеством регионов с совпадениями GWAS.

Наилучшие результаты были получены с данными последовательности, вмененными с помощью HB-массива и простого вменения BEAGLE для данных последовательности с низкой глубиной считывания, за которыми следуют данные массива 600k и HB-seq (рисунок 4.A, дополнительная таблица S2). Фильтрация данных последовательности, как это делается для геномного предсказания, приводит к увеличению количества ложных открытий. Еще большее падение производительности наблюдалось при использовании массива генотипов с маркерами 10/50. В целом, результаты для различных панелей данных последовательности с вмененной низкой глубиной считывания очень похожи, и панели данных с большим количеством маркеров кажутся наиболее подходящими для анализа GWAS.Однако применение менее строгих фильтров контроля качества для увеличения количества включенных SNP до 1 349 597 SNP не улучшило результаты GWAS для HB-seq, тем самым показывая, что нельзя пренебрегать качеством данных.

Рис. 4.

Количество положительных совпадений GWAS для смоделированных признаков с 10 лежащими в основе QTL в соответствии с долей истинно положительных результатов (A). Среднее расстояние локального пика GWAS (наивысшее значение p) и лежащего в основе истинного QTL для истинных совпадений GWAS (B).

Что касается мощности отображения, мы наблюдали наименьшее медианное расстояние между пиком GWAS (наивысшее локальное значение p) и лежащим в основе истинным QTL при использовании данных 600k и данных HB-seq, когда включаются только маркеры, общие с массивом ( Рисунок 4.Б). Это указывает на то, что для точного картирования качество маркеров должно быть более важным, чем общее количество маркеров. Тем не менее, данные массива с пониженной дискретизацией (10k / 50k) снова показали худшие результаты. Для всех панелей данных, основанных на последовательностях, наблюдалось относительно большое количество изолированных совпадений GWAS, что потенциально могло быть связано с мобильными элементами и другими структурными вариациями, поскольку эталонный геном B73 [44, 45] представляет зародышевую плазму, тогда как линии в этом исследовании принадлежат в кремневый бассейн [46].

Обсуждение

HBimpute показан как конвейер для точного вменения данных последовательности с низкой глубиной чтения. Результаты показывают, что использование HBimpute позволяет выполнять секвенирование на меньшей глубине, сохраняя при этом качество данных, сопоставимое с массивом данных высокой плотности. Таким образом, HBimpute обеспечивает значительную экономию средств и / или данные более высокого качества для последующих приложений.

В целом, мы можем подтвердить, что WGS и GBS являются действительными альтернативами массивам генотипирования для генерации генотипических данных и использования в последующих приложениях.Для GWAS было показано, что использование геномных данных, сгенерированных посредством секвенирования, более эффективно, чем использование традиционных массивов данных, даже несмотря на то, что различия между данными последовательностей и данными 600k были относительно небольшими. Хотя количество ошибок при вменении было уменьшено с помощью HBimpute, различиями в производительности анализа GWAS можно было пренебречь по сравнению с использованием вмененного набора данных BEAGLE, а улучшение производительности в основном можно отнести к увеличению плотности маркеров [12]. Несмотря на то, что прогнозирующая способность на всей панели данных для данных последовательности была немного ниже, чем при использовании данных массива, это в основном может быть связано с включением некоторых маркеров низкого качества в данные последовательности.Этот эффект еще сильнее при включении вызовов CNV. При простом рассмотрении информации о генотипе на панели перекрывающихся маркеров между последовательностью и данными массива предсказательная способность была незначительно улучшена, что указывает на то, что общее качество данных последовательностей с низкой глубиной чтения находится на одном уровне или даже немного выше, чем у данных массива. Это дополнительно подтверждается более высокими показателями ошибок при вменении для маркеров, не являющихся массивом, и немного увеличенной прогностической способностью при использовании HBimpute вместо BEAGLE для вменения последовательностей.Хотя никаких улучшений для геномного прогнозирования или GWAS не было получено с учетом структурных вариаций или включения маркеров без массива, все же должно быть по крайней мере некоторые высококачественные маркеры и функциональные CNV, не захваченные массивом. В частности, при анализе конкретных участков генома или при применении улучшенной фильтрации контроля качества эта информация все еще может быть полезной.

В целом, мы можем сделать вывод, что оценка полезности набора геномных данных зависит от приложения, и подготовка данных и фильтрация должны выбираться соответственно.По мере увеличения плотности маркеров ошибки вызова и вменения будут увеличиваться (из-за включения некачественных маркеров), и необходимо найти адекватный вес между плотностью маркеров и качеством. Например. при проведении GWAS основное внимание следует уделять включению большого количества маркеров, тогда как для геномного прогнозирования в этом исследовании было показано, что более важными являются маркеры высокого качества. В этом контексте HBimpute предоставляет основу для повышения точности вменения и, таким образом, улучшения качества данных по сравнению с существующим программным обеспечением для вменения.Обратите внимание, что как GWAS, так и геномное прогнозирование с помощью смешанной модели являются довольно надежными методами, которые нейтрализуют большинство проблем, связанных с частичным низким качеством данных.

Использование данных последовательности сопряжено с проблемами и возможностями. Данные о последовательностях предоставляют больше информации в менее консервативных областях и, таким образом, предоставляют больше информации о структурных вариациях генома [47]. В частности, в геномах сельскохозяйственных культур высока доля мобильных элементов (например, у кукурузы 85% [44]). Поскольку данные в этих регионах всегда будут более шумными, чем маркеры массива, специально отобранные для более консервативных регионов [5,13].Обратите внимание, что высококачественные массивы генотипов доступны не для всех видов, а относительная стоимость секвенирования будет ниже для видов с короткими геномами.

Таким образом, решение о том, какую технологию генотипирования использовать на практике, будет в значительной степени зависеть от вида, длины его генома, доступных массивов генотипирования и предполагаемых последующих применений. Несмотря на то, что можно заменить BEAGLE другим программным обеспечением для импутинга, другим протестированным инструментам либо требовалось больше вычислительного времени, либо они не были такими точными для линий DH, либо имели проблемы с большой долей отсутствующих данных, что побудило нас настоятельно рекомендовать использование BEAGLE. [31].

Ключевым ограничением конвейера HBimpute является то, что он требует высокоточной информации о фазе, которая обычно недоступна для данных последовательности с низкой глубиной чтения в неинбредном материале и поэтому в основном применима к инбредным линиям. Тем не менее, с доступностью технологий долгого считывания секвенирований и лиц с близким родством с доступной информацией о родословных, которые обычно присутствуют в генетике домашнего скота, это может измениться в будущем. Предлагаемый здесь конвейер и программное обеспечение HBimpute могут применяться к гетерозиготным данным таким же образом, как и к инбредным, путем обработки двух гаплотипов каждого индивидуума в отдельности.

В частности, для обнаружения структурных отклонений предложенный здесь конвейер продемонстрировал свою высокую эффективность, поскольку локальная глубина считывания условно рассчитанных данных 0,5Х была очень похожа на данные 30Х, которые были сгенерированы для семи из исследованных линий. Таким образом, мы заключаем, что использование HBimpute позволяет вызывать структурные вариации из данных 0,5X. Поскольку другие исследования, обнаруживающие структурные вариации, обычно полагаются на данные 5-кратного или даже 10-кратного увеличения, это значительное снижение затрат, что позволяет вызывать структурные вариации в крупномасштабных популяциях.

Материалы и методы

Далее мы более подробно опишем этап вменения на основе блоков гаплотипов предлагаемого нами конвейера. Этот шаг обычно применяется после начального шага вызова SNP, в результате которого создается набор данных, который мы называем необработанным набором данных SNP (рисунок 1). В нашем тесте каждая из 340 отдельных линий DH имела свой файл необработанного считывания (FASTQ), выровненный с эталонным геномом B73v4 [48] с использованием BWA MEM [45]. Впоследствии вызов вариантов в FreeBayes был выполнен с использованием фрагментов генома на 100 килобазовых пар с позициями маркеров из 600k Affymetrix® Axiom Maize Genotyping Array [5], которые были введены в качестве входных данных для принудительного создания отчетов о вариантах в этих местах (-).Кроме того, 5 подтверждающих наблюдений требовалось рассматривать как вариант (-C 5) с не более чем 3 аллелями на позицию (-use-best-n-alleles 3) и максимальной общей глубиной в позиции 340 (-max- покрытие 340). Чтобы гарантировать адекватное качество данных, маркеры с более чем 1% гетерозиготных вызовов удаляются, поскольку мы не ожидаем гетерозиготных генотипов для линий DH.

Впоследствии 19 линий были удалены из панели, поскольку генотипы из массива 600k и данные последовательности показали явное указание на контаминацию и / или неправильную маркировку (см. Подраздел «Используемые данные генотипа»).

Недавно предложенный шаг HBimpute использует необработанный набор данных SNP (рисунок 1) в качестве единственного обязательного ввода и может быть разделен на три подэтапа, которые будут обсуждаться в следующих подразделах:

Создание библиотеки гаплотипов
Чтение-объединение
SNP-вызов

Обратите внимание, что используются только те чтения, которые используются для вызова варианта в формате Variant call (VCF) — файл и, в частности, что ни на одном из этапов предлагаемых алгоритмов не требуется доступа к исходным необработанным данным чтения из файлов двоичной карты выравнивания (BAM) или аналогичным.После выполнения этих шагов получается результирующий набор данных SNP HBimpute (рис. 1), с несколькими оставшимися пропущенными вызовами. Тем не менее для большинства приложений необходимо последующее вменение с помощью традиционного программного обеспечения для вменения. В наших тестах программа BEAGLE показала хорошие результаты как с точки зрения времени вычислений, так и с точки зрения точности [31], и была выбрана для всех представленных тестов. Здесь мы сосредоточимся на описании настроек по умолчанию для связанного R-пакета HBimpute, но также обсудим возможные отклонения с большинством параметров в инструменте, которые можно адаптировать для установки весов между качеством вменения, количеством рассматриваемых маркеров и общей долей маркеров, называемых в HBimpute.

Отдельные шаги процедуры будут объяснены на примере набора данных, приведенного на рисунке 5, с пятью гаплотипами и десятью маркерами каждый. Для простоты здесь предполагается, что глубина чтения равна единице для всех называемых записей генотипов.

Рис. 5.

Пример игрушки для шага HBimpute. Каждый столбец представляет SNP, а каждая строка представляет гаплотип (для инбредов: индивидуальный). Блоки гаплотипа обозначены цветными блоками. Обратите внимание, что синий и красный блоки перекрываются.

Получение библиотеки гаплотипов

На первом этапе HBimpute цель состоит в том, чтобы получить библиотеку гаплотипов с помощью соответствующего программного обеспечения HaploBlocker [39]. Поскольку сам HaploBlocker не поддерживает высокую долю отсутствующих данных, сначала необходимо вменять необработанный набор данных SNP, чтобы сгенерировать вспомогательный вмененный набор данных SNP (рисунок 1). В качестве альтернативы также могут быть использованы другие генетические данные рассматриваемых строк, такие как данные массива. Результаты для обоих подходов (HB-seq и HB-array) представлены в разделе результатов.Поскольку общее качество данных в наших тестах указывает на то, что данные массива имеют немного более высокое качество с точки зрения согласованности и общей частоты ошибок вызова, чем необработанные данные последовательности с низкой глубиной чтения, рекомендуется использовать данные массива, когда они доступны (HB-array) . Кроме того, в обоих подходах в качестве справочной панели могут быть включены дополнительные линии. Лица в контрольной панели могут использоваться либо для улучшения качества библиотеки гаплотипов, либо для предоставления дополнительных считываний, которые будут использоваться на последующем этапе считывания-слияния.Во всех наших тестах настройки по умолчанию в HaploBlocker были скорректированы для определения длинных блоков гаплотипов, которые потенциально присутствуют с низкой частотой (node_min = 3, edge_min = 3, weighting-length = 2 [39]), и было установлено целевое покрытие, чтобы гарантировать достаточный охват библиотеки гаплотипов (охват цели = 0,95 [39]). Для наборов данных с большим количеством вариаций может потребоваться уменьшение размера окна для обнаружения более коротких блоков гаплотипов, что может быть получено путем активации адаптивных размеров окна (adaptive_mode = TRUE [39]), но требует значительно увеличенного времени вычислений.

Для нашего примера игрушки, приведенного на рисунке 5, три блока обозначены красным блоком, включая гаплотипы 1,2,3, охватывающие SNP 1-10, зеленый блок, включающий гаплотипы 4,5, охватывающие SNP 1-5, и синий блок, включающий гаплотипы 1,2,3,4, охватывающие SNP 6-10.

Чтение-слияние

Результатом HaploBlocker является библиотека гаплотипов. Поскольку содержащиеся блоки гаплотипов представляют собой случаи группового IBD [40], это означает, что все включенные гаплотипы должны иметь локально совпадающие последовательности и что все чтения этих строк могут использоваться для последующего вызова SNP.Чтобы по-прежнему иметь возможность обнаруживать недавние и редкие изменения, показания самого человека используются с более высоким весом на последующих этапах (по умолчанию: в пять раз выше). Вызовы вариантов, которые отсутствовали в исходном вызове варианта

FreeBayes [41] и были вменены только на этапе создания библиотеки гаплотипов, на этом этапе игнорируются. В нашем примере это означает, что для маркера 1 в гаплотипе 1 нет операций чтения, поддерживающих вариант 0, и двух операций чтения, поддерживающих вариант 1.Аналогично, для маркера 5 существует пять вариантов чтения, поддерживающих вариант 1, и только один вариант чтения, поддерживающий 0, поскольку считывание самого гаплотипа считается с более высоким весом. Обратите внимание, что в реальной библиотеке гаплотипов каждый блок обычно содержит гораздо больше гаплотипов, при этом минимум по умолчанию равен 3, и поэтому самому гаплотипу присваивается гораздо более низкий относительный вес.

Вызов SNP

После этапа считывания-слияния необходим следующий этап вызова SNP. Поскольку на этом этапе невозможно и не нужно получать вызовы для всех маркеров, основное внимание уделяется получению вызовов для маркеров с четкими доказательствами определенного варианта.В нашем случае это означает, что не менее 80% всех операций чтения поддерживают один и тот же вариант. Если на этом шаге не было получено вызова, но был вызван вариант в исходном необработанном наборе данных SNP, этот вариант вставляется. В основном это делается для того, чтобы не потерять редкие варианты.

В примере с игрушкой (рис. 5) в маркере 5 вариант 1 вызывается для гаплотипа 1, поскольку пять из шести считываний считаются поддерживающими вариант 1. Даже если гаплотип 2 находится в том же локальном блоке гаплотипа, вариант 0 здесь называется, как чтения самой строки имеют больший вес.Для гаплотипа 3 ни один вариант не может быть вызван, поскольку оба варианта поддерживаются ровно одним считыванием, таким образом, не превышая 80% -ный порог.

Фильтры качества

Чтобы гарантировать качество данных для каждого маркера, все маркеры с расчетной глубиной считывания, которая составляет менее 50% от общей средней глубины считывания, удаляются из набора данных. Аналогичным образом удаляются все маркеры с пропущенными вызовами более чем на 50%. Эти настройки можно рассматривать как относительно консервативные, поскольку удаляются только маркеры с очень низкой скоростью вызова.Таким образом снижается вероятность появления шума от некачественных маркеров в последующей процедуре вменения BEAGLE. Дальнейшее увеличение пороговых значений фильтра увеличит точность вызова, но также может привести к потере полезной информации.

Необязательно: вызов CNV

Поскольку глубина чтения после объединения SNP на основе HBimpute значительно увеличивается, этап вызова SNP может быть объединен с дополнительным этапом для обнаружения структурных изменений, в частности CNV. Чтобы устранить проблемы с высокой дисперсией на каждый маркер в глубине чтения, мы сначала применяем функцию сглаживания ядра для оценки локальной глубины чтения популяции.Это делается с помощью оценщика Надарая-Ватсона [49] с гауссовым ядром и установленной пропускной способностью (по умолчанию: 0,25 мегабазовых пар (MBp)). Локальная глубина чтения одного гаплотипа затем сравнивается со средним по населению с регионами. ожидаемые значения выше 1,3 классифицируются как CNV, а области ниже 0,7 классифицируются как удаления. Регулируя полосу пропускания функции сглаживания, разрешение идентификации можно адаптировать для целевого использования коротких / длинных сегментов CNV. Обратите внимание, что этот подход не обнаруживает другие структурные вариации, такие как транслокации, инверсии или вставки, поскольку здесь используются не все необработанные чтения из файла BAM, а только выровненные чтения, которые использовались для вызова варианта в файле VCF.Обратите внимание, что вместо выполнения шага HBimpute для VCF-файла слияние также может быть применено непосредственно к самим операциям чтения с последующим вторым запуском альтернативного вызывающего объекта.

Для простоты в примере с игрушкой (рис. 5) мы предполагаем, что только сам маркер влияет на предложенный метод CNV, и поэтому локальное сглаживание не применяется. Это приведет к тому, что средняя глубина чтения маркера 4 будет 0,4X (два чтения для пяти гаплотипов). Гаплотипы 4,5 имеют оценочную глубину считывания 0, поскольку ни один из вариантов не был вызван.Гаплотип 1 имеет оценочную глубину считывания 0,285X (два считывания для семи гаплотипов), поскольку сам гаплотип считается пять раз. Оба гаплотипа 2 и 3 имеют оценочную глубину считывания 0,857X (шесть считываний для семи гаплотипов). Это привело бы к удалению, вызываемому для гаплотипов 4 и 5 (0X / 0,4X 0,7), и дупликации, вызываемому для гаплотипов 2 и 3 (0,857X / 0,4X 1,3). Обратите внимание, что этот мелкомасштабный игрушечный пример не предназначен для идентификации CNV, и для обнаружения изменения количества копий обычно требуется гораздо большее количество поддерживающих чтений и локального сглаживания.После этого как делеции, так и дупликации добавляются в качестве дополнительного двоичного маркера, который кодирует, присутствует ли соответствующая структурная вариация в каждом маркере или нет.

Другие подходы к глубине чтения на основе одного SNP или окна также были протестированы [50], но имели ограниченный успех. Никакого тестирования с подходами раздельного чтения или сборки не проводилось [51], так как весь анализ в HBimpute просто использует VCF-файл в качестве входных данных. Однако методы должны относительно легко расширяться до таких подходов, чтобы можно было обнаруживать другие типы структурных изменений.

Гетерозиготные данные

В принципе, один и тот же конвейер, предложенный для инбредов, также может быть применен к диплоидным и гетерозиготным данным, которые используют два соответствующих гаплотипа по отдельности. Однако, поскольку точность фазирования данных последовательностей с низкой глубиной считывания обычно относительно низка, получение библиотеки гаплотипов точности сильно зависит от программного обеспечения, используемого для начального фазирования, что приводит к тому, что результаты вызова SNP очень похожи на исходные поэтапные и условно исчисленные наборы данных из соответствующего внешнего программного обеспечения.С продвинутым долгосрочным секвенированием качество фазировки может улучшиться в будущем.

Геномное предсказание

Возможность использования различных наборов данных для геномного предсказания оценивалась путем сравнения каждого набора на предмет его предсказательной способности для хороших реальных фенотипов, включая раннюю силу роста и высоту растений на разных стадиях роста, дни до шелкования, дни до кисточки и корневое полегание. Для этого набор данных был разделен на 280 строк, используемых для обучения, и 41 строку в качестве тестовых наборов, и для оценки использовалась корреляция между лежащими в основе фенотипами тестового набора и их оценочными значениями разведения.Мы определяем прогностическую способность как корреляцию между оценкой племенной ценности и фенотипами в тестовой выборке. Для оценки использовалась линейная смешанная модель [52] с матрицей геномных отношений [53] (геномный лучший линейный несмещенный прогноз). Эта процедура была повторена 250 раз для всех рассмотренных признаков.

Общегеномное исследование ассоциации

Для сравнения эффективности различных полученных вмененных наборов данных было проведено общегеномное ассоциативное исследование смоделированных фенотипов и, следовательно, известных лежащих в основе регионов.Для каждого признака 10 лежащих в основе QTL были смоделированы с 5 положениями QTL, выбранными случайным образом и оцененными на основе данных 600k, и 5 положений QTL, отобранных и оцененных на основе данных HB-seq. Наследуемость h ² смоделированных признаков была принята равной 0,5 со всеми 10 QTL, имеющими одинаковую величину эффекта. В дополнение к вмененным наборам данных, массив данных размером 600 тыс. Также подвергся субдискретизации для искусственного создания массивов SNP с низкой плотностью (10, 50 тыс.). Маркеры выше определенного значения p были помещены в объединенную область в случае, если они находятся на расстоянии не более 1 МБ / с друг от друга, и область считалась положительной в случае, если основной QTL находился не более чем на 1 МБ / с от региона.Данная процедура была повторена для 5000 отдельно смоделированных признаков.

Использованные данные генотипа

Для всех тестов, проведенных в этом исследовании, данные секвенирования с низкой глубиной считывания с целевой глубиной считывания 0,5X были получены для 340 линий удвоенных гаплоидов кукурузы, полученных от открытого опыления староместного сорта [43]. Варианты назывались с использованием программного обеспечения FreeBayes [41] с принудительным вызовом позиций маркеров 600k Affymetrix® Axiom Maize Genotyping Array [5]. В результате получилась панель данных из 2152026 SNP и средней глубины чтения 0.73X. 19 строк были удалены из панели, поскольку генотипы между вызываемыми вариантами и независимо сгенерированные данные из массива 600k [43] различались более чем на 0,75%, что указывает на загрязнение образца. Кроме того, была проведена повторная маркировка 4 линий, поскольку генотипы совпадали с разными линиями на основе данных массива 600 тыс. Поскольку мы не ожидали гетерозиготных вызовов в линиях DH, все маркеры с более чем 1% гетерозиготных вызовов были удалены из панели (34% всех вариантов). Кроме того, были исключены фиксированные позиции маркеров (10% всех вариантов).Переход к необработанному набору данных SNP (рис. 1), содержащему 1 109 642 SNP (по сравнению с 404 449 переменными SNP с адекватным качеством (PolyHighResolution [54]) в массиве высокой плотности [5] (всего: 616 201 SNP)). После фильтра качества на этапе HBimpute остается 1 069 959 SNP. Контроль качества и условное исчисление массива 600 тыс. Выполнялись, как описано в Pook et al. [39]. Поскольку только 1,2% всех маркеров были вменены, это должно иметь незначительное влияние для данного исследования.

Программное обеспечение

Процедура слияния-чтения и вызова SNP, представленная в этой рукописи, реализована в R-пакете HBimpute (доступен по адресу https: // github.com / tpook92 / HBimpute). Время вычисления конвейера HBimpute выше, чем у обычных процедур вменения, таких как BEAGLE [31], так как сам алгоритм BEAGLE выполняется дважды, и HaploBlocker [39] необходимо применить к вспомогательному набору вмененных данных SNP (рисунок 1). Наш конвейер от необработанного набора данных SNP до окончательного вмененного набора данных SNP для хромосомы 1 занял 107 минут, из которых 68 минут были потрачены в BEAGLE для конвейера HB-array. Конвейер HB-seq занял 226 минут, поскольку библиотека гаплотипов содержала значительно больше блоков гаплотипов, которые необходимо было обработать в HBimpute.Все указанные значения времени вычислений были получены при использовании одного ядра в HBimpute на процессоре Intel (R) Xeon (R) E7-4850 2,00 ГГц. Пакет R можно установить непосредственно в сеансе R с помощью следующей команды: install.packages («devtools») devtools :: install _github («tpook92 / HBimpute», subdir = «pkg»)

Этот конвейер использует программное обеспечение BEAGLE 5.0 в качестве внутреннего инструмента вменения (https://faculty.washington.edu/browning/beagle/beagle.html) [31].

Дополнительная информация

S1 Таблица. Прогностическая способность по девяти признакам кукурузы в зависимости от используемых данных генотипа. Подробности об отдельных чертах и стадиях роста (v3-final) можно найти в [43].

S2 Таблица. Количество истинных базовых QTL, идентифицированных в зависимости от частоты ложных обнаружений (FDR).

Заявление о доступности данных

Геномные данные для хромосомы 1 из 321 DH-линии, которые были получены путем секвенирования с 0.Пятикратная глубина чтения после предварительной обработки в FreeBayes доступна по адресу https://github.com/tpook92/HBimpute. Геномные данные для хромосомы 1 для 321 DH-линии, которые были созданы с помощью 600k Affymetrix® Axiom Maize Genotyping Array, доступны по адресу https://github.com/tpook92/HaploBlocker. Геномные данные для других хромосом и исходные данные доступны по запросу. Весь исходный код, лежащий в основе шага HBimpute, предоставляется через GitHub (https://github.com/tpook92/HBimpute) и реализован в соответствующем R-пакете HBimpute.

Конкурирующие интересы

Представленный этап HBimpute находится на рассмотрении под номером заявки EP20201121.9. Заявителями патента являются KWS SAAT SE & Co. KGaA и Геттингенский университет. Изобретатели — Торстен Пок и Аднане Немри.

Благодарности

Авторы благодарят Федеральное министерство образования и исследований Германии (BMBF) за финансирование нашего проекта (MAZE — «Доступ к геномному и функциональному разнообразию кукурузы для улучшения количественных характеристик»; идентификатор финансирования: 031B0882).

Ссылки

1.↵
2.↵
3.↵
4.↵
5.↵
6.↵
7.↵
8.↵
9.↵
10.↵
11.↵
12.↵
13.↵
14.↵
15.↵
16.↵
17.↵
18.↵
19.
20.↵
21.↵
22.↵
23.↵
24.↵
25.↵
26.↵
27.↵
28.
29.
30.
31.
32.↵
33.↵
34.↵
35.↵
Малушинский М., Каша К.Дж., Зарейко И. Опубликовано удвоенные гаплоидные протоколы у видов растений. В: Удвоенное производство гаплоидов у сельскохозяйственных культур. Springer; 2003. с. 309–335.
36.↵
37.
38.↵
39.↵
40.↵
41.↵
Гаррисон Э., Март Г. Обнаружение вариантов на основе гаплотипов с помощью короткого секвенирования.Препринт arXiv arXiv: 12073907. 2012 ;.
42.↵
43.↵
44.↵
45.↵
Li H. Считывает выравнивающую последовательность, клонирует последовательности и контиги сборки с помощью BWA-MEM. Препринт arXiv arXiv: 13033997. 2013;.
46.↵
47.↵
48.↵
49.↵
50.↵
51.↵
52.↵
53.↵
54.↵
Пирани А, Гао Х., Беллон Л., Вебстер Т.А. Лучшие практики для анализа генотипов геномов растений и животных с помощью массивов Affymetrix® Axiom®: 2013: P0997; 2013.

Оптимизированное генотипирование с двойным перевариванием методом секвенирования (ddGBS) с использованием маркеров SNP высокой плотности и высокой точности генотипирования для цыплят

Abstract

Маркеры однонуклеотидного полиморфизма (SNP) высокой плотности имеют решающее значение для повышения разрешения и точности исследований общегеномных ассоциаций (GWAS) и геномной селекции (GS). Многочисленные подходы, включая секвенирование всего генома, секвенирование выборки генома и чипы SNP, позволяют обнаруживать маркеры генотипа с разной плотностью и стоимостью.Достижение оптимального баланса между разрешением секвенирования и бюджетом, особенно в крупномасштабных исследованиях популяционной генетики, представляет собой серьезную проблему. Здесь мы выполнили улучшенное генотипирование с двойным ферментным перевариванием путем секвенирования (ddGBS) на курице. Мы оценили восемь комбинаций двойного ферментного переваривания, и Eco R I- Mse I было выбрано в качестве оптимальной комбинации для генома курицы. Во-первых, мы предложили использовать два параметра, оптимальную точку подсчета считываний (ОВП) и насыщенную точку подсчета считываний (SRP), для определения оптимального объема секвенирования.Всего было идентифицировано 291 772 SNP высокой плотности от 824 животных. Путем проверки с использованием чипа SNP мы обнаружили, что согласованность между данными ddGBS и чипом SNP составляет более 99%. Подход, который мы разработали для цыплят, который отличается высоким качеством, высокой плотностью, рентабельностью (300 тыс., 30 долларов США за образец) и экономией времени (в течение 48 часов), найдет широкое применение в программах разведения животных.

Образец цитирования: Wang Y, Cao X, Zhao Y, Fei J, Hu X, Li N (2017) Оптимизированное генотипирование с двойным перевариванием путем секвенирования (ddGBS) с использованием высокоплотных маркеров SNP и высокой точности генотипирования цыплят.PLoS ONE 12 (6):
e0179073.

https://doi.org/10.1371/journal.pone.0179073

Редактор: Пэн Сюй, Сямэньский университет, КИТАЙ

Поступила: 2 марта 2017 г .; Одобрена: 23 мая 2017 г .; Опубликовано: 9 июня 2017 г.

Авторские права: © 2017 Wang et al. Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии указания автора и источника.

Доступность данных: Считанные необработанные последовательности были депонированы в базе данных SRA (доступ SRA: SRP079718).

Финансирование: Это исследование финансировалось грантами Программы 948 Министерства сельского хозяйства Китая (2012-G1 [4]), Национальной программы исследований и разработок в области высоких технологий Китая (2013AA102501) и Национальной программы развития Китая. Фонд естественных наук Китая (NSFC, 31272432).

Конкурирующие интересы: Авторы заявили, что конкурирующих интересов не существует.

Введение

Генетические маркеры, как материал для генетических исследований, произошли от ранних полиморфизмов длины рестрикционных фрагментов (RFLP), полиморфизмов длины амплифицированных фрагментов (AFLP) и простых повторов последовательности (SSR) до широко используемых в настоящее время маркеров SNP. Огромные успехи в подходах к геномному генотипированию произвели революцию в области популяционной генетики и анализа молекулярного разведения [1]. Было разработано множество различных методов генотипирования (таких как секвенирование всего генома, секвенирование выборки генома и чипы SNP), которые различаются по плотности маркеров и стоимости.Поскольку более высокая плотность приводит к большему разрешению, но более высокой стоимости, достижение оптимального баланса между ними представляет собой серьезную проблему [2].

Для исследований в области популяционной генетики генотипирование посредством секвенирования всего генома в настоящее время является чрезмерно дорогостоящим и технически ненужным [3]. Чипы SNP, такие как 600K олигонуклеотидные куриные матрицы (Affymetrix, Inc., Санта-Клара, Калифорния, США) [4] и 60K микроматрицы BeadArray (Illumina, Inc., Сан-Диего, Калифорния, США) [5], значительно дешевле. , но обладают ограничениями, такими как: 1) менее репрезентативность местных китайских пород; 2) невозможность обнаружить новые SNP; и 3) применимо только к мелкомасштабным исследованиям.Однако недавно был разработан метод секвенирования с уменьшенным представлением генома (RRGS) [6-8], который относится к группе различных технологий с принципом использования рестрикционного ферментного расщепления для уменьшения локусов, подлежащих секвенированию. В настоящее время предложены многочисленные родственные методы, включая секвенирование ДНК, ассоциированное с сайтами рестрикции (RAD-seq) [9], генотипирование путем секвенирования (GBS) [10], библиотеки с уменьшенным представлением (RRL) [11], снижение сложности полиморфные последовательности (CRoPS) [12], их улучшенные версии [13–16] и др.Эти методы RRGS широко применяются в исследованиях животных, растений и микроорганизмов [17–19].

Что касается цыплят, широко используются подходы RRGS. Kerstens et al. исследовали вариации структуры (SV) в масштабе всего генома путем создания библиотек с уменьшенным представлением (RRL) генома курицы [20]. Они идентифицировали сотни общих и расходящихся SV в разных линиях несушек и бройлеров. Zhai et al. обнаружили 75 K SNP от 72 человек, и 28 K SNP были идентифицированы как кандидаты для 16 пород кур с использованием метода RAD-seq [21].Liao et al. далее применили генотипирование методом сокращения генома и секвенирования (GGRS) у кур и идентифицировали 91 тыс. SNP от 252 особей с меньшими затратами [16]. Кроме того, Fábio et al. идентифицировали 134 тыс. SNP путем оптимизации процедуры CornellGBS [22]. Для вышеуказанных исследований одноферментный ( Alu I, Hin d III, Ava II, Pst I, соответственно) был использован для подготовки библиотек секвенирования под руководством выбора фермента либо in silico или существующая литература [16,21,22].Однако метод расщепления одним ферментом может вызвать некоторые проблемные проблемы, такие как снижение качества секвенирования, вызванное высокой долей коротких фрагментов и несогласованность подсчетов считываний для каждого человека [16,22]. Значимая диверсификация методов GBS / RAD заключалась в введении двух ферментов. Некоторые исследования показали, что двухферментное переваривание дает более стабильные результаты у разных людей, чем одноферментное переваривание [14,23]. Однако, насколько нам известно, метод двойных ферментов еще не применялся у цыплят.

Требуемая плотность маркеров SNP определялась степенью неравновесия по сцеплению (LD) в экспериментальной популяции. Предыдущие исследования показали, что степень LD значительно варьировала у разных пород кур [24–26]. Как правило, требуется минимум 100 K SNP, чтобы вывести информацию о LD и гаплотипе для всего генома курицы [27]. Для полногеномного исследования ассоциации (GWAS) и геномной селекции (GS) требуется более высокая плотность маркеров для повышения разрешения и точности, особенно для популяций с низким уровнем LD, таких как продвинутые межкроссные линии (AIL) [28,29 ].

В этой статье мы систематически оценивали влияние различных рестрикционных ферментов и их комбинаций на геном курицы. Для изучения выходных данных ddGBS использовалась популяция продвинутого кросс-кросса девяти поколений. Наши результаты показали, что комбинация Eco R I- Mse I наиболее подходит для анализа куриного и GBS. Мы предложили использовать два параметра, оптимальную точку подсчета считываний (ORP) и насыщенную точку подсчета считываний (SRP), для определения оптимального объема секвенирования.При средней глубине секвенирования 10 × примерно 300 K маркеров SNP можно было обнаружить с помощью комбинации Eco R I- Mse I.

Многие RRGS приняли стратегии низкоуровневого секвенирования и вменения. Общей проблемой этих методов является высокая частота ошибок при различении гетерозиготных и гомозиготных особей [8,30]. В этом исследовании мы подтвердили точность генотипирования с использованием различных условий глубинного фильтра секвенирования, сравнив результаты с чипом Illumina Chicken 60K BeadChip.В целом, мы разработали оптимизированный метод двойного переваривания генотипирования путем секвенирования (ddGBS) с использованием маркеров SNP высокой плотности и высокой точности генотипирования для цыплят. Наша экспериментальная процедура может быть применена к любым другим видам.

Материалы и методы

Заявление об этике

Все методы были выполнены в соответствии с соответствующими директивами и правилами. Все экспериментальные протоколы были одобрены Комитетом по защите животных Агробиотехнологии Китайского сельскохозяйственного университета.За всеми животными, использованными в этом исследовании, ухаживали и проводили эксперименты в соответствии с требованиями Комитета по защите животных при агробиотехнологии Китайского сельскохозяйственного университета с одобрением SKLAB-2014-06-07.

Экспериментальная популяция и подготовка проб

Мы стремимся оценить эффективность ddGBS в популяции с низким уровнем LD. Продвинутая популяция скрещивания девяти поколений была создана из двух расходящихся линий цыплят, линии высокого качества цыплят A (HQLA), линии бройлеров, выведенной Guangdong Wiz Agricultural Science and Technology, Co.(Гуанчжоу, Китай) и курица Huiyang Beard (HB), исконная китайская мясная порода. Скрещивание F0-F ₂ подробно описано Sheng et al. [31]. После поколения F ₂ популяция была выведена случайным скрещиванием. Всего был отобран набор животных материалов, состоящий из 31 F ₀ особей, 191 F ₈ животных и 602 F ₉ потомков. ДНК экстрагировали из крови с антикоагулянтом EDTA с использованием набора Qiagen DNeasy Blood and Tissue Kit в соответствии с инструкциями производителя (Qiagen, Hilden, Германия).

Обработка и оценка до секвенирования

В этом исследовании при выборе подходящего фермента для переваривания генома курицы учитывались как моделирование in silico, так и эмпирические данные . Мы использовали семь одноферментных расщеплений ( Eco RI, Hin P1 I, Ape KI, Pst I, Mse I, Msp I и Bgl II, включая четыре / пять — / ферменты с шестью резцами и рестрикционные ферменты, устойчивые к метилированию dam , dcm и CpG , чувствительные к метилированию: Eco RI, Hin P1 I и Ape KI; нечувствительные к метилированию: Pst I, Mse I, Msp I и Bgl II) и восемь двухферментных расщеплений ( Pst I- Mse I, Pst I- Ape KI, Eco R I- Mse I, Bgl II- Ape KI, Pst I- Msp I, Hin P1 I- Mse I, Hin P1 I- Ape KI , и Eco R I- Msp I) в нашем эксперименте. In silico Анализ был проведен с помощью собственного Perl-скрипта. Распределение по размеру фрагментов ферментного переваривания сообщалось с использованием программного обеспечения R. Эксперименты по ферментному перевариванию для всех комбинаций ферментного переваривания проводили в соответствии с протоколом производителя фермента (New England Biolabs, Ипсвич, Массачусетс, США), и время переваривания каждой комбинации составляло либо 2 часа, либо 12 часов.

Мы использовали генотипирование с двойным гидролизом путем секвенирования (ddGBS) на трех образцах из поколения F ₀.Все образцы ДНК разбавляли до 50 нг / мкл, и 200 нг ДНК использовали для каждого переваривания восьми комбинаций двойных ферментов в соответствии с инструкциями производителя ферментов. Мы разработали 24 адаптера штрих-кода (восемь комбинаций ферментов × три образца, см. Таблицу S1). Пропорции смешивания адаптеров штрих-кода (BA) и общих адаптеров (CA) были определены в соответствии с подсчетом фрагментов, полученным в результате анализа in silico каждой комбинации рестрикционных ферментов (протокол S1). Адаптеры штрих-кода (ВА) были связаны с обратными комплементарными последовательностями выступа фермента I, а общие адаптеры (СА) были связаны с обратными комплементарными последовательностями выступа фермента II.Выбор размера библиотеки осуществлялся с помощью Agencourt ^® AMPure ^® XP Reagent (Beckman Coulter, Пасадена, Калифорния, США): 0,8 × и 1,3 × объем образца Agencourt ^® Реагент AMPure ^® XP может удалить большую часть короткие фрагменты (<300 п.н.) и длинные фрагменты (> 650 п.н.) соответственно. Подробные процедуры подготовки библиотеки представлены в протоколе S1.

Мы оценили каждую стратегию двухферментного расщепления на основе размера фрагмента ферментного переваривания, индекса консистенции фрагмента (FCI), коэффициента вариации глубины секвенирования (на фрагмент) в трех образцах (CV _{, глубина}), количества SNP. и равномерность распределения SNP по хромосомам.Мы также взяли подвыборку показаний каждого человека в различных пропорциях (10%, 20%, 50%, 80% и 100%) и оценили «оптимальную точку подсчета считываний (ОВП)» и «насыщенную точку подсчета считываний ( SRP) »для оптимизации затрат. Подробное определение вышеупомянутых технических терминов было описано в разделе «Терминология».

Eco R I- Mse I Подготовка библиотеки

Все концентрации ДНК были нормализованы до 50 нг / мкл. Образцы расщепляли в течение 12 ч при 37 ° C с помощью Eco R I- Mse I (New England Biolabs, Ipswich, MA, U.SA) в объеме 20 мкл, содержащем 4 мкл ДНК (200 нг), 1 × буфер CutSmart ^®, 5U Eco RI и 5U Mse I. Затем ферменты инактивировали нагреванием при 65 ° C в течение 20 мин. , а образцы охлаждали до 4 ° C. Адаптер штрих-кода (EcoR-BA) подключается к выступу Eco R I, а общий адаптер (Mse-CA) соответствует выступу Mse I. 96 индексов на 3-м конце адаптеров штрих-кода были разработаны генератором штрих-кода GBS (http: //www.deenabio.com /) и модифицирован для работы с секвенсором Illumina NextSeq500 (Сан-Диего, Калифорния, США) (штрих-коды не начинаются с GG; таблица S2). Штрих-коды были модулированы по длине от шести до девяти оснований, чтобы предотвратить снижение качества секвенирования рядом с сайтами рестрикции. 5 мкл смеси адаптеров для отжига (соотношение EcoR-BA и Mse-CA составляет 0,8: 15 на основании расчетных количеств фрагментов, полученных из Eco RI и Mse I, таблица S3) лигировали с 20 мкл продуктов расщепления посредством ДНК-лигаза Т4 (Invitrogen, Carlsbad, CA, U.С.А.). Реакционную смесь инкубировали при 22 ° C в течение 1 ч и инактивировали при 65 ° C в течение 20 мин. Учитывая максимальное количество считываний на проточную кювету секвенатора NextSeq500 и ОВП Eco R I- Mse I, 96 продуктов лигирования были объединены вместе (одна библиотека). Гранулы Agencourt ^® AMPure ^® (Beckman Coulter, Пасадена, Калифорния, США) использовали для очистки фрагментов ДНК и выбора размера. Реакционная система ПЦР-амплификации содержала 10 нг очищенных продуктов, 50 мкл Platinum ^® PCR SuperMix High Fidelity (Thermo, MA, U.S.A.) и праймеры 25 пмоль (таблица S1). Протокол циклов амплификации был следующим: 95 ° C в течение 5 мин; три ступени: 95 ° C в течение 30 с, 62 ° C в течение 30 с и 68 ° C в течение 30 с, для 17 циклов; с последующим окончательным удлинением при 72 ° C в течение 5 мин. Продукты ПЦР также очищали с помощью гранул Agencourt ^® AMPure ^®. Размеры фрагментов, полученных этим методом, составляли приблизительно 300-650 п.н., а размер фрагмента наибольшей доли составлял 350 п.н. Конечное качество библиотеки (концентрация и распределение фрагментов по размеру) определяли с помощью Qubit2.0 Fluorometer (Thermo, MA, США) и Agilent 2100 Bioanalyzer (Agilent, Santa Clara, CA, USA) соответственно.

Секвенирование и обработка данных

Все эксперименты по секвенированию были выполнены на секвенаторе Illumina Nextseq500 в Государственной ключевой лаборатории агробиотехнологии Китайского сельскохозяйственного университета. Файлы BCL в качестве выходных данных первичного секвенирования были преобразованы в файлы FASTQ с помощью программы преобразования bcl2fastq2 (версия 2.16.0). На этапе преобразования мы также замаскировали и подрезали адаптер секвенирования [32].После этапа обрезки односторонние чтения Illumina 91 п.н. подвергались процессу фильтрации: сначала удалялись чтения, которые были загрязнены последовательностью адаптера, а затем чтения, которые содержали более 50% низкокачественных оснований или было удалено более 5% N оснований. Отчет о проверке качества отфильтрованных чтений был создан с помощью программного обеспечения FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/). Мы использовали конвейер анализа TASSEL GBS (версия 4.0) [11,33], в котором считывания были сопоставлены с эталонным геномом курицы Gallus_gallus-4.0 (выпущен в 2011 г.) с использованием Bowtie2 [34]. Все параметры фильтра SNP в TASSEL были «-c 3», минимальное количество раз, когда тег должен присутствовать для вывода; «-mnTCov 0,01», минимальная скорость вызова SNP для таксона, который будет включен в вывод; «-mnSCov 0.6», минимальная частота дискретизации вызовов для SNP, который должен быть включен в вывод; и «-mnMAF 0,05», минимальная частота минорного аллеля. Необработанные сайты SNP были отфильтрованы с помощью VCFtools [35] по следующим параметрам: 1) частота минорных аллелей (MAF)> 5%; 2) генотипы с качеством выше 98 (GQ ≥ 98) и глубиной ≥ 5; 3) и были сохранены только двуаллельные маркеры.Негенотипированные маркеры были вменены с использованием программного обеспечения Beagle 4.0 [36] с файлом родословной F ₈ -F ₉ семейных отношений. Для аннотирования мутаций из выходных данных GBS мы использовали программу SNPEff [37] с эталонной последовательностью генома цыпленка и файлами аннотаций GTF, загруженными с Ensembl (http://www.ensembl.org/info/data/ftp/index.html ). Программный пакет Circos (http://circos.ca/) [38] был использован для визуализации распределения фрагментов, GC-островков, повторяющихся областей и SNP в геноме курицы.Оценка паттерна LD по всему геному была осуществлена с использованием квадрата коэффициента корреляции аллелей (r ²) в зависимости от расстояния между SNP. Для визуализации паттерна LD значения r ² были построены в зависимости от попарных расстояний SNP.

Терминология

«Хорошее считывание штрих-кода» — это последовательность считывания, полностью совпадающая с одним из штрих-кодов, содержащихся в файле штрих-кода. «Тег» относится к уникальной последовательности (исключая штрих-код) из одного или нескольких «хороших считываний штрих-кода».«Фрагмент» определяется как набор тегов, которые выравниваются по одной и той же геномной позиции и цепи. Количество тегов и фрагментов подсчитывается с помощью выходного файла программы TASSEL [33]. Индекс согласованности фрагментов (FCI) определяется как среднее количество фрагментов из трех образцов, деленное на общее количество фрагментов, полученных из пулов из трех образцов. Глубина секвенирования рассчитывается делением общего количества удачных считываний штрих-кода на количество фрагментов. Глубина CV рассчитывается как среднее значение глубины секвенирования (на фрагмент) по трем образцам, деленное на стандартное отклонение (SD).Плотность SNP определяется как число SNP, деленное на длину хромосомы. Плотность SNP CV рассчитывается как среднее значение плотности SNP (на хромосому), деленное на стандартное отклонение (SD).

Стоимость секвенирования на единицу фрагмента рассчитывается исходя из общей стоимости секвенирования по отношению к количеству фрагментов. Оптимальная точка подсчета считывания (ОВП) определяется как минимальная стоимость секвенирования на единицу фрагмента. Мы также определили насыщенную точку отсчета считывания (SRP) как минимальное количество удачных считываний штрих-кода при достижении максимального количества фрагментов.

Результаты

Скрининг соответствующих комбинаций ферментов на геном курицы

Мы выполнили серию оценок для выбора ферментов. Первым протестированным параметром был размер фрагмента. Согласно прогнозируемым результатам расщепления in silico для каждой комбинации большинство прогнозируемых фрагментов было меньше 500 п.н. (рис. 1А). В крайних случаях комбинации Pst I- Ape K I и Hin P1 I- Ape K I давали высокую долю коротких фрагментов (<100 п.н.).Хотя этап выбора размера теоретически может отфильтровать короткие фрагменты, на практике полностью удалить их сложно. В частности, слишком много коротких фрагментов снизит качество построения библиотеки и последующего секвенирования. Кроме того, сравнивая результаты трех чувствительных к метилированию ферментов ( EcoR, I, Hin, P1 I и Ape, KI), мы заметили, что Hin, P1 I (G / CGC) не может полностью переваривать геномная ДНК курицы через 12 часов и продукты расщепления Ape KI (G / CWGC) показали несколько дискретных полос (рис. 1B).Напротив, размеры продукта переваривания EcoR I (G / AATTC) были подходящими (100-1000 пар оснований) и равномерно распределены без дискретных полос.

Рис. 1. Результаты анализа in silico и эмпирические доказательства ферментативного переваривания.

A) Распределение размеров фрагментов, полученных путем расщепления in silico генома курицы с различными комбинациями двойных ферментов. Б) Одноферментное и двухферментное расщепление в течение 2 или 12 часов.

https: // doi.org / 10.1371 / journal.pone.0179073.g001

Для более точной оценки мы провели прямое секвенирование после расщепления. Мы представили еще четыре параметра, включая индекс согласованности фрагментов (FCI), коэффициент вариации глубины секвенирования (на фрагмент) по трем образцам (CV _{глубина}), количество SNP и равномерность распределения SNP по хромосомам. Мы подготовили и секвенировали 24 библиотеки восьми двойных ферментных перевариваний (три повтора для каждой комбинации, подробности описаны в методах).Секвенирование всех библиотек дало в общей сложности 365 миллионов чистых считываний секвенирования и 273 миллиона хороших считываний штрих-кодов, и были представлены все 24 последовательности штрих-кода. Считанные необработанные последовательности были депонированы в базе данных SRA (SRR3951559). Высокое значение FCI свидетельствует о высокой согласованности и низком уровне недостающих данных в различных выборках. Мы заметили, что количество фрагментов объединенной выборки (3-сплетение) было больше, чем количество каждого отдельного образца при высокой глубине секвенирования, что указывает на различия между разными людьми (таблица 1), что, в свою очередь, может привести к отсутствию данных. для населения.Более того, мы обнаружили, что FCI в основном определяется типами комбинаций и не зависит от глубины секвенирования (FCI: 0,89, средняя глубина: ~ 29 × в EcoR I- Mse I; FCI: 0,64, средняя глубина: ~ 36). × дюйм Pst I — Msp I; FCI: 0,58, средняя глубина: ~ 16 × дюйм Hin P1 I- Mse I).

Согласованность глубины секвенирования (на фрагмент) по образцам также важна, поскольку она связана с точностью генотипирования. Мы определили глубину CV _{, чтобы оценить производительность для каждой из восьми комбинаций.Распределение CV _{на глубину} для всех фрагментов в каждой комбинации показано на рис. 2. EcoR I- Mse I имело самое низкое среднее значение CV _{на глубину} у трех человек (0,42 ± 0,34 (стандартное отклонение)), которое наблюдалось вскоре после этого. по Bgl II —Ape KI (0,44 ± 0,43 (стандартное отклонение)). Наивысшее среднее значение CV _{, глубина} у трех особей наблюдалось у Hin P1 I — Ape K I (0,82 ± 0,51 (стандартное отклонение)), за которым следовало Hin P1 I — Mse I (0.77 ± 0,51 (стандартное отклонение)).}

Рис 2. Распределение CV _{по глубине} для каждой комбинации.

Распределение CV _{по глубине} для всех фрагментов в каждой комбинации отображается с помощью блочной диаграммы. Нижняя и верхняя граничные линии прямоугольников представляют собой квантиль 25% / 75% CV _{, глубина}, а центральные линии указывают медианное значение данных. Верхние и нижние усы представляют собой баллы за пределами средних 50%. Число в каждом поле указывает среднее значение CV _{, глубину} для всех фрагментов ± стандартное отклонение (SD).

https://doi.org/10.1371/journal.pone.0179073.g002

Количество SNP также имело решающее значение, поскольку слишком большое их количество (например, Pst I —Mse I) увеличило бы стоимость секвенирования, в то время как немногие (например, Eco RI —Msp I) снизят разрешение (Таблица 1). Еще одним важным фактором для ddGBS было распределение SNP по хромосоме (таблица 2). Плотность SNP и коэффициент вариации плотности SNP (CV _{плотность SNP}) по разным хромосомам показаны в таблице 2.SNP, обнаруженный с помощью EcoR I- Mse I и Bgl II- Ape K I, был более равномерно распределен по хромосомам с плотностью SNP CV , равной 0,19, чем другие комбинации. Напротив, самая высокая плотность SNP CV была обнаружена в Pst I- Mse I (0,60), за которым следует Hin P1 I- Ape K I (0,59). В целом параметры выбранных комбинаций были обобщены в таблице 3, и мы пришли к выводу, что расщепление Eco R I- Mse I было оптимальной комбинацией для куриного ddGBS.

Определите оптимальный уровень глубины секвенирования

Чтобы получить оптимальную глубину секвенирования, мы повторно отобрали серию инкрементных подмножеств из общего числа считываний секвенирования, а затем исследовали взаимосвязь между счетчиками фрагментов, глубиной секвенирования и счетчиками хороших считываний штрих-кода. В отличие от полногеномного секвенирования, при котором глубина рассчитывалась как общая длина необработанных считываний, деленная на фиксированную общую длину эталонного генома, в ddGBS глубина рассчитывалась как общее количество удачных считываний штрих-кода, деленное на количество фрагментов, которое будет увеличиваться с увеличением количества секвенирования до насыщения.Мы оценили два параметра: ОВП (минимальная стоимость секвенирования на единицу фрагмента, рис. 3A) и SRP (точка, в которой есть касательная линия с нулевым наклоном кривой подсчета фрагментов на рис. 3B) для всех восьми ферментативных перевариваний. библиотеки.

Рис. 3. Связь ORP / SRP с хорошим считыванием штрих-кода для восьми комбинаций двойных ферментов.

A) Функция стоимости единицы секвенирования фрагментов была рассчитана путем построения графика зависимости глубины секвенирования от количества фрагментов.ОВП был определен как минимальное значение стоимости секвенирования единицы (минимальное значение черной пунктирной линии). B) Показания секвенирования трех индивидуумов были отобраны с пятью пороговыми значениями (10%, 20%, 50%, 80% и 100% соответственно). Глубина секвенирования (зеленый цвет) была равна количеству хороших считанных штрих-кодов, разделенному на количество фрагментов. SRP был соответствующим хорошим считыванием штрих-кода, когда наклон количества фрагментов (оранжевая кривая) уменьшился до нуля.

https: // doi.org / 10.1371 / journal.pone.0179073.g003

На рис. 3A показано, что стоимость единицы сначала уменьшалась, а затем увеличивалась с увеличением количества фрагментов. Стоимость единицы упала до самого низкого уровня (ОВП) примерно при 10-кратной глубине секвенирования в большинстве комбинаций. На рис. 3В показано, как количество фрагментов изменяется в зависимости от правильного считывания штрих-кода. В этом исследовании SRP не были достигнуты в большинстве комбинаций, за исключением Eco R I- Msp I и Bgl II- Ape K I, даже несмотря на то, что глубина секвенирования была больше 20 × (рис. 3B).Теоретически количество фрагментов будет насыщено, когда количество хороших считываний штрих-кода продолжит увеличиваться, и ожидается, что насыщение обеспечит согласованность между разными людьми. Однако типичный GWAS / GS исследует несколько сотен человек. Непрактично упорядочивать всех индивидуумов до уровня насыщения (в диапазоне глубин от 30 × до 50 ×) для больших популяций (таких как семейная популяция с особями более 100). Один из доступных вариантов — сократить объем секвенирования соответствующим образом и определить недостающие генотипы.Если взять в качестве примера расщепление Eco R I- Mse I, при ОВП было 2,7 миллиона хороших считываний штрих-кода и приблизительно 270 К фрагментов для каждого образца, а средняя глубина секвенирования составляла 10 × для каждого фрагмента. Таким образом, эта компромиссная формула не только очень точна, но и экономична.

Обнаружение и распространение SNP

Всего 827 образцов (824 цыплят, среди которых были дублированы три особи) в AIL были использованы для создания библиотек ddGBS.96-плексные образцы секвенировали в одну дорожку в соответствии с ОВП Eco R I- Mse I. Считанные необработанные последовательности были депонированы в базе данных SRA (SRR5462540, SRR5462541, SRR5462542, SRR5462543, SRR5462544, SRR5462545, SRR5462546, SRR5462547 и SRR5462548). В среднем для каждого образца было получено 3,44 миллиона хороших считываний штрих-кода, а средняя глубина последовательности была приблизительно 10 ×. Коэффициент вариации (CV) числа считываний среди людей составлял 0,13 (S1 Рис.), Что указывает на хорошую согласованность подготовки библиотеки.До вменения SNP варьировались от 220 до 270 тыс. Среди людей. После строгой фильтрации параметров в конвейере TASSEL-BEAGLE-GBS (включая вменение) мы в конечном итоге идентифицировали 2

SNP (средняя глубина секвенирования составила 10 × без пропущенных данных), что соответствует 1 SNP на 3,68 КБ в геноме курицы (S2 Рис. Таблица S4). Стоит отметить, что плотность маркеров выше, чем сообщалось в предыдущих исследованиях на цыплятах [16,21,22]. Из всех обнаруженных SNP 102 304 (что составляет 35.06% всех SNP; распределение показано в таблице S4) являются новыми для базы данных куриных dbSNP NCBI (данные с ftp://ftp.ncbi.nih.gov/snp/organisms/chicken_9031/VCF/ от 4 мая 2016 г.). Кроме того, маркеры были равномерно распределены без помех со стороны островков GC и повторяющихся областей (S2 фиг.). Большинство идентифицированных SNP располагались в межгенных регионах (45,19%) или интронных регионах (39,55%). Экзонные области содержат только 1,37% SNP (Таблица 4), включая 51,69% бессмысленных, 3,57% бессмысленных и 44.74% тихих мутаций.

Оценка точности генотипирования

Средняя глубина секвенирования в наших экспериментах была 10 × с обилием сайтов SNP с низким уровнем покрытия (рис. 4A). Чтобы гарантировать высокое качество генотипирования основателей перед вменением, мы отфильтровали необработанные данные SNP с использованием глубины секвенирования и качества генотипирования, а также частоты минорных аллелей. Достаточная глубина в каждом локусе важна для точного различения гетерозиготных и гомозиготных сайтов. Для оценки точности генотипирования сравнивались данные микроматрицы Illumina 60K для цыплят BeadArray и результаты исследования GBS от 22 тех же F ₀ особей.Соответствие между двумя методами оценивалось на разных глубинах от 2х до 12х. Когда глубина секвенирования достигла 5 ×, последовательность генотипирования для гомозиготных локусов, гетерозиготных локусов и общих SNP составила 100%, 97,2% и 99,1% соответственно (рис. 4B). Частоты пропущенных SNP с 5-кратной глубиной секвенирования показаны на рис. 4C и 4D. После 5-кратной глубокой фильтрации около 45,7% SNP содержали ≤ 50% отсутствующих генотипов (рис. 4C). Частота пропуска большинства образцов составляет от 40% до 60% (рис. 4D).Мы также выполнили два повторения техники для SNP, требующего трех выборок, и обнаружили, что воспроизводимость (в случае условия 5-кратного фильтра) достигла 98,5%, 98,2% и 98,1% соответственно. Таким образом, наши результаты показали, что результаты генотипирования с помощью наших методов являются очень надежными и точными.

Рис. 4. Оценка точности генотипирования по разным глубинам секвенирования.

A) Распределение глубин покрытия для всех SNP. B) Согласованность результатов генотипирования ddGBS по сравнению с 60K микрочипами BeadArray с использованием различных условий фильтрации (глубина секвенирования от 2 × до 12 ×). C) Сравнение показателей пропущенных всех 292 K SNP для каждого сайта до и после глубинной фильтрации 5 ×. D) Сравнение показателей пропущенных всех 824 отсчетов на индивидуальной основе до и после 5-кратной глубинной фильтрации.

https://doi.org/10.1371/journal.pone.0179073.g004

Обсуждение

Чтобы разработать план ddGBS, необходимо было учесть множество факторов, включая выбор комбинаций ферментов, оптимизацию конструкции библиотеки, глубину охвата секвенирования, плотность SNP и стоимость.

Выбор комбинаций ферментов

Выбор ферментов является одним из ключевых шагов в методе GBS, и им часто пренебрегают. В этом исследовании мы исследовали пять параметров, полученных в результате расщепления или секвенирования in silico / in vitro . Мы обнаружили, что результат расщепления ферментом Hin P1 I не соответствовал его моделированию in silico . В частности, фрагментов, полученных с помощью Hin P1 I- Mse I и Hin P1 I- Ape K I, было намного меньше, чем результатов моделирования in silico .Это различие могло быть в основном связано с метилированием ДНК в геноме курицы. В самом деле, некоторые чувствительные к метилированию ферменты не могут полностью переварить геном, что не только вызовет несоответствие с предсказанными результатами, но также нарушит воспроизводимость нижележащих генотипов среди разных индивидуумов [8]. Следовательно, при разработке маркеров для нового вида необходим предварительный эксперимент.

В данном исследовании было проверено распределение SNP, полученных с помощью различных ферментов.Мы заметили, что GGA10-20 имеет вдвое большую плотность фрагментов, чем GGA1-10 для Pst I и Msp I in silico предсказания (таблица S3), что может объяснить результат, что фрагменты, сгенерированные из Pst I- Msp I не были равномерно распределены между макрохромосомами и микрохромосомами. Неравномерное распределение SNP могло препятствовать построению равномерно распределенных карт генетического сцепления. Однако Фабио предположил, что Pst I может быть подходящим для анализа метилирования цыплят, поскольку микрохромосомы обогащены регионами с высоким CpG [22].

Процесс создания библиотеки

При подготовке библиотеки необходимо рассмотреть два ключевых момента. Во-первых, мы улучшили оригинальный подход GBS, описанный Poland et al. на этапе выбора размера [23]. В предыдущем исследовании 37% считываний были отброшены на этапе обработки данных, поскольку размер фрагмента был слишком коротким (<50 п.н.). Здесь мы удалили длинные фрагменты (> 650 п.н.), добавив 1,3-кратный объем образца реагента Agencourt ^® AMPure ^® XP, и удалили короткие фрагменты (<300 п.н.), добавив 0.8-кратный объем образца реагента Agencourt ^® AMPure ^® XP (подробности описаны в протоколе S1). По нашему опыту, очистка с помощью магнитных шариков была более удобной и показала лучшую согласованность между различными библиотеками по сравнению с экстракцией из геля.

Во-вторых, точная концентрация двухцепочечной ДНК может улучшить согласованность правильных чисел считывания штрих-кода для каждого образца. Де Донато сообщил, что число считываний для каждого образца изменилось на 39%, когда 47 особей были переварены Pst I [18].Некоторые другие исследования также наблюдали высокий CV у числа различных индивидуумов (0,69 для 252-сплетения у кур [16], 0,89 для 96-сплетения у Drosophila [39] и т. Д.). Ляо предположил, что это должно быть результатом низкого качества ДНК, такого как неточная количественная оценка или загрязнение ДНК фенолом / хлороформом [16]. Чтобы гарантировать однородность концентрации ДНК, концентрацию высокомолекулярной ДНК измеряли с помощью Qubit2.0 перед ферментным расщеплением в этом исследовании. Результаты секвенирования показали, что все 824 образца были хорошо представлены, а CV хороших считываний штрих-кода равнялся 0.13 (S1 рис.), Что было лучше, чем полученное в предыдущих исследованиях [9,16,18,39,40]. Более того, мы заметили, что большинство пропущенных образцов колеблется от 40% до 60% (рис. 4D). Этот феномен может быть объяснен низким CV хороших считываний штрих-кода среди образцов.

Характеристики глубины секвенирования на сайт

Количество SNP уменьшалось с увеличением минимальной глубины, используемой для идентификации SNP (рис. 4A), что было похоже на другие исследования, в которых использовался метод GBS [41,42].Возможной причиной распределения было несоответствие глубины на фрагмент. Количество фрагментов и тегов (которое относится к уникальной последовательности из одного или нескольких удачных считываний штрих-кода) подсчитывалось с параметром Tassel «-c», равным 3 [33], что требовало, чтобы тег был представлен как минимум три раза, чтобы быть сообщил. Таким образом, ряд фрагментов малой глубины были отброшены при анализе одной пробы, но все же оставлены при анализе проб с объединением 3 сплетений, что может быть основной причиной FCI <1 (Таблица 1).Мы также заметили расходящееся значение FCI для восьми комбинаций и его зависимость от типа комбинации, а не от глубины секвенирования. Возможная причина заключается в том, что метилирование (такое как Hin, P1 I) или полиморфизм нарушает сайт рестрикции в различной степени среди разных образцов [8]. Более того, разница в активности ферментов может влиять на эффективность переваривания ферментов.

Точность генотипирования — еще один ключевой аспект технологии GBS. В настоящее время типичный GBS сочетает в себе низкоуровневое секвенирование (для некоторых инбредных линий кукурузы глубина <1 ×) и вменение недостающих данных [43–45].Однако эта стратегия лучше работает для популяций с низким уровнем гетерогенности, таких как рекомбинантные инбредные линии (RIL), чем для ауткроссинговых популяций. Ошибки генотипирования при назывании гетерозигот гомозиготами довольно распространены в GBS, либо из-за низкой глубины считывания, либо из-за неправильного выравнивания считывания в результате паралогичных областей. Наши результаты показали, что 5-кратная глубина была самой низкой глубиной для точных вызовов SNP до этапа вменения. При этом условии надежные SNP каждого человека были примерно 150 К, что все еще было выше, чем в других исследованиях [16,21].Усовершенствованный метод идентификации по происхождению (IBD), реализованный в Beagle 4.0, обеспечивает лучшую производительность [35].

Плотность СНП и стоимость

В этом исследовании мы разработали высокоплотный и точный метод генотипирования SNP для цыплят с использованием EcoR I- Mse I. Плотность SNP составляла приблизительно 290 K, и некоторые минихромосомы не были включены. Популяция AIL обычно использовалась для точного картирования QTL в генетике животных [28,46–48]. Применяя маркеры SNP, которые мы идентифицировали на нашей популяции кур, мы заметили, что r ² в поколении F ₉, что было r ² _0.1 = 3,1 Кб, было существенно ниже поколения F ₀ (r ² _0,1> 50 Кб) (рис. 5). Это говорит о том, что, хотя восемь поколений рекомбинации эффективно снижают уровни LD, наша плотность маркеров (SNP / 3,68 Kb) все еще может улавливать почти все события рекомбинации. Таким образом, это может принести большую пользу при точном картировании местоположений QTL и функциональных генов.

Рис. 5. Распад ЛД усовершенствованных линий кросс-кросса.

Квадрат коэффициента аллельной корреляции (r ²) по отношению к расстоянию между SNP в поколении F ₀ (HQLA изображен зеленой линией, а HB изображен красной линией) и поколением F ₉ (синяя линия).

https://doi.org/10.1371/journal.pone.0179073.g005

Предварительный эксперимент был проведен для определения оптимальной комбинации ферментов ( EcoR I- Mse I) и приблизительного объема глубины секвенирования (ОВП для крупномасштабной популяции и SRP для небольшого количества выборок). Следовательно, мы достигли баланса между плотностью SNP и стоимостью. Этот метод предварительной оценки рекомендуется для любых новых видов.

Снижение стоимости является основной целью всех методов секвенирования генома с уменьшенным представлением.Таким образом, наш метод был оптимизирован по стоимости почти на каждом этапе. Тем не менее, секвенирование на концах пары Illumina HiSeq X Ten 150 теперь намного более рентабельно, чем одностороннее секвенирование с использованием NextSeq500. Более того, принятие парного секвенирования даст больше шансов на идентификацию SNP, чем одностороннее секвенирование в этом исследовании. В настоящее время ddGBS стоит 30 долларов за образец (примерно 300 тыс. SNP на человека), и более 65% расходов приходится на этап секвенирования в нашем протоколе. Следовательно, ожидается снижение стоимости GBS с быстрым развитием технологии секвенирования.Например, системы HiSeq X Ten могут выводить 800–900 Гб данных / 2,6–3 миллиарда считываний в одной проточной кювете при стоимости 1000 долларов за 30 × генома человека, что было бы более подходящим для крупномасштабного популяционного секвенирования ( http://www.illumina.com/systems/hiseq-x-sequencing-system/system.html). Процесс RRGS будет быстро стандартизирован при снижении стоимости секвенирования, и вместе с чипами SNP он будет продолжать оставаться важнейшим методом исследования геномики. Кроме того, комбинация RRGS и другого секвенирования выборки по всему геному, такого как RNA-seq или целевое повторное секвенирование, может эффективно способствовать генетическим и эволюционным исследованиям.В заключение мы представляем точный, высокоплотный и экономичный метод генотипирования цыплят. Наш метод может облегчить функциональное картирование генов и молекулярное разведение сельскохозяйственных животных и может быть легко применен к любым другим видам.

Вспомогательная информация

S2 Рис. Распределение SNP и меток в геноме курицы в 824 индивидуальных образцах, переваренных

Eco R I- Mse I.

Всего среди всех индивидуумов было идентифицировано 292 тыс. SNP.Характеристики генома и распределение фрагментов ограниченного переваривания по всему геному представлены циклически. Внешний круг отображает длины хромосом. Четыре внутренних круга показывают распределение фрагментов (зеленый), островков GC (оранжевый), повторяющихся областей (черный) и SNP (красный) снаружи внутрь.

https://doi.org/10.1371/journal.pone.0179073.s002

(PDF)

Благодарности

Это исследование финансировалось грантами Национальной программы китайских исследований и разработок в области высоких технологий (2013AA102501), Национального фонда естественных наук Китая (NSFC, 31272432) и программы 948 Министерства сельского хозяйства Китая (2012-G1 [ 4]).Мы благодарим Jiangli Ren и Yebo Peng за их помощь в создании библиотеки и анализе данных секвенирования. Мы также благодарим Чжаолян Лю, Юйцзюнь Чжан и Фэй Гао за улучшение рукописи.

Вклад авторов

Концептуализация: XH NL.
Формальный анализ: YW.
Получение финансирования: XH NL.
Расследование: YW XC.
Администрация проекта: YZ JF.
Ресурсы: YW.
Визуализация: YW.
Написание — первоначальный эскиз: YW.
Написание — просмотр и редактирование: YZ XH.

Ссылки

1.
Эндрюс KR, Luikart G (2014) Последние новые подходы к анализу данных популяционной геномики. Мол Экол 23: 1661–1667. pmid: 24495199
2.
Scheben A, Batley J, Edwards D (2016) Генотипирование путем секвенирования подходов к характеристике геномов сельскохозяйственных культур: выбор правильного инструмента для правильного применения.Завод Биотехнология Дж.
3.
Аллендорф Ф.В., Гогенлоэ П.А., Луйкарт Г. (2010) Геномика и будущее генетики сохранения. Нат Рев Женет 11: 697–709. pmid: 20847747
4.
Kranis A, Gheyas AA, Boschiero C, Turner F, Yu L, et al. (2013) Разработка массива генотипирования 600K SNP с высокой плотностью для курицы. BMC Genomics 14: 59. pmid: 23356797
5.
Groenen MA, Megens HJ, Zare Y, Warren WC, Hillier LW и др. (2011) Разработка и характеристика чипа SNP 60K для курицы.BMC Genomics 12: 274. pmid: 21627800
6.
Дэйви Дж. У., Хоэнлоэ П. А., Эттер П. Д., Бун Дж. К., Катчен Дж. М. и др. (2011) Общегеномное открытие генетических маркеров и генотипирование с использованием секвенирования следующего поколения. Нат Рев Генет 12: 499–510. pmid: 21681211
7.
Эндрюс К. Р., Гуд Дж. М., Миллер М. Р., Луикарт Г., Хоэнлоэ П. А. (2016) Использование возможностей RADseq для экологической и эволюционной геномики. Нат Рев Женет 17: 81–92. pmid: 26729255
8.
Jiang Z, Wang H, Michal JJ, Zhou X, Liu B и др.(2016) Полногеномное секвенирование выборки для генотипирования SNP: методы, проблемы и будущее развитие. Int J Biol Sci 12: 100–108. pmid: 26722221
9.
Бэрд Н.А., Эттер П.Д., Этвуд Т.С., Карри М.К., Шивер А.Л. и др. (2008) Быстрое открытие SNP и генетическое картирование с использованием секвенированных маркеров RAD. PLoS One 3: e3376. pmid: 18852878
10.
Эльшир Р.Дж., Глаубиц Дж.С., Сан К.Ю., Польша Дж.А., Кавамото К. и др. (2011) Надежный и простой подход к генотипированию путем секвенирования (GBS) для видов с высоким разнообразием.PLoS One 6: e19379. pmid: 21573248
11.
Ван Тасселл С.П., Смит Т.П., Матукумалли Л.К., Тейлор Дж.Ф., Шнабель Р.Д. и др. (2008) Обнаружение SNP и оценка частоты аллелей путем глубокого секвенирования библиотек с уменьшенным представлением. Нат Методы 5: 247–252. pmid: 18297082
12.
van Orsouw NJ, Hogers RC, Janssen A, Yalcin F, Snoeijers S, et al. (2007) Снижение сложности полиморфных последовательностей (CRoPS): новый подход к крупномасштабному открытию полиморфизма в сложных геномах.PLoS One 2: e1172. pmid: 18000544
13.
Wang S, Meyer E, McKay JK, Matz MV (2012) 2b-RAD: простой и гибкий метод полногеномного генотипирования. Nat Методы 9: 808–810. pmid: 22609625
14.
Peterson BK, Weber JN, Kay EH, Fisher HS, Hoekstra HE (2012) Двойной дайджест RADseq: недорогой метод обнаружения de novo SNP и генотипирования у модельных и немодельных видов. PLoS One 7: e37135. pmid: 22675423
15.
Toonen RJ, Puritz JB, Forsman ZH, Whitney JL, Fernandez-Silva I, et al.(2013) ezRAD: упрощенный метод геномного генотипирования немодельных организмов. PeerJ 1: e203. pmid: 24282669
16.
Liao R, Wang Z, Chen Q, Tu Y, Chen Z и др. (2015) Эффективный метод генотипирования кур, основанный на сокращении генома и секвенировании. PLoS One 10: e0137010. pmid: 26313744
17.
Emerson KJ, Merz CR, Catchen JM, Hohenlohe PA, Cresko WA, et al. (2010) Решение послеледниковой филогеографии с использованием высокопроизводительного секвенирования. Proc Natl Acad Sci U S A 107: 16196–16200.pmid: 20798348
18.
Де Донато М., Петерс С.О., Митчелл С.Е., Хуссейн Т., Имуморин И.Г. (2013) Генотипирование путем секвенирования (GBS): новый, эффективный и экономичный метод генотипирования крупного рогатого скота с использованием секвенирования следующего поколения. PLoS One 8: e62137. pmid: 236
19.
Кроми Г.А., Хайма К.Е., Ладлоу К.Л., Гармендиа-Торрес С., Гилберт Т.Л. и др. (2013) Разнообразие геномных последовательностей и популяционная структура Saccharomyces cerevisiae, оцененные с помощью RAD-seq. G3 (Bethesda) 3: 2163–2171.
20.
Керстенс Х. Х., Кройманс Р. П., Диббитс Б. В., Верейкен А., Окимото Р. и др. (2011) Структурные вариации в геноме курицы, идентифицированные секвенированием парных концов ДНК следующего поколения библиотек с уменьшенным представлением. BMC Genomics 12: 94. pmid: 212
21.
Чжай З., Чжао В., Хе Ц., Ян К., Тан Л. и др. (2015) Открытие SNP и генотипирование с использованием секвенирования ДНК, связанной с сайтами рестрикции, у кур. Аним Генет 46: 216–219. pmid: 255
22.Pertille F, Guerrero-Bosagna C, Silva VH, Boschiero C, Nunes Jde R и др. (2016) Высокопроизводительное и экономичное генотипирование цыплят с использованием секвенирования следующего поколения. Sci Rep 6: 26929. pmid: 27220827
23.
Польша JA, Brown PJ, Sorrells ME, Jannink JL (2012) Разработка генетических карт высокой плотности для ячменя и пшеницы с использованием нового подхода двухферментного генотипирования путем секвенирования. PLoS One 7: e32253. pmid: 22389690
24.
Aerts J, Megens HJ, Veenendaal T, Ovcharenko I., Crooijmans R, et al.(2007) Степень неравновесия по сцеплению у кур. Cytogenet Genome Res 117: 338–345. pmid: 17675876
25.
Андрееску С., Авендано С., Браун С.Р., Хассен А., Ламонт С.Дж. и др. (2007) Неравновесие по сцеплению в родственных племенных линиях кур. Генетика 177: 2161–2169. pmid: 17947400
26.
Qanbari S, Hansen M, Weigend S, Preisinger R, Simianer H (2010) Нарушение равновесия по сцеплению показывает различную демографическую историю у кур-несушек. BMC Genet 11: 103.pmid: 21078133
27.
Megens HJ, Crooijmans RP, Bastiaansen JW, Kerstens HH, Coster A, et al. (2009) Сравнение неравновесия по сцеплению и разнообразия гаплотипов на макро- и микрохромосомах у курицы. BMC Genet 10: 86. pmid: 20021697
28.
Pettersson M, Besnier F, Siegel PB, Carlborg O (2011) Репликация и исследование эпистаза высокого порядка с использованием большой передовой родословной линии скрещивания. PLoS Genet 7: e1002180. pmid: 21814519
29.Parker CC, Sokoloff G, Cheng R, Palmer AA (2012) Общегеномная ассоциация условного рефлекса страха в продвинутой линии межкроссных мышей. Behav Genet 42: 437–448. pmid: 22237917
30.
Nielsen R, Paul JS, Albrechtsen A, Song YS (2011) Вызов генотипа и SNP из данных секвенирования следующего поколения. Нат Рев Генет 12: 443–451. pmid: 21587300
31.
Sheng Z, Pettersson ME, Hu X, Luo C, Qu H и др. (2013) Генетическое вскрытие признаков роста у коренного китайского кросса х коммерческих цыплят-бройлеров.BMC Genomics 14: 151. pmid: 23497136
32.
Myers G (1999) Быстрый алгоритм битовых векторов для приблизительного сопоставления строк, основанный на динамическом программировании. Журнал Акм. 46: 395–415.
33.
Glaubitz JC, Casstevens TM, Lu F, Harriman J, Elshire RJ, et al. (2014) TASSEL-GBS: высокопроизводительное генотипирование путем секвенирования анализа. PLoS One 9: e
. pmid: 24587335
34.
Langmead B, Salzberg SL (2012) Быстрое выравнивание с пропуском чтения с Bowtie 2.Nat Methods 9: 357–359. pmid: 22388286
35.
Данечек П., Аутон А., Абекасис Дж., Альберс К.А., Бэнкс Е. и др. (2011) Вариант формата вызова и VCFtools. Биоинформатика 27: 2156–2158. pmid: 21653522
36.
Браунинг Б.Л., Браунинг С.Р. (2013) Повышение точности и эффективности определения идентичности по происхождению в данных о населении. Генетика 194: 459–471. pmid: 23535385
37.
Cingolani P, Platts A, Wang le L, Coon M, Nguyen T. и др. (2012) Программа для аннотирования и прогнозирования эффектов однонуклеотидных полиморфизмов, SnpEff: SNP в геноме штамма Drosophila melanogaster w1118; изо-2; iso-3.Флай (Остин) 6: 80–92.
38.
Wyatt AW, Mo F, Wang Y, Collins CC (2013) Разнообразная гетерогенность молекулярных изменений при раке простаты, выявленная с помощью секвенирования следующего поколения. Азиатский Дж. Андрол 15: 301–308. pmid: 23503423
39.
Андольфатто П., Дэвисон Д., Эрезилмаз Д., Ху Т.Т., Маст Дж. И др. (2011) Мультиплексное генотипирование для быстрого и эффективного генетического картирования. Genome Res 21: 610–617. pmid: 21233398
40.
Бирн С., Чабан А., Студер Б., Паниц Ф., Бендиксен С. и др.(2013) Полногеномные отпечатки частот аллелей (GWAFF) популяций посредством генотипирования путем секвенирования. PLoS One 8: e57438. pmid: 23469194
41.
Beissinger TM, Hirsch CN, Sekhon RS, Foerster JM, Johnson JM и др. (2013) Плотность маркеров и глубина считывания для генотипирования популяций с использованием генотипирования путем секвенирования. Генетика 193: 1073–1081. pmid: 23410831
42.
Гарднер К.М., Браун П., Кук Т.Ф., Канн С., Коста Ф. и др. (2014) Быстрое и экономичное генетическое картирование яблока с использованием секвенирования следующего поколения.G3 (Bethesda) 4: 1681–1687.
43.
Хуанг X, Вэй X, Санг Т., Чжао Ц., Фэн Ц. и др. (2010) Полногеномные ассоциативные исследования 14 агрономических признаков у староместных сортов риса. Нат Генет 42: 961–967. pmid: 20972439
44.
Хуанг Х, Ян С., Гун Дж, Чжао Й, Фэн Ц. и др. (2015) Геномный анализ гибридных сортов риса выявил многочисленные превосходные аллели, которые способствуют гетерозису. Нац Коммуна 6: 6258. pmid: 25651972
45.
Malavera A, Vasquez A, Fregni F (2015) Новые методы оптимизации эффектов транскраниальной стимуляции постоянным током: систематический обзор патентов на транскраниальную стимуляцию постоянным током.Expert Rev Med Devices 12: 679–688. pmid: 26415093
46.
Arends D, Heise S, Karst S, Trost J, Brockmann GA (2016) Точное картирование основного локуса ожирения (jObes1) с использованием продвинутой межкроссной популяции Berlin Fat Mouse x B6N. Int J Obes (Лондон) 40: 1784–1788.
47.
Безье Ф., Уолберг П., Роннегард Л., Эк В., Андерссон Л. и др. (2011) Точное картирование и репликация QTL в передовых интеркроссных линиях беспородных цыплят. Genet Sel Evol 43: 3. pmid: 21241486
48.Паркер С.К., Карбонетто П., Соколофф Г., Парк Ю.Дж., Эбни М. и др. (2014) Генетическое картирование сложных признаков с высоким разрешением на основе комбинированного анализа мышей F2 и продвинутых межкроссовых мышей. Генетика 198: 103–116. pmid: 25236452

Применение

к линиям лимфобластоидных клеток и оценка с использованием данных 1000 геномов

Abstract

Секвенирование РНК следующего поколения (RNA-seq) отображает и анализирует транскриптомы и генерирует данные об изменении последовательностей в экспрессируемых генах.Сообщений об исследованиях стратегий анализа, направленных на максимальное получение качественных данных РНК-seq SNP, немного. Мы оценили эффективность различных методов вызова SNP после сопоставления как с геномом, так и с транскриптомом, применив их к данным RNA-seq из образца лимфобластоидной клеточной линии HapMap и сравнив результаты с данными об изменении последовательности из 1000 геномов. Мы определили, что лучший метод для достижения высокой специфичности и чувствительности, а также максимального количества вызовов SNP — это удаление повторяющихся считываний последовательностей после выравнивания с геномом и вызов SNP с помощью SAMtools.Точность вызовов SNP зависит от доступного покрытия последовательности. Что касается специфичности, 89% вызовов SNPs RNA-seq были истинными вариантами с охватом> 10X. Что касается чувствительности, при охвате> 10X можно было обнаружить 92% всех ожидаемых SNP в экспрессированных экзонах. В целом, результаты показывают, что данные SNP RNA-seq являются очень полезным побочным продуктом анализа транскриптома на основе последовательностей. Если RNA-seq применяется к образцам ткани, пораженной болезнью, и предполагая, что гены, несущие мутации, относящиеся к биологии болезни, экспрессируются, можно обнаружить очень высокую долю этих мутаций.

Образец цитирования: Quinn EM, Cormican P, Kenny EM, Hill M, Anney R, Gill M, et al. (2013) Разработка стратегий обнаружения SNP в данных RNA-Seq: применение к линиям лимфобластоидных клеток и оценка с использованием данных 1000 геномов. PLoS ONE 8 (3):
e58815.

https://doi.org/10.1371/journal.pone.0058815

Редактор: Бернард В. Футчер,
Университет Аризоны, Соединенные Штаты Америки

Поступила: 23.10.2012; Одобрена: 7 февраля 2013 г .; Опубликовано: 26 марта 2013 г.

Авторские права: © 2013 Quinn et al.Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии указания автора и источника.

Финансирование: Секвенирование следующего поколения было выполнено в TrinSeq (Лаборатория секвенирования генома Тринити; http://www.medicine.tcd.ie/sequencing), основном учреждении, финансируемом Научным фондом Ирландии (SFI) в рамках гранта № [ SFI / 07 / RFP / GEN / F327 / EC07] доктору.Моррис. Стипендия г-жи Куинн финансируется Wellcome Trust и SFI. Финансирующие организации не играли никакой роли в дизайне исследования, сборе и анализе данных, принятии решения о публикации или подготовке рукописи.

Конкурирующие интересы: Авторы заявили, что конкурирующих интересов не существует.

Введение

Транскриптом состоит из всех транскриптов РНК, кодирующих или некодирующих, экспрессируемых в данной клетке или ткани. Его аннотация и количественная оценка были предметом обширных исследований в течение нескольких десятилетий.Изучение транскриптома в пораженной ткани может дать важную информацию о функциональных свойствах конкретных транскриптов РНК и, таким образом, обеспечить более четкое понимание основных процессов заболевания.

До недавнего времени преобладающим средством изучения транскриптома было использование основанных на гибридизации методов, таких как микроматрицы [1]. Однако они не без ограничений; трудности в мониторинге эффективности гибридизации зондов, перекрестной гибридизации в результате повторяющихся областей и проблемы, связанные с нормализацией уровней транскриптов по отношению к изобилию транскриптов, являются общими.Дизайн зонда по своей природе основан на известных последовательностях, что ограничивает степень возможного открытия нового гена / транскрипта и сплайсинга, хотя теперь доступны мозаичные микроматрицы [2].

Технологии секвенирования нового поколения быстро изменили анализ транскриптомов, поскольку исследователи признают преимущества секвенирования РНК (RNA-seq). Эта методология, которая позволяет осуществлять прямое секвенирование библиотек кДНК, позволяет более точно определять количество транскриптов РНК в данной клетке или ткани [3], но, что важно, не требует предварительного знания последовательности, что позволяет открывать новые гены, транскрипты, альтернативные сплайсинговые соединения, слитые последовательности и новые РНК [4].RNA-seq использовалась для изучения дифференциальной экспрессии генов для различных генов и тканей [5], но также применялась для изучения аллельных различий в экспрессии [6], [7] характеризации транскриптомов [8], [9] анализа РНК-белковые взаимодействия [10] и анализ альтернативного сплайсинга [11].

RNA-seq может быть выполнен на РНК, выделенной из пораженной ткани или крови, непосредственно полученной от человека. Для большого количества исследований болезней становится все более распространенным создание линий лимфобластоидных клеток (LCL) для образцов пациентов с использованием трансформации лимфоцитов крови EBV.Это не только обеспечивает неограниченный источник ДНК пациента, но и дает исследователям ценный источник РНК для использования в исследованиях экспрессии генов / функциональных исследований [12], и в настоящее время существует множество крупномасштабных репозиториев LCL. Было показано, что LCL являются надежным источником для генотипирования SNP в геномной ДНК [13] и исследований генетической изменчивости в экспрессии генов [14]. Консорциум Welcome Trust Case Control Consortium успешно провел полногеномные ассоциативные исследования (GWAS) с использованием SNP и вариаций числа копий (CNV) для восьми заболеваний с использованием общей панели управления, где половина из 3000 контрольных образцов ДНК была получена из LCL [15], [16].Хотя результаты экспрессии, полученные в клеточных линиях, следует интерпретировать с осторожностью, некоторые недавние исследования подтвердили использование лимфоцитов человека в качестве хорошей клеточной модели для экспрессии генов в других тканях [17] — [19], и есть доказательства того, что локусы количественных признаков экспрессии обнаруженные в LCL могут перекрываться с обнаруженными в соответствующих тканях [20].

Как и анализ транскриптома, анализ вариаций последовательности ДНК на основе массива генома заменяется секвенированием следующего поколения, которое дает возможность обнаруживать все имеющиеся варианты, а не только анализировать варианты, на которые нацелены заранее разработанные массивы.Полногеномное секвенирование применяется в проекте «1000 геномов» (http://www.1000genomes.org/) для расширения таких ресурсов, как HapMap, для включения редких вариаций [21]. Это особенно важно для исследователей, изучающих сложные заболевания, поскольку для многих расстройств значительная часть их наследственности может быть результатом редких вариантов в виде SNP, инделей или CNV [22].

В то время как полногеномное секвенирование остается дорогостоящим для генетики болезни, промежуточным вариантом является секвенирование экзома [23] при условии, что большинство связанных с заболеванием мутаций локализованы в кодирующих последовательностях (приблизительно 1-2% генома).Из менделевской болезни мы знаем, что мутации, вызывающие изменения аминокислот, составляют около 60% мутаций болезни [24]. Хотя RNA-seq в первую очередь считается методом анализа экспрессии генов, это также форма секвенирования экзома с возможностью обнаружения вариации последовательностей в тех генах, которые экспрессируются в образце. Следовательно, основное преимущество RNA-seq заключается в том, чтобы предложить конвергентный подход к исследованию заболеваний, предоставляя информацию для экспрессии / характеристики генов, а также вариации кодирующей последовательности, а также потенциальное понимание посттрансляционных процессов, таких как редактирование РНК.

В ряде исследований сообщалось о жизнеспособности обнаружения SNP с использованием RNA-seq [7], [25] — [31], но цель этого исследования — определить лучший подход к анализу SNP RNA-seq путем оценки эффективности различных стратегий выравнивания и методов вызова SNP по сравнению с обширными доступными онлайн-данными о вариациях последовательностей, такими как данные 1000 геномов. Для этого мы рассчитываем специфичность и чувствительность обнаружения SNP RNA-seq. Специфичность решает вопрос: насколько вероятно, что SNP, обнаруженный с помощью RNA-seq, будет истинным вариантом в последовательности ДНК? Чувствительность решает вопрос: насколько вероятно, что RNA-seq обнаружит экспрессируемый SNP, если он присутствует в транскрибируемом гене? В целом результаты показывают, что RNA-seq — очень точный метод обнаружения SNP.Если гены сильно экспрессируются, большая часть кодирующих SNP будет правильно идентифицирована.

Материалы и методы

Подготовка образцов и секвенирование РНК

Суммарную РНК

экстрагировали из образца линии лимфобластоидных клеток HapMap CEU (Институт медицинских исследований Кориелла) для индивидуального NA12878 с использованием мини-набора Qiagen RNeasy. Библиотеки секвенирования Illumina получали в соответствии с Руководством по приготовлению образцов для секвенирования мРНК Illumina (1004898 Rev. D). Вкратце, поли-А-содержащие молекулы очищали и фрагментировали с последующим синтезом двухцепочечной кДНК.Полученная двухцепочечная кДНК была подвергнута репарации концов перед лигированием Illumina-специфических адаптеров и, наконец, была обогащена ПЦР. Секвенирование выполняли на анализаторе генома Illumina Genome Analyzer II для получения трех дорожек (A – C) односторонних считываний 40 п.н. (дорожка A = 11 683 367, дорожка B = 13 980 330 и дорожка C = 15 120 659 считываний), см. Таблицу S1). Данные с дорожек A, B и C объединены для создания тестового набора данных (40 784 356 считываний). Эти данные РНК-seq для образца NA12878 были депонированы в Архиве краткого чтения (http: // www.ncbi.nlm.nih.gov/sra; SRA065878). Помимо создания собственных данных на NA12878, мы получили доступ к данным RNA-seq для образцов HapMap NA12891 (80 062 322 чтения) и NA12892 (80 023 135 операций чтения) из архива короткого чтения (SRR074943, SRR074953). Чтобы сравнить эти данные с нашими собственными данными, мы урезали чтения для этих двух образцов до длины 40 пар оснований.

Стратегия и методы анализа

На рис. 1 представлен обзор 8 стратегий и методов анализа, которые мы использовали для определения наиболее эффективных методов обнаружения SNP с помощью RNA-seq.Стратегии подробно описаны ниже, но вкратце это включало удаление повторяющихся считываний до и после выравнивания генома или транскриптома и использование двух разных вызывающих SNP.

Рисунок 1. Стратегии и методы анализа для обнаружения SNP RNA-seq.

На этом рисунке показаны стратегии и методы анализа, используемые для определения наиболее эффективных методов обнаружения SNP RNA-seq. Мы проанализировали наши данные, удалив дубликаты до выравнивания (стратегия A) и после выравнивания (стратегия B).Считывания были сопоставлены либо с геномом, либо с вызовами транскриптома и SNP, созданными с помощью SAMtools и GATK. Это произвело 8 наборов запросов на анализ (см. Таблицу S2a).

https://doi.org/10.1371/journal.pone.0058815.g001

Дублирование чтения

Первое решение заключалось в том, следует ли и когда удалять идентичные повторяющиеся считывания из анализа. Повторяющиеся считывания в данных последовательности могут происходить на этапах ПЦР / подготовки библиотеки из-за артефактов секвенирования, таких как считывания поли-А и поли-N, шума при обнаружении кластера и фрагментации кДНК в одном и том же месте в разных молекулах [32].Это может привести к завышению уровней покрытия и повлиять на точность вариантных вызовов. Чтобы избежать этого, при обнаружении повторяющихся чтений сохраняется только одна копия чтения, а дубликаты обычно удаляются либо до, либо после выравнивания. Разница между стратегиями до и после выравнивания заключается в следующем: повторяющиеся считывания, отброшенные до выравнивания, имеют точно идентичную последовательность, тогда как те, которые отброшены после выравнивания, являются считываниями, которые отображаются в одной и той же позиции в геноме или транскриптоме, т.е.имеют одинаковые координаты начала и конца, но могут содержать внутренние различия в последовательности. Не существует золотого стандарта для работы с дубликатами. При удалении дубликатов перед выравниванием будут пропущены повторяющиеся считывания, полученные из одного и того же фрагмента кДНК, но содержащие ошибки секвенирования, что приведет к недооценке повторяющихся считываний. Удаление дубликатов после выравнивания может исключить чтение, содержащее второй аллель SNP, и, таким образом, приведет к потере ценной информации. Чтобы определить лучший метод работы с дубликатами, мы проанализировали наши данные, удалив дубликаты до выравнивания (стратегия A) и после выравнивания (стратегия B), и изучили влияние на количество и качество вызовов SNP.В таблице S1 указано количество повторяющихся считываний, обнаруженных для каждого образца.

Выравнивание и вызов SNP

Tophat версии 1.4.1 был выбран для выравнивания сгенерированных считываний РНК-seq с двумя несоответствиями, допускаемыми на одно уникально выровненное считывание. Мы хотели сравнить вызовы SNP, сгенерированные при выравнивании чтений по эталонному геному, с подходом, основанным только на транскриптоме, и поэтому каждый образец был выровнен с использованием обоих методов дублирования чтения в эталонный геном (NCBI build 36.1) и в связанный список гена refFlat из UCSC, который представляет транскриптом (см. Рисунок 1). Кроме того, использовались два различных общедоступных программного обеспечения для звонков по протоколу SNP; SAMtools v-1.18 [33] и GATK (набор инструментов для анализа генома (v-1.0.5506) [34], оба из которых использовались при анализе данных проекта 1000 Genomes (21).

Подводя итог, было выполнено восемь различных вариантов стратегии вызова. В стратегии A идентичные последовательности удаляли перед выравниванием, а оставшиеся считывания выравнивали как по эталону транскриптома, так и по эталону всего генома.Затем к сгенерированным файлам выравнивания были применены два вызывающих SNP, что привело к четырем различным наборам вызовов вариантов для стратегии A: pre_trans_sam и pre_trans_gatk — это наборы вызовов, сгенерированные после выравнивания только с транскриптомом, а pre_genome_sam и pre_genome_gatk — соответствующие файлы, созданные после выравнивания всего генома. . Стратегия B следует аналогичному протоколу, за исключением удаления повторяющихся чтений после выравнивания по соответствующей ссылке. Аналогичным образом для этой стратегии были сгенерированы четыре набора вызовов вариантов: post_trans_sam и post_trans_gatk после выравнивания транскриптома и post_genome_sam и post_genome_gatk после выравнивания генома.Чувствительность и специфичность каждого SNP оценивали по количеству считываний, выровненных по каждой отдельной базе (при условии, что это было более чем 3-кратное покрытие). Вызовы SNP, производные SAMtools, были сгенерированы с настройками pileup по умолчанию и стандартными фильтрами SNP. Вызовы SNP, производные от GATK, фильтровались с использованием стандартных фильтров GATK SNP. Все вызовы впоследствии были отфильтрованы для удаления сайтов, перекрывающих регионы, где не было попыток вызова вариантов в пилотном исследовании «1000 геномов» 2 [21]. Вызовы SNP, сгенерированные SAMtools и GATK, были окончательно отфильтрованы, чтобы удалить кластеры SNP, где два или более вариантов встречались в окне с тремя парами оснований.Вызовы SNP, проходящие фильтрацию, были проверены на соответствие выпуску 1000 Genomes от марта 2010 г. (http://browser.1000genomes.org/index.html) и сборке 132 dbSNP.

считываний РНК-seq берутся из гена в порядке, пропорциональном его уровню экспрессии в данной ткани. В результате охват вариантов сильно варьируется от гена к гену. Кроме того, эффективность картирования отдельных нуклеотидных сайтов зависит от ряда переменных, включая региональное содержание GC и уникальность, и означает, что может иметь место неравномерное базовое покрытие в гене или экзоне, что будет влиять на обнаружение SNP.Как следствие, определение каждого гена в транскриптоме как выраженного или неэкспрессированного на основе медианы или среднего покрытия оснований на экзон [26] является плохим показателем для определения способности вызывать SNP на любой индивидуальной основе в гене. В этом исследовании мы оценили охват в нашей выборке на каждом сайте из опубликованных 1000 вариантов генома и рассчитали нашу способность правильно называть эти сайты вариантами в данных RNA-seq на разной глубине секвенирования. Для отдельного NA12878 пилотное исследование 2 «1000 геномов» предсказало в общей сложности 2 766 610 SNP, из которых 45 371 произошли в пределах 23 147 генов, определенных в этом исследовании как транскриптом.Для NA12891 было 2720 364 SNP, из которых 44 462 были генными, а для NA12892 было 2 736 863 SNP, из которых 45 437 были генными.

Расчет специфичности и чувствительности

Различные метрики обнаружения SNP RNA-seq, которые мы хотели измерить, включали количество вызываемых SNP на образец, а также специфичность и чувствительность этих вызовов SNP. Пилотное исследование 1000 Genomes 2 вызова SNP были использованы для определения точности вызовов, сделанных с использованием данных RNA-seq. Все 1000 сайтов вариантов генома с> = 3X охватом в наших данных были обработаны как ожидаемые вызовы для этого человека и использовались для определения как специфичности, так и чувствительности вызовов вариантов, производных кДНК.Специфичность рассчитывалась как количество истинных положительных результатов, деленное на количество истинных положительных результатов плюс количество ложных срабатываний. Истинно положительным был любой SNP, присутствующий в данных нашей выборки и соответствующие данные 1000 геномов и / или dbSNP, которые имели правильный генотип или, в случае dbSNP, имели ожидаемые аллели в этом положении. Ложноположительный вызов SNP — это когда генотип в наших данных не соответствует данным 1000 геномов или вариант не присутствует в dbSNP. Поскольку мы имели дело с данными транскриптома, а не с данными полного генома, это означало, что мы сможем обнаруживать SNP только в сайтах, выраженных в наших образцах.Чтобы выполнить анализ чувствительности, мы рассчитали количество истинных положительных результатов, разделенное на количество истинных положительных результатов плюс количество ложных отрицательных результатов. Истинно-положительный результат — это когда мы обнаружили ожидаемый генотип, а ложноотрицательный — когда мы либо не обнаружили SNP в этой позиции, либо действительно обнаружили SNP, но генотип не совпал.

SNP, идентифицированные в наших данных RNA-seq, для которых не сообщалось о соответствующем варианте в пилотном исследовании 1000 Genomes, были дополнительно исследованы как в dbSNP132, так и в общедоступных файлах 1000 Genomes alignment (BAM).SNP с совпадающим положением и идентичным вызовом альтернативного аллеля в dbSNP рассматривались как потенциально истинные варианты. Кроме того, подтверждающие доказательства вызова варианта RNA-seq были исследованы в файлах сопоставления 1000 Genomes, потому что не все истинные варианты пройдут фильтры, используемые в этом исследовании. Для гетерозиготных вызовов мы требовали, чтобы альтернативный аллель встречался между 20 и 80% из 1000 выровненных считываний геномов, чтобы обеспечить потенциальное свидетельство истинного варианта, встречающегося на сайте.Для гомозиготных нереференсных вызовов нам требовалось> 90% считываний в выравнивании 1000 геномов, чтобы нести предсказанный альтернативный аллель на сайте.

Результаты

Обзорный рисунок 1 демонстрирует стратегию анализа, которую мы использовали для оценки RNA-seq как инструмента обнаружения SNP. Первоначально мы применили эти методы к нашим внутренним данным RNA-seq для NA12878, и результаты этих анализов с использованием всех методов, основанных на всех стратегиях, показанных на рисунке 1, подробно описаны в таблице S2. Впоследствии мы проверили эти методы, используя дополнительные онлайн-данные РНК-seq для NA12891 и NA12892, и описали эти анализы в конце раздела результатов.

Экспрессия гена / экзона

в образце LCL NA12878

Набор генов hg18 refFlat из 23 147 уникальных генов состоит из 212 392 экзонов. Выравнивание 40 784 356 односторонних фрагментов длиной 40 п.н. привело по крайней мере к одному картированию считывания последовательности на 17014 генов и 139 143 экзонов. 82091 экзон имел полное покрытие в 1 или более раз по всей своей длине. 23 147 генов в наборе генов refFlat охватывают 67 893 145 пар оснований в геноме высвобождения hg18. Во всех используемых здесь методах выравнивания 50% этих оснований не были покрыты одним считыванием, а 12% оснований в транскриптоме имеют 1-2-кратное покрытие.Остальные 38% сайтов имели 3-кратное или большее покрытие и представляют собой общее количество сайтов, охватывающих транскриптом, на которых в этом исследовании была предпринята попытка вызова генотипа.

Звонки по SNP

На рисунке 2 показано (a) количество SNP, вызываемых для каждого из восьми методов, используемых для NA12878. SAMtools последовательно определяет на 8–10% больше вариантов, чем GATK, для каждого из методов сопоставления. Примерно 96% этих дополнительных вариантов SAMtools вызываются при покрытии ниже 10 × и, скорее всего, являются следствием различных стратегий фильтрации после вызова, используемых двумя конвейерами вызова вариантов.Согласование с транскриптомом, идентифицированное между 12 296 и 14 224 вариантами, в зависимости от вызывающего SNP и стратегии удаления повторяющегося чтения. Это составляет от 27 до 33% от общего ожидаемого числа вариантов в транскриптоме отдельного NA12878 на основе пилотного исследования 2 «1000 геномов». От 80 до 88% этих названных вариантов идентифицированы на сайтах, о которых сообщается в исследовании «1000 геномов», и имеют идентичные присвоение генотипа. В целом, примерно для 70% из 1000 перекрывающихся транскриптомом SNP геномов глубина считывания не менее 3-кратная в этом исследовании не была получена, и не было предпринято никаких попыток вызова генотипа.В среднем для каждого метода вызова только транскриптома 50–57% из 45 371 известных сайтов имели нулевое перекрытие чтений и представляют сайты в генах, не выраженных в LCL, или сайты в экспрессируемых генах, где неравномерность покрытия транскриптом делает сайты непригодными для использования. При выравнивании всего генома выявляется от 15 213 до 19 683 SNP в зависимости от используемого метода. Дополнительные SNP, генерируемые в результате выравнивания генома, по сравнению с вызовами выравнивания только транскриптома, встречаются в регионах за пределами тех, которые аннотированы как экзонические в аннотациях гена RefSeq.В таблице S2 подробно указано количество SNP, обнаруженных для различных методов с разной степенью охвата.

Рисунок 2. Количество SNP на метод в данных RNA-seq.

На этом рисунке показано количество SNP, вызванных для каждого из 8 используемых методов. Также отображается соотношение гетерозиготных (серый) и гомозиготных (черный) вызовов SNP. Подробная информация о количестве вызываемых SNP приведена в таблице S2a.

https://doi.org/10.1371/journal.pone.0058815.g002

Специфичность

Специфичность вызовов SNP NA12878 на основе данных 1000 геномов для каждого из восьми методов при различной глубине покрытия показана на рисунке 3A.На любой глубине считывания удаление повторяющихся считываний после выравнивания (прерывистые линии) приводит к более высокой степени специфичности, чем удаление повторяющихся считываний перед выравниванием. Даже на таких низких глубинах, как 3 ×,> 60% предсказанных вариантов представляют собой реальные SNP 1000 Genomes со специфичностью, увеличивающейся до> 90% на сайтах с> = 10 × охватом. Постоянный вывод для всех методов заключался в том, что специфичность достигла плато, когда базовый охват> 10X. Эти данные показывают, что очень высокая доля SNP, обнаруженных в данных RNA-seq, является истинными вариантами, и, как и ожидалось, вероятность точного вызова SNP возрастает с увеличением охвата последовательностей.Специфичность вызовов SNP очень похожа как для гетерозиготных, так и для гомозиготных сайтов (рисунок 4A).

Рисунок 3. Специфичность и чувствительность вызовов SNP из данных RNA-seq.

На этом рисунке показаны специфичность (A) и чувствительность (B) вызовов SNP для каждого из 8 методов в диапазоне глубин покрытия. Сплошные линии представляют собой вызовы, сделанные там, где повторяющиеся чтения были удалены перед выравниванием, а пунктирные линии — вызовы, сгенерированные, когда повторяющиеся чтения удаляются после выравнивания.

https://doi.org/10.1371/journal.pone.0058815.g003

Рисунок 4. Специфичность и чувствительность гетерозиготных и гомозиготных вызовов SNP из данных RNA-seq.

На этом рисунке показаны специфичность (A) и чувствительность (B) для вызовов гетерозиготных и гомозиготных SNP для метода вызова post_genome_gatk в диапазоне глубин охвата.

https://doi.org/10.1371/journal.pone.0058815.g004

Для каждой из стратегий вызова мы отметили значительное количество сайтов, которые не были идентифицированы как варианты в имеющихся данных 1000 геномов (Таблица S2).Хотя эти SNP были классифицированы как ложноположительные результаты в нашем анализе специфичности, некоторые из них могут представлять варианты, которые ранее не регистрировались при анализе этого человека по 1000 геномов в результате недостаточного охвата или выходящих за рамки используемых параметров фильтрации вариантов в этих конкретных локусах. в данных последовательности. Чтобы количественно определить, какая доля этих вариантов потенциально может быть истинной, мы получили доступ к выровненным файлам BAM из 1000 геномов в этих локусах и искали доказательства нереференсных аллелей.Число вызовов вариантов РНК-seq, для которых приемлемые доказательства вариации присутствуют в выровненных данных 1000 геномов, колеблется от 5 до 8%, что указывает на то, что небольшая, но заметная доля этих вариантов может представлять истинные SNP в наших данных, которые не были обнаружены. на сегодняшний день проведен анализ проекта «1000 геномов» (Таблица S2). Немного более высокая доля этих SNPS также обнаружена в dbSNP132, но большинство представляют собой SNP, депонированные там в рамках трех пилотных исследований 1000 геномов (Таблица S2).

Чувствительность

Для проведения анализа чувствительности мы идентифицировали SNP, которые имели известные генотипы из данных 1000 геномов для NA12878 и были расположены в сайтах, охваченных по крайней мере 3 чтениями в наших данных RNA-seq. На рисунке 3B показана чувствительность каждого метода для образца. Подобно анализу специфичности, на всех глубинах считывания удаление повторяющихся считываний после выравнивания (пунктирные линии) приводит к более высокой степени чувствительности, чем удаление повторяющихся считываний перед выравниванием. Для всех стратегий обзвона чувствительность колеблется от 40% до 80% при глубине покрытия менее 10 ×.В этом диапазоне охвата чувствительность для гомозиготных вариантов намного выше, чем для гетерозиготных вариантов (рисунок 4B). Выше 10 × все методы сходятся с чувствительностью примерно 92% (рисунок 3B), что указывает на то, что очень высокая доля ожидаемых вариантов будет обнаружена с использованием считываний, полученных из РНК, если доступно достаточное покрытие.

Расширение анализов на NA12891 и NA12892

Чтобы выяснить, воспроизводятся ли результаты нашего анализа при применении к другим наборам данных RNA-seq, мы применили те же методы обнаружения SNP к онлайн-данным RNA-seq для NA12891 и NA12892.Важно отметить, что эти два образца также были полностью секвенированы для полного охвата 1000 геномов, поэтому доступны два полных набора вызовов SNP для сравнения с нашими вызовами SNP из данных RNA-seq. Поскольку методы, использующие удаление повторяющихся считываний после выравнивания, лучше всего подходят для нашей внутренней выборки, мы просто представляем данные этих четырех методов для двух онлайн-выборок.

Для этих двух образцов было доступно больше считываний последовательностей (80 062 322 и 80 023 151 считывание для NA12891 и NA12892 соответственно) по сравнению с нашим внутренним образцом (40 784 356 считываний).При сопоставлении с транскриптомом номера SNP одинаковы во всех трех выборках для всех протестированных методов вызова (таблица S2a, b, c; рисунок S1). Однако, когда мы выравниваем геном, мы отмечаем, во-первых, что результаты для двух онлайн-образцов очень похожи (в среднем 67 647 SNP, вызываемых на образец с помощью SAMtools), но, во-вторых, мы отмечаем, что это количество SNP намного больше, чем мы назвали для нашей внутренней выборки (16 455 SNP; рисунок S1). Анализ выровненных чтений показывает, что доля чтений, совпадающих с аннотированным транскриптомом, сильно различается в нашей внутренней выборке (95%) по сравнению с двумя онлайн-выборками (45%).Таким образом, когда мы выравниваем эти данные с геномом, дополнительные чтения, отображаемые вне транскриптома, создают огромное увеличение количества вызовов SNP в данных онлайн-выборки. Такой результат может быть связан с различиями в протоколах подготовки образцов, используемых для разных образцов, в частности, в отношении очистки Poly-A, которая действительно влияет на сопоставимость наборов данных RNA-seq [35].

Когда мы вычисляем специфичность и чувствительность для всего диапазона наших методов, мы обнаруживаем, что результаты для двух онлайн-образцов почти идентичны (рисунки S2, S3, S4, S5; таблица S2b, c).Это подчеркивает воспроизводимость методов вызова SNP при применении двух наборов данных RNA-seq, которые были созданы с использованием одних и тех же методов. При удалении повторяющихся считываний после выравнивания специфичность является наилучшей на всех уровнях покрытия при выравнивании по геному по сравнению с транскриптомом, и есть небольшая разница в производительности между GATK и SAMtools (например, 85% -ная специфичность при 10-кратном покрытии для генома). Чувствительность немного лучше для генома по сравнению с выравниванием транскриптомов, а SAMtools немного превосходит GATK на всех глубинах считывания выше 10 × (например.g., чувствительность 89% против 88% при 10-кратном охвате генома). Поскольку SAMtools для начала также вызывает больше вариантов, он, по-видимому, лучше всего подходит для вызова SNP для данных RNA-seq. Когда мы сравниваем измерения специфичности и чувствительности для двух онлайн-выборок с измерениями из нашей собственной выборки NA12878, мы действительно наблюдаем некоторые различия, но в основном для SNP, вызываемых на более низких уровнях охвата (рисунок 5; таблица S2a, b, c). При охвате выше 10 × данные гораздо менее зашумлены, особенно при измерениях чувствительности.

Рис. 5. Специфичность и чувствительность вызовов SNP из данных RNA-seq для всех трех образцов.

На этом рисунке показаны специфичность (A) и чувствительность (B) вызовов SNP для каждого из трех образцов (в цвете) в диапазоне глубин покрытия с использованием метода post_genome_sam. Черные линии отображают средние значения всех трех выборок плюс 95% доверительные интервалы.

https://doi.org/10.1371/journal.pone.0058815.g005

Обсуждение

В этом исследовании изучали секвенирование транскриптома следующего поколения (RNA-seq) как метод обнаружения экспрессируемых SNP в LCL.Многие образцы болезней теперь хранятся в биобанках, поскольку LCL и РНК из этих клеточных репозиториев обычно используются для научных исследований. Помимо данных об экспрессии и сплайсинге, данные RNA-seq могут использоваться для обнаружения SNP. Поэтому важно определить лучшую стратегию для анализа SNP RNA-seq, и мы рассмотрели этот вопрос путем количественной оценки специфичности и чувствительности различных методов выравнивания и вызова SNP. Эти результаты также относятся к РНК, не полученной из LCL, например из другого типа клеточной линии или из образца ткани, вызывающей заболевание, потому что они информируют о параметрах, необходимых для точного вызова SNP в данных RNA-seq.

Мы исследовали различные стратегии обнаружения SNP RNA-seq, отбрасывая повторяющиеся считывания последовательностей до или после выравнивания и используя различные справочные данные для выравнивания (геном и транскриптом) и различные алгоритмы вызова SNP (SAMtools и GATK; рисунок 1). Мы отмечаем, что удаление повторяющихся считываний после выравнивания дает заметное увеличение обнаружения SNP с точки зрения специфичности и чувствительности по сравнению с отбрасыванием считываний перед выравниванием. Эти различия более выражены при глубине считывания ниже 10 × и указывают на то, что маркировка дубликатов ПЦР после выравнивания более чувствительна к удалению считываний, происходящих из одного и того же места генома, которые содержат ошибку секвенирования, а не доказательства истинного несоответствия базы, по сравнению с стратегия, которая сворачивает идентичные чтения перед выравниванием.

Основное различие между результатами вызова SNP на основе сопоставления с транскриптомом или геномом заключалось в количестве идентифицированных SNP, а не в специфичности или точности этих вызовов SNP. Выравнивание всего генома приводит к большему количеству обращений ко всем методам по сравнению с выравниванием только по транскриптому. Измерения специфичности и чувствительности для методов выравнивания генома, по крайней мере, аналогичны, а часто и лучше, чем для методов выравнивания транскриптомов. Было создано несколько широко используемых наборов генов для генома человека, включая RefSeq (взятый из эталонных последовательностей РНК NCBI), ENSEMBL (расчетно предсказанный на основе геномной последовательности) и UCSC (на основе данных о белках из Swiss-Prot / TrEMBL (UniProt) и связанные данные мРНК из Genbank).Каждый из этих наборов генов содержит значительные отличия от других, причем наборы данных RefSeq и UCSC более консервативны, чем прогнозы ENSEMBL. Даже с учетом различий между этими тремя наборами данных, значительная часть SNP, называемых после выравнивания генома, встречается в регионах за пределами любой аннотированной области гена и будет пропущена при любом анализе с использованием только транскриптома. Это открытие имеет особое значение для исследований по вызову вариантов у организмов без полностью секвенированного генома.Сборка транскриптома de novo с последующим обнаружением вариантов у таких видов может привести к значительной недооценке экспрессируемых вариантов, если только транскриптом не сгенерирован из считываний, полученных из всех тканей. Секвенирование на достаточную глубину, чтобы полностью реконструировать транскриптом такого вида, было бы непомерно дорогим, и с развитием технологий секвенирования было бы более экономично секвенировать геном таких видов, чтобы использовать его в качестве эталона для последующих исследований, связанных с РНК.

Значительное перекрытие существует между наборами вызовов, созданными двумя вызывающими абонентами SNP, используемыми в этом исследовании. В среднем 98% вызовов, производных от GATK, обнаруживаются в наборе вызовов SAMtools, сгенерированном при тех же сопоставлениях, в то время как примерно 91,5% вызовов SAMtools перекрываются с вызовами GATK, что отражает большее количество вызовов SNP со стороны SAMtools. Сравнение результатов для обеих стратегий вызова, использованных в этом исследовании, показывает, что расчеты чувствительности и специфичности для вариантов вызовов, выполненных при> = 10-кратном охвате с использованием как SAMtools, так и GATK, практически идентичны (рисунок 3).На глубине покрытия менее 10 × SAMtools демонстрирует более высокую степень чувствительности, но немного более низкую специфичность по сравнению с GATK. Это связано с тем, что на этих уровнях охвата большее количество SNP, вызываемых SAMtools, определяет более высокую долю ожидаемых истинных вариантов (повышение чувствительности), но с соответствующим увеличением количества ложноположительных вызовов SNP (снижение специфичности).

Cirulli et al. [26] исследовали специфичность RNA-seq как метода обнаружения SNP, сравнивая последовательность всего генома и последовательность транскриптома для одного человека.РНК получали из мононуклеарных клеток периферической крови (PBMC). Когда они ограничили свой анализ генами, экспрессируемыми PBMC; они сообщают о специфичности 67%, что намного ниже, чем указанная здесь специфичность. Этот результат был основан на 8 дорожках данных последовательностей, и они сообщают, что специфичность упала по мере увеличения количества данных последовательностей, используемых в анализе. Когда в этом исследовании использовалась только одна полоса данных о последовательности (эквивалентная нашему исследованию), специфичность была рассчитана как 83%; результат ближе к уровням, о которых мы сообщаем здесь.В нашем исследовании у нас была возможность сравнить наши данные РНК-seq с более полным каталогом данных геномных вариаций, что, вероятно, приведет к более точным расчетам специфичности. Кроме того, мы использовали данные маскировки, сгенерированные проектом «1000 геномов», чтобы удалить из нашего анализа сайты, на которых нельзя с уверенностью назвать варианты. Добавление этого шага в конвейер значительно снижает количество ложных срабатываний от наборов вызовов SNP. В отсутствие этого шага специфичность и чувствительность, оцененные для наших вызовов SNP, полностью совпадают с результатами, полученными в предыдущих исследованиях [26].Для трех индивидуумов CEU, секвенированных в рамках пилотного исследования «1000 геномов», «недоступный» геном был оценен в 20% от общего числа оснований (снижение до 15% в кодирующих областях) [21]. Большинство этих областей были исключены из любого анализа вызова вариантов в этом исследовании из-за сложности точного картирования считываний в этих частях генома, поскольку они в основном представляют собой повторы с высоким числом копий или сегментарные дупликации. Особое значение для RNA-seq имеет то, что более 25% генов RefSeq человека содержат не менее 10% неуникальных последовательностей [36].Это в основном связано с высокой скоростью дупликации генов в семействе генов млекопитающих, а также с широко распространенным присутствием общих функциональных доменов даже среди несвязанных генов. Присутствие таких неуникальных участков в генах имеет важные последствия для этапов нормализации в исследованиях экспрессии, производной от РНК-seq, и, как показано здесь, использование информации о неуникальных участках генов поможет снизить количество ложноположительных вызовов SNP в РНК-генах. seq данные.

На возможность картирования генома влияет как локальное содержание генома, так и используемая стратегия секвенирования.В недавнем исследовании был разработан алгоритм для определения сопоставимости каждой базы в любом эталонном геноме с использованием заданной пользователем длины чтения и числа несовпадений [37]. Используя этот метод, мы смогли сгенерировать данные сопоставления, соответствующие длине чтения и количеству несовпадений последовательностей, выбранных при выравнивании наших данных РНК. SNP, исключенные из нашего анализа с использованием этих данных сопоставимости, сгенерированных собственными силами, почти идентично отражают сайты, исключенные с использованием информации о геноме, доступной для 1000 Genomes (данные не показаны).Использование такого профиля сопоставимости, созданного с соответствующими критериями длины и несоответствия, должно быть включено в любое исследование вызова варианта RNA-seq, чтобы минимизировать количество генерируемых ложных вызовов.

Какова причина ложноположительных вызовов SNP в наших данных? Большинство этих дискордантных генотипов встречается на участках с охватом <10 × (рис. 5). При> 10-кратном охвате доля этих несовпадений падает до ~ 12% для стратегий удаления дубликатов перед выравниванием и ~ 6%, когда дубликаты удаляются после выравнивания.Для NA12878 небольшое количество наших ложноположительных вызовов SNP были фактически истинными вариантами, когда мы исследовали данные выравнивания из 1000 геномов, показывающие, что исчерпывающее геномное секвенирование этого образца, возможно, еще не идентифицировало все варианты, присутствующие у этого человека.

Наш анализ чувствительности обратился к вопросу о том, какая доля истинных вариантов будет обнаружена в анализе SNP RNA-seq. Это снова очень сильно зависит от охвата сайта независимо от общего количества данных, полученных для тестовой выборки.Для всех методов анализа, протестированных здесь, общая чувствительность составляет> 90%, когда покрытие> 10X, но может упасть до 40%, если сайт имеет 3-кратное покрытие. Как и ожидалось, большинство ложноотрицательных сайтов в нашем образце RNA-seq происходит в гетерозиготных сайтах, где у нас низкий охват (рисунок 4B). На таких сайтах может отсутствовать достаточное свидетельство альтернативного аллеля, чтобы с уверенностью выдать нереференсный сигнал. Снижение частоты ложноотрицательных результатов до ~ 5% при 10-кратном охвате предполагает, что секвенирование на большую глубину должно значительно снизить эту частоту.

Существует ряд дополнительных факторов, которые влияют как на чувствительность, так и на специфичность. Все расчеты в этом исследовании основаны на том, что данные 1000 геномов верны. Сравнение доступных данных HapMap и 1000 Genomes для образца NA12878 выявило 1 964 991 SNP, общих для обоих наборов данных; однако генотипы не совпадали для 2% этих SNP. Другими факторами, которые следует учитывать, являются ошибки в данных RNA-seq (ошибки секвенирования или артефакты трансформации клеточной линии EBV), аллельный дисбаланс в РНК, случайная моноаллельная экспрессия в клональных клеточных линиях [38] или случаи редактирования РНК.Большинство ошибок секвенирования должно быть отфильтровано при условии, что качество последовательности / основы достаточно высокое, но невозможно исключить все ошибки. Различия в экспрессии аллелей в РНК, в результате чего один аллель в ожидаемом гетерозиготном сайте сверхэкспрессируется и появляется как гомозигота, может привести к несоответствию генотипа ДНК и РНК. RNA-seq использовался в нескольких исследованиях для идентификации этих сайтов [7], [39] — [41]. Редактирование РНК представляет собой посттранскрипционный механизм перекодирования оснований посредством вставки, делеции или модификации нуклеотидов и связан с рядом заболеваний, включая несколько неврологических расстройств [42], [43].Мы не верим, что редактирование РНК имеет большое влияние на вызовы SNP в нашем исследовании, потому что только 0,4% наших ложноотрицательных вызовов происходит на известных сайтах редактирования РНК ([44]; данные не показаны).

Мы показали, что точное обнаружение вариантов возможно с использованием считывания последовательностей, полученных на основе кДНК, в сайтах с> 10-кратным охватом. В нашем исследовании образца LCL вызов SNP был возможен на 38% аннотированного транскриптома. Непомерно высокая стоимость, связанная с секвенированием до необходимой глубины для точного вызова всех экспрессированных вариантов в образце, означает, что, хотя вызов вариантов с помощью RNA-seq работает хорошо, он не является жизнеспособной альтернативой секвенированию экзома или всего генома.Использование более длинных и / или парных считываний увеличит базовый охват экспрессируемых генов в образце и, как результат, увеличит чувствительность генерируемых вызовов SNP, но это будет ограничиваться SNP, встречающимися в относительно высоко экспрессируемых генах.

В заключение, вызовы SNP в данных RNA-seq являются полезным побочным продуктом метода и увеличивают объем данных, которые могут быть получены в результате таких экспериментов и потенциально использованы в конвергентных исследованиях функциональной геномики. Мы обнаружили, что в дополнение к вычислительному преимуществу сокращения количества считываний, которые должны обрабатываться на последующих этапах, удаление повторяющихся последовательностей после выравнивания повысит качество SNP, называемого в целом.Мы обнаружили, что выравнивание последовательностей считывает геномную, а не транскриптомную ссылку, увеличит количество вызываемых SNP, с дополнительными SNP, встречающимися в основаниях, которые в настоящее время не курируются как генные области в наборах аннотаций генома человека, и достигается большая специфичность при выравнивании по геному. SAMtools идентифицирует на 8–10% больше вариантов, чем GATK, и, таким образом, обнаруживает больше истинных SNP, чем GATK (более высокая чувствительность), но также вызывает больше ложных срабатываний, чем GATK при низком охвате (более низкая специфичность).Когда мы применили наши методы к множеству наборов данных RNA-seq, которые были подготовлены и секвенированы одними и теми же методами (онлайн-образцы NA12891 и NA12892), результаты для метрик обнаружения SNP были очень воспроизводимыми. Когда мы сравнили эти данные с нашей исходной внутренней выборкой (NA12878), основное различие заключалось в общем количестве обнаруженных SNP. Это указывает на то, что количество считываний последовательностей, используемых в анализе и исходной подготовке библиотеки для секвенирования, будет влиять на обнаружение SNP.Несмотря на эту большую разницу в количестве SNP, единственные заметные различия между выборками были обнаружены при более низком покрытии. При> 10-кратном охвате специфичность и чувствительность были очень похожи, что снова подчеркивает воспроизводимость методов. В целом, с использованием соответствующих методов и фильтров, очень высокая доля SNP, называемых в данных RNA-seq, будет истинными вариантами, и анализ SNP RNA-seq позволит идентифицировать большинство вариантов, присутствующих в экспрессируемых экзонах, при условии, что имеется достаточный охват.

Вклад авторов

Задумал и спроектировал эксперименты: EQ PC EK DM. Провел эксперименты: EQ PC EK. Проанализированы данные: EQ PC EK. Внесенные реагенты / материалы / инструменты анализа: MH RA MG AC DM. Написал бумагу: EQ PC EK DM.

Ссылки

1.
Hoheisel JD (2006) Технология микрочипов: помимо профилирования транскриптов и анализа генотипов. Нат Рев Генет 7: 200–210.
2.
Gresham D, Dunham MJ, Botstein D (2008) Сравнение полных геномов с использованием микрочипов ДНК.Нат Рев Генет 9: 291–302.
3.
Marioni JC, Mason CE, Mane SM, Stephens M, Gilad Y (2008) RNA-seq: оценка технической воспроизводимости и сравнение с массивами экспрессии генов. Genome Res 18: 1509–1517.
4.
Ван З., Герштейн М., Снайдер М. (2009) RNA-Seq: революционный инструмент для транскриптомики. Нат Рев Генет 10: 57–63.
5.
Мадж Дж., Миллер Н.А., Хребтукова И., Линдквист И.Е., Май Г.Д. и др. (2008) Анализ геномной конвергенции шизофрении: секвенирование мРНК выявляет измененный синаптический везикулярный транспорт в посмертном мозжечке.PLoS ONE 3: e3625.
6.
Montgomery SB, Sammeth M, Gutierrez-Arcelus M, Lach RP, Ingle C и др. (2010) Генетика транскриптомов с использованием секвенирования второго поколения в популяции европеоидной расы. Природа 464: 773–777.
7.
Хип Г.А., Ян Дж.Х.М., Даунс К., Хили BC, Хант К.А. и др. (2010) Полногеномный анализ дисбаланса экспрессии аллелей в первичных клетках человека с помощью высокопроизводительного ресеквенирования транскриптомов. Молекулярная генетика человека 19: 122–134.
8.Cloonan N, Forrest AR, Kolle G, Gardiner BB, Faulkner GJ и др. (2008) Профилирование транскриптома стволовых клеток с помощью массового секвенирования мРНК. Нат Методы 5: 613–619.
9.
Морин Р., Бейнбридж М., Фейес А., Херст М., Кшивински М. и др. (2008) Профилирование транскриптома HeLa S3 с использованием случайной праймированной кДНК и массового параллельного секвенирования короткого чтения. Биотехники 45: 81–94.
10.
Yeo GW, Coufal NG, Liang TY, Peng GE, Fu X-D и др. (2009) РНК-код регулятора сплайсинга FOX2, выявленный путем картирования взаимодействий РНК-белок в стволовых клетках.Nat Struct Mol Biol 16: 130–137.
11.
Sultan M, Schulz MH, Richard H, Magen A, Klingenhoff A и др. (2008) Глобальный взгляд на активность генов и альтернативный сплайсинг посредством глубокого секвенирования человеческого транскриптома. Наука 321: 956–960.
12.
Sie L, Loong S, Tan EK (2009) Полезность линий лимфобластоидных клеток. J Neurosci Res 87: 1953–1959.
13.
Herbeck JT, Gottlieb GS, Wong K, Detels R, Phair JP, et al. (2009) Достоверность генотипирования массива SNP с использованием трансформированных вирусом Эпштейна-Барра клеточных линий B-лимфоцитов: значение для полногеномных ассоциативных исследований.PLoS ONE 4: e6915.
14.
Диксон А.Л., Лян Л., Моффатт М.Ф., Чен В., Хит С. и др. (2007) Общегеномное ассоциативное исследование глобальной экспрессии генов. Нат Генет 39: 1202–1207.
15.
WTCCC (2007) Общегеномное ассоциативное исследование 14 000 случаев семи распространенных заболеваний и 3 000 общих контрольных заболеваний. Природа 447: 661–678.
16.
Крэддок Н., Хёрлз М.Э., Кардин Н., Пирсон Р.Д., Планьол В. и др. (2010) Полногеномное ассоциативное исследование CNV в 16 000 случаев восьми распространенных заболеваний и 3000 общих контрольных.Природа 464: 713–720.
17.
Tejero ME, Voruganti VS, Proffitt JM, Curran JE, Goring HHH, et al. (2008) Межвидовая репликация QTL мРНК резистина, но не QTL для циркулирующих уровней резистина у человека и павиана. Наследственность 101: 60–66.
18.
Ding J, Gudjonsson JE, Liang L, Stuart PE, Li Y и др. (2010) Экспрессия генов в коже и лимфобластоидных клетках: усовершенствованный статистический метод выявляет обширное перекрытие в сигналах cis-eQTL. Am J Hum Genet 87: 779–789.
19.
Rollins B, Martin MV, Morgan L, Vawter MP (2010) Анализ экспрессии биомаркеров всего генома в крови и головном мозге. Am J Med Genet B Neuropsychiatr Genet 153B: 919–936.
20.
Bullaughey K, Chavarria CI, Coop G, Gilad Y (2009) Локусы количественных признаков экспрессии, обнаруженные в клеточных линиях, часто присутствуют в первичных тканях. Hum Mol Genet 18: 4296–4303.
21.
-Genomes-Project-Consortium (2010) Карта вариаций генома человека на основе секвенирования в масштабе популяции.Природа 467: 1061–1073.
22.
Ku CS, Loy EY, Salim A, Pawitan Y, Chia KS (2010) Открытие генетических вариаций человека и их использование в качестве маркеров болезней: прошлое, настоящее и будущее. J Hum Genet 55: 403–415.
23.
Ng SB, Turner EH, Robertson PD, Flygare SD, Bigham AW и др. (2009) Целенаправленный захват и массовое параллельное секвенирование 12 экзомов человека. Природа 461: 272–276.
24.
Ботштейн Д., Риш Н. (2003) Обнаружение генотипов, лежащих в основе фенотипов человека: прошлые успехи в лечении менделевской болезни, будущие подходы к комплексной болезни.Нат Генет 33 Дополнение: 228–237
25.
Chepelev I, Wei G, Tang Q, Zhao K (2009) Обнаружение однонуклеотидных вариаций в экспрессируемых экзонах генома человека с использованием RNA-Seq. Nucleic Acids Res 37: e106.
26.
Cirulli ET, Singh A, Shianna KV, Ge D, Smith JP и др. (2010) Скрининг экзома человека: сравнение секвенирования всего генома и всего транскриптома. Геном Биол 11: R57.
27.
Canovas A, Rincon G, Islas-Trejo A, Wickramasinghe S, Medrano JF (2010) Открытие SNP в транскриптоме коровьего молока с использованием технологии RNA-Seq.Геном мамм 21: 592–598.
28.
Peng Z, Cheng Y, Tan BC-M, Kang L, Tian Z и др. (2012) Всесторонний анализ данных RNA-Seq показывает обширное редактирование РНК в человеческом транскриптоме. Нат Биотех 30: 253–260.
29.
Ян С.С., Ту З.Дж., Чунг Ф., Сюй В.В., Лэмб Дж.Ф. и др. (2011) Использование RNA-Seq для идентификации генов, обнаружения полиморфизма и профилирования транскриптов в двух генотипах люцерны с дивергентным составом клеточных стенок в стеблях. BMC Genomics 12: 199.
30.Vidal RO, do Nascimento LC, Mondego JM, Pereira GA, Carazzolle MF (2012) Идентификация SNP в данных РНК-seq двух сортов Glycine max (соя), различающихся засухоустойчивостью. Genet Mol Biol 35: 331–334.
31.
Салем М., Вальехо Р.Л., Лидс Т.Д., Палти Ю., Лю С. и др. (2012) RNA-Seq определяет маркеры SNP для признаков роста радужной форели. PLoS ONE 7: e36264.
32.
Ratan A, Zhang Y, Hayes VM, Schuster SC, Miller W (2010) Вызов SNP без эталонной последовательности.BMC Bioinformatics 11: 130.
33.
Ли Х, Хандакер Б., Вайсокер А., Феннелл Т., Руан Дж. И др. (2009) Формат Sequence Alignment / Map и SAMtools. Биоинформатика 25: 2078–2079.
34.
ДеПристо М.А., Бэнкс Э., Поплин Р., Гаримелла К.В., Магуайр Дж. Р. и др. (2011) Структура для открытия вариаций и генотипирования с использованием данных секвенирования ДНК следующего поколения. Нат Генет 43: 491–498.
35.
Хуанг Р., Яриц М., Гюнцл П., Влаткович И., Соммер А. и др.(2011) Стратегия RNA-Seq для обнаружения полного кодирующего и некодирующего транскриптома, включая полноразмерные импринтированные макро-нкРНК. PLoS One. 6: e27288.
36.
Koehler R, Issac H, Cloonan N, Grimmond SM (2011) Уникальный: ресурс сопоставимости для секвенирования коротких тегов. Биоинформатика 27: 272–274.
37.
Дерриен Т., Эстелле Дж., Марко Сола С., Ноулз Д.Г., Райнери Э. и др. (2012) Быстрые вычисления и приложения сопоставимости генома. PLoS ONE 7: e30377.
38.
Гимельбрант А., Хатчинсон Дж. Н., Томпсон Б. Р., Чесс А (2007) Широко распространенная моноаллельная экспрессия на аутосомах человека. Наука 318: 1136–1140.
39.
Dimas AS, Deutsch S, Stranger BE, Montgomery SB, Borel C и др. (2009) Общие регуляторные вариации влияют на экспрессию генов в зависимости от типа клетки. Science 325: 1246–1250.
40.
Tuch BB, Laborde RR, Xu X, Gu J, Chung CB и др. (2010) Секвенирование транскриптома опухоли выявляет дисбаланс экспрессии аллелей, связанный с изменениями числа копий.PLoS ONE 5: e9317.
41.
Turro E, Su SY, Goncalves A, Coin LJ, Richardson S и др. (2011) Оценка специфической экспрессии гаплотипа и изоформы с использованием считывания последовательностей РНК с множественным отображением. Геном Биол 12: R13.
42.
Keegan LP, Gallo A, O’Connell MA (2001) Многие роли редактора РНК. Нат Рев Генет 2: 869–878.
43.
Вульф Б.Е., Сакураи М., Нишикура К. (2011) Выяснение инозинома: глобальные подходы к редактированию аденозиновой РНК.Нат Рев Генет 12: 81–85.
44.
Kiran A, Baranov PV (2010) DARNED: DAtabase of RNa EDiting у людей. Биоинформатика 26: 1772–1776.

Глубина секвенирования и качество генотипа: точность и соображения по операциям селекции для применения геномной селекции автополиплоидных культур

Генетические материалы и фенотипирование

Бипартильная популяция сладкого картофеля

Сладкий картофель имеет широкое генетическое разнообразие с точки зрения урожайности, питательности и кулинарных аспектов. толерантность к абиотическому стрессу, толерантность к биотическому стрессу, среди других атрибутов (Low et al.2017). Введение высокого содержания β-каротина в адаптированные к местным условиям сорта является основной целью селекции, особенно в странах Африки к югу от Сахары, где преобладает дефицит витамина А. Семейство полных сибсов из 315 потомков ( F ₁) было выведено путем скрещивания выведенного в США сорта с высоким содержанием β-каротина, ‘Beauregard’, с адаптированным, предпочтительным для местных условий, крахмалистым, низким содержанием β-каротина старомодным сортом. сорт «Танзания» в CIP — Перу. Эти два родителя отличаются дополнительными интересными чертами, и в дальнейшем популяция будет называться популяцией BT.В период с 2016 по 2017 год популяция оценивалась в шести средах Перу по различным характеристикам, связанным с качеством и урожайностью. Дизайн представлял собой α-решетку 80 × 4 с двумя-тремя повторениями, в зависимости от местоположения. Информация об этих испытаниях дополнительно описана в публикациях Gemenet et al. (2020) и Pereira et al. (2020), а также краткое изложение местоположений и экспериментальных проектов, прилагаемое в качестве Интернет-ресурса 1. Кроме того, телесный цвет оценивался в шести средах Уганды.Конструкция представляла собой α-решетку 80 × 4 с тремя повторениями на местоположение, на участке размером 4,8 м ², с тремя точками в течение двух лет, как далее описано Gemenet et al. (2020). Связанные с качеством признаки, измеренные в популяции BT, включают: содержание сухого вещества (DM), измеренное как процент от лабораторных высушенных образцов, деленный на исходную свежую массу 100 г; Содержание крахмала и β-каротина (BC), оцениваемое с помощью спектроскопии отражения в ближней инфракрасной области (NIRS), и содержание телесного цвета (FC), измеренное с использованием внутренних цветовых шкал, разработанных CIP и партнерами.Все характеристики, связанные с качеством, были измерены в Перу, но только телесный цвет измерялся в Уганде (FC_U). Данные дополнительно описаны в Gemenet et al. (2020). Для признаков, связанных с урожайностью, общее количество корней для хранения (TNR), количество корней для коммерческого хранения (NOCR), общий вес корней для хранения (RYTHA), вес корней для хранения (CYTHA) и общий вес листвы (FYTHA), были измерены только в шести экспериментах в Перу. Данные дополнительно описаны в Pereira et al. (2020). Аббревиатуры признаков дополнительно определены в таблице 1.

Таблица 1 Аббревиатуры признаков и их описание у сладкого картофеля и картофеля, использованные в текущем исследовании

Признаки, связанные с качеством, были проанализированы путем подбора следующей линейной смешанной модели в ASREML:

$$ y_ {ijkl} = \ mu + g_ {i} + e_ {l} + r_ {k \ left (l \ right)} + b_ {jk \ left (l \ right)} + (ge_ {i}) _ {l} + \ varepsilon_ {ijk \ left (l \ right)} $$

(1)

, где \ (y_ {ijkl} \) = вектор фенотипов генотипа i в блоке j в реплике k среды l , µ = среднее значение популяции, \ (g_ {i} \) = Фиксированный эффект обработки (генотип), \ (e_ {l} \) = случайный эффект среды l , \ (r_ {k \ left (l \ right)} \) = случайный эффект репликации k в среде l, \ (b_ {jk \ left (l \ right)} \) = случайный эффект блока j в реплике k среды l, \ ((ge_ {i}) _ {l} \) = случайный эффект генотипа i в среде l (l = 1 ,.{2}} \ right) \), \ (ge_ {i} \ sim N (0, \ left. \ Sum \ right) \) с ∑ = ковариационная матрица генотипов по L = 5 среды, допускающие неоднородность генетических вариаций и ковариаций в разных средах. Наиболее подходящая модель была выбрана по информационному критерию Акаике (AIC) и несколько различалась по разным признакам. Для DM, Starch и FC_U использовалась факторно-аналитическая модель (Piepho, 1998) порядка 1, а для BC — факторно-аналитическая модель порядка 2, чтобы смоделировать ковариационную матрицу дисперсии.{2}} \ right) \) (Геменет и др., 2020).

Признаки, связанные с урожайностью, также были проанализированы с помощью линейных смешанных моделей, как описано Pereira et al. (2020) с использованием ограниченного максимального правдоподобия (REML) в GENSTAT 14 как:

$$ y_ {ijkl} = \ mu + g_ {i} + e_ {l} + r_ {k \ left (l \ right)} + b_ {jkl} + ge_ {il} + \ varepsilon_ {ijkl} $$

(2)

где \ (y_ {ijkl} \) = вектор фенотипов, как указано выше, \ (\ mu = \) среднее значение популяции, \ (g_ {i} = \) эффект фиксированного лечения (генотипа), \ (e_ { l} \) = фиксированный эффект среды l , \ (r_ {k \ left (l \ right)} \) = фиксированный эффект репликации k в среде l , \ (b_ {jkl} \) = Случайный эффект блока j в репликации k в среде l ; \ (b_ {jkl} \ sim N \ left ({0, \ sigma_ {b} ^ {2}} \ right) \), \ (ge_ {il} \) = фиксированный эффект взаимодействия генотипа i и environment l , а \ (\ varepsilon_ {ijkl} \ sim N \ left ({0, \ sigma ^ {2}} \ right) \) — случайная остаточная ошибка.Два класса данных (признаки, связанные с качеством и признаки, связанные с урожайностью) были проанализированы с использованием разных методов, потому что два аналитика сделали разные предположения относительно компонентов дисперсии и взаимодействия между генотипом и средой. Модели для признаков, связанных с урожайностью, предполагали сложную симметрию и фиксированную корреляцию между средами, что может быть менее реалистичным при оценке ковариационной структуры различных признаков. Это может привести к плохой оценке стандартных ошибок различий между некоторыми средними значениями и, следовательно, к некоторой разнице в скорректированных средних.Однако не ожидается, что такие различия существенно повлияют на результаты дальнейшего анализа с использованием этих скорректированных средних значений в текущем исследовании. Лучшие линейные несмещенные оценки (BLUE), полученные путем подгонки вышеуказанных моделей к экспериментальным данным с фиксированными генотипами, затем использовались для оценки GEBV.

Популяция сети наблюдения за признаками картофеля

Панель из 380 генотипов, состоящая из продвинутых клонов из программы селекции картофеля и представляющая все селекционные популяции в CIP, была собрана для сети наблюдения за признаками (TON) в Перу, Китае и Эфиопии.В дальнейшем мы будем называть эту популяцию панелью TON. Оценка группы проводилась в различных агроэкологических зонах и в подмножествах генотипов в зависимости от партнерской способности участвующих NARS и / или способности производить достаточное количество мини-клубней для экспериментов. Экспериментальные участки, планы экспериментов и количество генотипов, оцениваемых за эксперимент, сведены в Таблицу 2. Панель TON оценивалась на предмет зрелости (набухания) по характеристикам клубней в три даты сбора урожая, когда средний урожай с растения (кг; AYP) и вес растения товарных клубней на растение (кг; WMT).Кроме того, вес зрелых клубней оценивали путем измерения общей массы клубней на растение (TTW; кг). В Перу TTW измеряли как средний общий вес клубней при трех обработках, связанных с засухой: терминальной засухе (орошение прекращалось при цветении до сбора урожая; TTW16_TD), восстановлении (частичное орошение после стресса засухи; TTW16_REC) и полном орошении (обычно орошение на протяжении всего периода период роста; TTW16_NI), в то время как случайная засуха использовалась в Китае без контролируемых обработок. Устойчивость к вирусу Y картофеля (PVY) оценивалась после заражения вирулентными векторами и восприимчивыми рядами распространителей с использованием стандартных протоколов на CIP, в то время как устойчивость к фитофторозу (LB) оценивалась путем выращивания популяции в условиях эндемического заболевания и оценивалась с использованием стандартных протоколов на CIP.Аббревиатуры признаков определены в таблице 1.

Таблица 2 Расположение, дизайн и признаки, измеренные в панели сети наблюдения за признаками (TON) картофеля

В отличие от сладкого картофеля, где данные фенотипа и генотипа были сбалансированы в разных экспериментах, (292 + родители для DArTSeq и 315+ родителей для GBSpoly) эксперименты с картофелем были несбалансированными с точки зрения экспериментальных генотипов. Для целей этого исследования мы выбрали только места с наивысшим уровнем обучаемости по каждому признаку.Следовательно, мы использовали AYP из Куньмина (Китай; AYP_K), WMT из Куньмина (Китай; WMT_K), LB из Оксапампы (Перу; LB2014_O), LB из Юньнани (Китай; LB2016_Y), PVY из Лимы (Перу; PVY_L), TTW. усреднены по трем обработкам в 2016 г. в Ика (Перу; TTW16_Ica) и TTW в 2016 г. из Хэйлунцзяна (Китай; TTW16_HLJ), все из которых имели количество генотипов, указанное в таблице 2. Эксперименты были проанализированы как отдельные испытания, в зависимости от используемого экспериментального дизайна. Обобщено в Таблице 2. Линейная смешанная модель, принимая во внимание соответствующий экспериментальный план, была адаптирована к фенотипическим данным.Для тех черт с различными видами лечения, как TTW в Перу, совместные скорректированные средние были дополнительно получены для всех обработок путем подбора линейной смешанной модели. В этих смешанных моделях генотип рассматривался как фиксированный эффект, поэтому для каждого признака были получены значения BLUE для средних значений генотипа, которые использовались для прогнозирования GEBV.

Генотипирование и вызов вариантов

Полное 315 потомство популяции BT (сладкий картофель) было генотипировано вместе с родителями с использованием оптимизированного протокола для гексаплоидного сладкого картофеля «GBSpoly» в Государственном университете Северной Каролины (NCSU).Кроме того, подвыборка из 292 потомков и два родителя популяции BT были генотипированы с помощью DArTSeq ™ в Австралии в рамках сотрудничества между платформой Integrated Genotyping Service and Support (IGSS) в центре Biosciences в Восточной и Центральной Африке (BecA) в Найроби, Кения и DArT. 380 генотипов популяции TON (картофель) были генотипированы GBS в Корнельском университете.

DArTSeq ™ для Sweetpotato

DArTseq ™ представляет собой комбинацию методов снижения сложности DArT и платформ секвенирования нового поколения (Kilian et al.2012; Куртуа и др. 2013; Raman et al. 2014; Cruz et al. 2013). Таким образом, DArTseq ™ представляет собой новую реализацию представлений с уменьшенной сложностью секвенирования (Altshuler et al. 2000) и более поздние применения этой концепции на платформах секвенирования следующего поколения (Baird et al. 2008; Elshire et al. 2011). Подобно предыдущим методам DArT, основанным на гибридизации массивов, технология оптимизирована для каждого организма и приложения путем выбора наиболее подходящего метода снижения сложности (как размера представления, так и доли генома, выбранной для анализов).Четыре метода снижения сложности были протестированы на сладком картофеле (данные не представлены), и был выбран метод PstI — MseI . Образцы ДНК обрабатывали в реакциях переваривания / лигирования в основном в соответствии с Kilian et al. (2012), но с заменой одного адаптера, совместимого с PstI , двумя разными адаптерами, соответствующими двум разным выступам рестрикционного фермента (RE). Адаптер, совместимый с PstI , был разработан для включения последовательности присоединения проточной клетки Illumina, последовательности праймера и «ступенчатой» области штрих-кода переменной длины, аналогичной последовательности, описанной Elshire et al.(2011). Этот обратный адаптер содержал область прикрепления проточной кюветы и выступающую последовательность, совместимую с MseI . Только «смешанные фрагменты» ( PstI — MseI ) были эффективно амплифицированы в 30 раундах ПЦР с использованием следующих условий реакции: (i) 94 ° C в течение 1 минуты, (ii) 30 циклов: 94 ° C в течение 20 минут. с, 58 ° C в течение 30 секунд, 72 ° C в течение 45 секунд и (iii) 72 ° C в течение 7 минут. После ПЦР эквимолярные количества продуктов амплификации из каждого образца 96-луночного микротитровального планшета собирали и применяли в мостовой ПЦР c-Bot (Illumina) с последующим секвенированием на Illumina Hiseq 2000.Секвенирование (однократное считывание) было выполнено в течение 77 циклов. Последовательности, созданные для каждой дорожки, обрабатывались с использованием запатентованных аналитических конвейеров DArT. В первичном конвейере файлы FastQ сначала обрабатывались, чтобы отфильтровать некачественные последовательности, применяя более строгие критерии выбора к области штрих-кода по сравнению с остальной частью последовательности. Это было сделано для обеспечения надежности присвоения последовательностей конкретным образцам, переносимым на этапе «разделения штрих-кода». Приблизительно 2 000 000 последовательностей на штрих-код / образец были идентифицированы и использованы для вызова маркеров.Наконец, идентичные последовательности были свернуты в «файлы fastqcoll». Файлы fastqcoll были «обработаны» с использованием собственного алгоритма DArT PL, который исправляет низкокачественную базу из одноэлементного тега в правильную базу с использованием свернутых тегов с несколькими элементами в качестве шаблона. «Подготовленные» файлы fastqcoll использовались во вторичном конвейере для проприетарных алгоритмов вызова SNP DArT PL и SilicoDArT (наличие / отсутствие ограничивающих фрагментов в представлении) (DArTsoft14). Для вызова SNP все теги из всех библиотек, включенных в анализ DArTsoft14, были кластеризованы с использованием алгоритма DArT PL C ++ на пороговом расстоянии 3 с последующим анализом кластеров на отдельные локусы SNP с использованием ряда технических параметров, особенно баланса счетчиков чтения для аллельных пар.К алгоритму были добавлены дополнительные критерии отбора на основе анализа примерно 1000 контролируемых перекрестных популяций. Тестирование ряда параметров подсчета тегов облегчило выбор истинных аллельных вариантов из паралогичных последовательностей. Кроме того, несколько образцов были обработаны от ДНК до аллельных вызовов в качестве технических реплик, и согласованность оценок использовалась в качестве основных критериев отбора для маркеров высокого качества / низкой частоты ошибок. Качество вызова обеспечивалось высокой средней глубиной чтения на локус (> 30X).SNP были закодированы как 0 = AA, 1 = BB, 2 = AB и «-» = отсутствует. Последовательности не были сопоставлены с эталонным геномом, потому что ко времени генотипирования диплоидные ссылки (Wu et al. 2018) не были опубликованы.

GBSpoly — это оптимизированный протокол для гексаплоидного сладкого картофеля, разработанный в NCSU в рамках проекта, направленного на разработку геномных инструментов для улучшения сладкого картофеля. ДНК проверяли на качество на 1% агарозном геле и количественно определяли на основе анализа на основе флуоресценции PicoGreen, и концентрацию нормализовали до 50 нг / мкл.Первоначально было выполнено несколько попыток оптимизации пар рестрикционных ферментов (данные не показаны), и CviAII — TseI был выбран как лучшая комбинация для гексаплоидного сладкого картофеля. Следовательно, 1 мкг ДНК дважды расщепляли с использованием пяти единиц CviAII в течение трех часов при 25 ° C с последующим расщеплением TseI в течение еще трех часов при 65 ° C. Буфер CutSmart New England Biolabs (NEB) использовали для доведения общего объема до 30 мкл. Очистку расщепленных образцов проводили с использованием магнитных шариков AMPure XP от ThermoFisher ™ и количественно оценивали с помощью анализа PicoGreen.Штрих-коды были разработаны для учета ошибок замещения и удаления и имели буферную последовательность из 8 п.о., чтобы гарантировать, что штрих-код находится в пределах высококачественных областей вызова базовых данных при считывании последовательности. Дополнительные двойные переваривания объединенных образцов из 64 сплетений, стадии очистки и отбора по размеру проводили, как описано Wadl et al. (2018) перед выполнением одностороннего секвенирования 125 п.н. в общей сложности на 40 дорожках секвенирования (по 8 дорожек для каждой из 5 библиотек) платформы Illumina HiSeq 2500. Полученные файлы FastQ были сопоставлены с эталонными геномами двух диких родственников сладкого картофеля, Ipomoea trifida и Ipomoea triloba (Wu et al.2018), а вызов вариантов выполняется с помощью конвейера GBSapp, как описано Wadl et al. (2018). SNP были закодированы в соответствии с дозировкой альтернативного аллеля как 0 = AAAAAA, 1 = AAAAAB, 2 = AAAABB, 3 = AAABBB, 4 = AABBBB, 5 = ABBBBB, 6 = BBBBBB. Процесс вызова вариантов кратко описан в Интернет-ресурсе 2.

GBSCornell для картофеля

Панель TON с 380 генотипом была генотипирована Корнельским университетом с использованием GBS в 2015 году. ДНК была расщеплена рестрикционным ферментом EcoT221 и библиотеками 48-сплетений. были подготовлены к секвенированию с использованием индивидуальных протоколов GBS в Корнелле.Качество полученных файлов FastQ контролировалось, а вызов вариантов выполнялся с использованием опции GATK HaplotypeCaller (Poplin et al., 2017), отключением фильтра дублирования чтения (это рекомендуется для данных GBS) и использованием режима совместного генотипирования -ERC GVCF, как описано далее в Lindqvist-Kreuze et al. (2020). Считанные данные были сопоставлены с эталонным геномом картофеля, секвенированным из S. tuberosum группы Phureja, линия DM1-3 516 R44, удвоенный моноплоид (DM) через культивирование пыльников консорциумом по секвенированию генома картофеля (PGSC).Версия PGSC_DM_v4.03 эталонного генома использовалась при выравнивании. Штрих-коды были удалены с помощью стопок, а концы были обрезаны с помощью функции trim-galore с последующим сопоставлением с эталоном с помощью BWA. Результирующие файлы SAM обрабатывались с помощью samtools и вариантов, вызываемых с помощью вызывающего GATK Haplotype, нацеленного только на двуаллельные SNP. SNP были закодированы в соответствии с дозировкой альтернативного аллеля как 0 = AAAA, 1 = AAAB, 2 = AABB, 3 = ABBB и 4 = BBBB. Фильтрация SNP выполнялась с помощью bcftools, допускающей только те SNP с MAF ≥ 3%, частотой вызовов ≥ 70%, средним качеством генотипа (GQ) ≥ 30 и минимальной глубиной чтения (DP) ≥ 16 (Lindqvist-Kreuze et al.2020).

Хотя оценка частот аллелей в полиплоидах может столкнуться со многими проблемами, как объяснил De Silva et al. (2005), частоты аллелей для полиплоидных данных («GBSpoly» для сладкого картофеля и «GBSCornell» для картофеля) в текущем исследовании оценивались путем подсчета количества аллелей в каждом генотипе на основе дозировки, поскольку для обоих методов использовалось количественное генотипирование. .

Сравнение моделей для прогнозирования

Мы использовали пакет AGHmatrix (Amadeu et al.2016) для разработки G-матриц родства, разделяющих генетические вариации, на основе нескольких моделей действия генов. Для маркеров DArTSeq популяции BT (сладкий картофель), где у нас не было информации о дозировке, мы разработали аддитивную G-матрицу в соответствии с VanRaden (2008), называемую здесь Add_2x_DArTseq, и G-матрицу без аддитивных эффектов в соответствии с Vitezica et al. al. (2013), именуемое в данном документе NonAdd_2x_DArTSeq. Для данных GBSpoly (сладкий картофель) и TON популяции GBSCornell (картофель), где у нас была информация о дозировках, мы использовали три модели для разработки G-матриц: (i) моделирование только аддитивных эффектов, согласно VanRaden (2008), о которых здесь говорится как Add_6x_GBSpoly для сладкого картофеля и Add_4x_GBSCornell для картофеля, (ii) моделирующая добавка плюс неаддитивные эффекты, согласно Slater et al.(2016) здесь называется Add + Non_6x_GBSpoly для сладкого картофеля и Add + Non_4x_GBSCornell для картофеля и (iii) модель псевдодиплоидного эффекта согласно Slater et al. (2016), именуемое здесь Pseudo_2x_GBSpoly для сладкого картофеля и Pseudo_2x_GBSCornell. Псевдодиплоидизация сводит все классы дозировки между нулиплексом и гексаплексом (у сладкого картофеля), а также между нулиплексом и тетраплексом (у картофеля) в один гетерозиготный класс, при условии, что все гетерозиготы имеют равный эффект, который находится между обеими гомозиготами. .В случае картофеля матрица дизайна, кодирующая псевдодиплоид, аддитивный автотетраплоид и полный автотетраплоид, была описана Slater et al. (2016), а для сладкого картофеля показано в таблице 3. Во время разработки матрицы родства к данным генотипа применялись дополнительные фильтры, чтобы минимальная частота аллелей (MAF) ≥ 30% и частота повторений ≥ 90%. Мы использовали геномное наилучшее линейное несмещенное предсказание (G-BLUP; Clark and van der Werf, 2013), чтобы сравнить прогностическую способность (PA) пяти моделей сладкого картофеля и трех моделей картофеля с использованием матриц родства в качестве матриц дисперсии-ковариации, чтобы соответствовать сжатая линейная смешанная модель (Zhang et al.2010) и оценить геномные лучшие линейные несмещенные предикторы (G-BLUP). Программное обеспечение GAPIT (Lipka et al. 2012) использовалось в прогнозировании G-BLUP в соответствии со следующей общей моделью:

$$ y = 1_ {n} \ mu + Zu + e $$

(3)

, где y = вектор фенотипических данных, 1 _n — вектор единиц, μ = среднее значение популяции, Z = известная матрица дизайна для генотипов, u = случайная генетическая эффекты и ~ \ (N \ left ({0, \ sigma_ {a} ^ {2} K или \ sigma_ {a + na} ^ {2} K} \ right) \) с K = матрица родства, = аддитивная модель, na = неаддитивная модель, e = вектор остатков ~ \ (N \ left ({0, \ sigma_ {e} ^ {2} I} \ right) \).

Таблица 3 Предлагаемая матрица кодирования для автогексаплоидного сладкого картофеля, адаптированная из Slater et al. 2016

Перекрестная проверка была проведена путем случайного определения отсутствующих фенотипов у 20% населения, которые использовались в качестве набора для проверки. Мы использовали 1000 итераций (повторений) для оценки прогностической способности моделей, используя как простые / олигональные признаки (качественные признаки сладкого картофеля, признаки болезни у картофеля), так и сложные признаки (запасные корни или урожай клубней и признаки компонентов урожая в обоих), так как определено в таблице 1.

PA была рассчитана как корреляция Пирсона между наблюдаемыми BLUP и оценочными значениями селекции генома (GEBV). Различия в PA между моделями по признаку были протестированы с использованием простого одностороннего дисперсионного анализа с моделями в качестве фактора. Коэффициенты корреляции на репликацию были преобразованы по Z Фишера, и средние значения сравнивали по этим значениям Z с использованием одностороннего дисперсионного анализа с моделями в качестве фактора. {2}} \ right)}} $$

(4)

Кроме того, мы рассчитали предполагаемую скорость генетического выигрыша от геномной селекции для каждой аддитивной модели с дозировкой или без нее для каждого признака в соответствии с Oliveira et al.(2019) как:

$$ \ Delta GG = \ frac {{\ left ({i * \ sigma_ {a} * PA} \ right)}} {L} $$

(5)

где \ (\ Delta GG = \) коэффициент генетического прироста, \ (i = \) интенсивность отбора, \ (\ sigma_ {a} = \) квадратный корень из аддитивной генетической изменчивости, \ (PA = \) предсказательная способность и \ (L = \) продолжительность цикла разведения, предполагая, что L = 5 для сладкого картофеля в соответствии с применяемой в настоящее время ускоренной схемой разведения (Mwanga et al.2017), и L = 8 для картофеля.

Сколько маркеров подходит для предсказания?

Для популяции сладкого картофеля F ₁ мы использовали исходные данные GBSpoly, используя разные критерии фильтрации, чтобы получить разное количество маркеров. Мы использовали три критерия (i) общее количество SNP, отфильтрованных при 10% MAF и ≥ 90% скорости вызова, (ii) общее количество SNP, отфильтрованных при 30% MAF и ≥ 90% скорости вызова (используется в приведенном выше анализе) и ( iii) случайная выборка из 15 000 SNP из общего числа SNP, отфильтрованная при 30% MAF и ≥ 90% скорости вызова.В картофеле общее количество SNP было отфильтровано с использованием двух критериев: (i) 30% MAF и ≥ 90% частота вызовов, (ii) 40% MAF и ≥ 90% частота вызовов. Прогнозы были выполнены для всех признаков, измеренных с использованием этих критериев. Чтобы отделить влияние частоты аллелей от влияния количества маркеров на PA, мы также использовали исходные данные GBSpoly по сладкому картофелю, отфильтрованные при постоянном MAF и случайным образом отобранные разное количество маркеров, которые мы использовали для сравнения PA в одном, связанном с качеством. простой признак (β-каротин; BC) и один сложный признак, связанный с урожайностью (общее количество корней хранения; RYTHA).Мы использовали 10, 000, 5000, 1000 и 500 SNP, все отфильтрованы до MAF ≥ 5%. Модель, учитывающая только аддитивные эффекты (Add_6x_GBSpoly), использовалась для сравнения влияния частоты аллелей и количества маркеров на сладкий картофель, в то время как все три модели были протестированы между двумя критериями фильтрации на картофеле.

Включение haplotypic-QTL в модели прогнозирования сладкого картофеля

Воспользовавшись полностью поэтапной интегрированной картой сцепления от BT (Mollinari et al. 2020), мы проверили прогностическую способность моделей, основанных на QTL.Для этого мы использовали ту же схему перекрестной проверки, что и выше, где 80%: 20% случайных выборок использовались в качестве обучающей и тестовой совокупностей, соответственно, повторенных 1000 раз. Чтобы обнаружить QTL, мы выполнили наше отображение множественных интервалов со случайным эффектом (REMIM) с использованием последовательного прямого поиска (Pereira et al.2020). Используя последовательный прямой поиск, мы использовали статистику оценок для проверки позиций на карте каждые 2 сантиметра (сМ) и добавили QTL к модели случайных эффектов, по одному QTL за раз, используя ослабленный порог уровня значимости для всего генома (α = 0.20). Размер окна 20 см был использован, чтобы избежать выбора другой позиции, очень близкой к QTL уже в модели. Для моделей G-BLUP реализованные матрицы родства были основаны на информации о гаплотипах от маркеров, расположенных каждые 2 сМ на генетической карте. Для QTL-BLUP (Q-BLUP) реализованные матрицы родства были основаны на гаплотипах из маркера QTL-пика; если было более одного QTL, их матрицы родства усреднялись; если не было QTL, мы получали прогноз, как в G-BLUP. Для моделей Q + G-BLUP были подобраны два термина, каждый с реализованными матрицами родства на основе маркеров пика QTL (как для Q-BLUP) и оставшихся маркеров в карте сцепления, за исключением тех, которые выбраны как QTL.

% PDF-1.4
%
247 0 объект
>
эндобдж

xref
247 118
0000000016 00000 н.
0000003285 00000 н.
0000003737 00000 н.
0000003771 00000 н.
0000003807 00000 н.
0000003963 00000 н.
0000004783 00000 н.
0000004975 00000 н.
0000005166 00000 н.
0000005357 00000 н.
0000005540 00000 н.
0000005716 00000 н.
0000005911 00000 н.
0000006087 00000 н.
0000006264 00000 н.
0000006440 00000 н.
0000006591 00000 н.
0000006719 00000 н.
0000006847 00000 н.
0000006974 00000 н.
0000007102 00000 п.
0000007228 00000 п.
0000007355 00000 н.
0000007483 00000 н.
0000007611 00000 п.
0000007736 00000 н.
0000007861 00000 п.
0000007988 00000 н.
0000008115 00000 п.
0000008242 00000 н.
0000008369 00000 н.
0000008496 00000 н.
0000008622 00000 н.
0000008750 00000 н.
0000008878 00000 н.
0000009005 00000 н.
0000009131 00000 п.
0000009259 00000 н.
0000009387 00000 н.
0000009514 00000 п.
0000009642 00000 н.
0000009770 00000 н.
0000009898 00000 н.
0000010025 00000 п.
0000010151 00000 п.
0000010277 00000 п.
0000010403 00000 п.
0000010555 00000 п.
0000010762 00000 п.
0000010983 00000 п.
0000011671 00000 п.
0000012108 00000 п.
0000012186 00000 п.
0000013027 00000 н.
0000013624 00000 п.
0000014022 00000 н.
0000014442 00000 п.
0000014813 00000 п.
0000015822 00000 п.
0000016923 00000 п.
0000017430 00000 п.
0000017847 00000 п.
0000018955 00000 п.
0000019327 00000 п.
0000020062 00000 н.
0000020618 00000 п.
0000020918 00000 п.
0000022095 00000 п.
0000023224 00000 п.
0000024275 00000 п.
0000025328 00000 п.
0000033020 00000 п.
0000036942 00000 п.
0000040179 00000 п.
0000044663 00000 п.
0000046545 00000 п.
0000046590 00000 п.
0000047076 00000 п.
0000047131 00000 п.
0000048574 00000 п.
0000048831 00000 н.
0000049132 00000 п.
0000107957 00000 н.
0000107996 00000 н.
0000149539 00000 н.
0000149578 00000 н.
0000149642 00000 н.
0000153964 00000 н.
0000155369 00000 н.
0000155632 00000 н.
0000158094 00000 н.
0000158388 00000 н.
0000161205 00000 н.
0000161543 00000 н.
0000220368 00000 н.
0000220407 00000 н.
0000269111 00000 п.
0000269150 00000 н.
0000269232 00000 н.
0000269313 00000 н.
0000269404 00000 н.
0000269462 00000 н.
0000269805 00000 н.
0000269907 00000 н.
0000270005 00000 н.
0000270126 00000 н.
0000270237 00000 н.
0000270407 00000 н.
0000270588 00000 н.
0000270751 00000 п.
0000270882 00000 н.
0000271005 00000 н.
0000271146 00000 н.
0000271279 00000 н.
0000271467 00000 н.
0000271663 00000 н.
0000271887 00000 н.
0000002656 00000 н.
трейлер
] >>
startxref
0
%% EOF

364 0 объект
> поток
xb«g`QD @ (mƌN8U
m7re󷷮0kķeSKrW> e ~ [nκ9GlzfͷM ػ 9 av {{sO / 6 ކ ظ l_vV`} @ ‘
tt42 ::: `V2JLJJ`
Pf ܀- TAT & NB 1 ©} K0cdC4aT> 2’30330612gfXbĴŝ’oW ܌ GDY3r?] HrXr0pg4

SR4R: Комплексный ресурс SNP для геномной селекции и популяционных исследований риса

https: // doi.org / 10.1016 / j.gpb.2020.03.002Получить права и контент

Реферат

Общая информация для риса (IC4R) база данных представляет собой набор из 18 миллионов однонуклеотидных полиморфизмов (SNP), идентифицированных повторным секвенированием 5152 образцов риса . Хотя IC4R предлагает карту вариаций риса сверхвысокой плотности, эти необработанные SNP не могут быть легко использованы для широкой публики. Чтобы удовлетворить потребности различных исследовательских целей в области популяционной генетики, эволюционного анализа, ассоциативных исследований и геномного разведения риса, необработанные генотипические данные этих 18 миллионов SNP были обработаны с помощью унифицированных конвейеров биоинформатики.Результаты были использованы для разработки дочерней базы данных IC4R — SnpReady for Rice (SR4R). SR4R представляет четыре эталонные панели SNP , включая 2 097 405 hapmapSNP после фильтрации данных и вменения генотипа, 156 502 tagSNP, выбранных из удаления избыточности на основе нарушения равновесия по сцеплению, 1180 фиксированных SNP, выбранных из генов, демонстрирующих селективные сигнатуры развертки, и 38 штрих-кодов SNP, выбранных из имитации ДНК. Таким образом, SR4R предлагает высокоэффективную карту вариаций риса, которая сочетает в себе уменьшенную избыточность SNP с обширными данными, описывающими генетическое разнообразие популяций риса.Кроме того, SR4R предоставляет исследователям риса веб-интерфейс, который позволяет им просматривать все четыре панели SNP, использовать онлайн-инструменты, а также извлекать исходные данные и сценарии для различных анализов популяционной генетики на локальных компьютерах.