Население-статистически метод за изучаване на генетиката: същност и значение

22.04.2019

През последните години беше представено много голямо разнообразие от статистически методологии на различни нива на сложност за анализиране на данни за генотипа и идентифициране на генетични вариации, които могат да бъдат отговорни за повишаване на податливостта към заболявания. Какъв е популационно-статистическият метод за изучаване на генетиката? Каква е нейната същност и значение в изучаването на наследствеността?

популационен статистически метод при изучаване на ролята на наследствеността

Тип на изчислителната биология

Статистическата генетика е научна област, свързана с развитието на популационно-статистически методи за получаване на генетични данни. Този термин се използва най-често в контекста. човешка генетика. Изследванията в тази област обикновено включват разработване на теория или методология за подпомагане на изследванията в една от трите взаимосвързани области:

  • популационна генетика - изследване на еволюционни процеси, които засягат генетичната променливост между организмите.
  • генетична епидемиология - изследване на влиянието на гените върху заболяването.
  • количествена генетика - изследване на влиянието на гените върху "нормалните" фенотипове.

Статистическата генетика има тенденция да работи в тясно сътрудничество с генетици, молекулярни биолози, клиницисти и биоинформатици. Статистическата генетика е вид компютърна биология.

статистически метод за изследване на човешката генетика

Предмет на изследване

Популационната генетика изследва генетичната структура на популациите и техния генофонд. Той също така обхваща въпроси, свързани с взаимодействието на фактори, които определят както постоянството, така и промяната в структурата на генома. Какво е населението? Това е колекция от индивиди от един и същи вид, които свободно се пресичат и заемат определена територия и имат общ генен басейн (генетичен фонд), преминаващ от поколение на поколение.

Популяционно-статистическият метод на генетиката се използва при изучаването на наследствени заболявания, редуването на нормалните и патологични гени, генотипи и фенотипове в популациите на различни населени места, страни и градове. Каква е нейната уникалност? Същността на популационно-статистическия метод е, че тя е насочена към изследване на моделите на разпространение на наследствени заболявания в популациите, различаващи се по тяхната структура. Изследваме възможността за предсказване на тяхното повторение в бъдещите поколения.

статистически метод на населението и неговото значение

Население-статистически метод и неговата стойност

Статистическият генетичен анализ на количествените черти в големите родословия е огромна изчислителна задача поради необходимостта да се вземе под внимание независимостта на роднините. С нарастващото осъзнаване, че варианти на редки последователности могат да бъдат важни в количествените човешки вариации, проучванията за наследствеността и асоциациите, включващи големи родословия, ще се увеличават честота поради по-голямата вероятност да се видят множество копия на редки варианти сред сродни индивиди.

Ето защо е важно да има статистически генетични тестови процедури, които да използват цялата налична информация за извличане на доказателства относно генетичната асоциация. Оптималното тестване на фенотипната асоциация е свързано с точно изчисляване на статистиката на съотношението на истината, което изисква реинверсия на потенциално големи матрици. В контекста на комбиниране на цялата геномна последователност, такова изчисление може да бъде неправилно.

статистически метод за изследване на човешката генетика

Статистически методи за генетичен анализ

Във връзка с напредъка в лабораторните технологии, популационно-статистическият метод и генетичните епидемиологични подходи към комплексните заболявания се променят бързо, за да се справят с огромните генетични данни. С промяната на лабораторните технологии стана възможно да се генерират по-пълни генетични данни от геномното генериране с данни за цялата геномна последователност.

Имаше проблеми с многобройните тестове и появата на редки генетични варианти, които бяха ограничени до традиционните статистически методи, което доведе до разработването на методи за рядък вариант на анализ. Текущите изследвания се фокусират не само върху анализа на отделните генетични варианти, но и върху анализа на няколко генетични варианта, особено при използване на мрежови методи.

същност на статистическия метод, базиран на населението

Бързото развитие на генетиката

Проучванията в областта на генетиката се развиха бързо, вариращи от проучвания на отделни области и завършващи с мащабни изследвания на генома. И въпреки че изследването на генетичните асоциации се провежда в продължение на много години, дори и за най-простите анализи има малък консенсус по най-подходящите статистически процедури.

Статистическата генетика е област на сближаване на генетиката и количествения анализ. През последните няколко години тя претърпява драматична промяна в парадигмата, от преобладаващо теоретична тема, в която емпиричните данни са малко дисциплинирани, където съществуването на големи хранилища на генетични данни позволява на изследователите да генерират и изследват нови научни хипотези.

Печеливша технология

С появата на сравнително рентабилна технология с висока производителност на генотипирането, сега е възможно да се изследва етиологията на сложните заболявания, биологичните процеси, чрез които се наследява ДНК и еволюционните истории на човешките популации. От медицинска гледна точка напредъкът при използването на популационно-статистическия метод при изучаването на ролята на наследствеността е в разработването и анализа на фармакогенетичните изследвания, т.е. проучвания, при които генетичната променливост корелира с реакцията към лекарствата.

Това в крайна сметка може да доведе до разработването на подход за „персонализирана медицина“ в здравеопазването. Разбира се, за всяка от тези области на изследване са необходими специализирани методи за извеждане и изчисляване. Този преглед на популационно-статистическите методи в генетиката е ограничен до картографиране на асоциации: мощна методология, за която се смята, че спомага за разбирането на генетичната основа на човешките заболявания и други интересни фенотипи.

Вместо да се опитва да подчертае методите за сравнение на асоциациите, експозицията се стеснява, като включва само подходи за анализ на данни за изследвания в случай на заболяване или за ситуации, в които са налице само болни хора. Целта на тази статия е да покани читателя на нетехническа обиколка на няколко избрани популационно-статистически генетични методи, които понастоящем се използват за картографиране на ген.

популационен статистически метод

Закон Харди-Вайнберг

Основният пример за популационно-статистически метод е законът Харди-Вайнберг. Тя се основава на модел, открит през 1908 г. от математик от Англия Дж. Харди и доктор В. Вайнберг от Германия, за да развият перфектно население. Затова законът е кръстен на двете имена. За да бъде населението идеално, са необходими следните условия:

  1. Организациите трябва да бъдат свободно пресичани.
  2. Няма селекционни и мутационни явления.
  3. Миграционните процеси, както външни, така и вътрешни, са ограничени.
  4. Доминантните хомозиготи, хетерозиготи и рецесивни хомозиготи се наследяват непроменени.

Перфектният баланс може да бъде разстроен от редица фактори, включително тясно свързани бракове, мутации, селекция, миграции и др. Законът Харди-Вайнберг се счита за основа за разглеждане на генетични трансформации, които се срещат в естествени и изкуствено създадени популации на растения, животни и хора.

Принципи на асоцииране

Отличителна черта на дизайна на случая-контрол е, че субектите, включени в пробата, се избират произволно от дадена популация в зависимост от състоянието на заболяването ретроспективно. Генетичните състави на индивидите, принадлежащи към двете групи, случаи и контроли, се сравняват с надеждата, че техните различия в някои тесни области на генома могат да служат като каузално обяснение за състоянието на болестта. Сред различните видове генетични маркери, полиморфизмите с единичен нуклеотид (SNPs) играят централна роля в картографирането на сложни заболявания. За целия човешки геном има поне 10 милиона SNPs с честота> 1%, за която се смята, че съставляват около 90% от генетичната вариация на човек.

Основната концепция при асоциирането е неравновесието на връзката между генетичния маркер и мястото, което влияе на изследваната характеристика. Той улавя отклонението от вероятностната независимост между алелите или генетичните маркери. Например, неравновесието на връзката между два алела, като А и В, може да бъде количествено определено чрез измерване на разликата между р АВ , вероятността за наблюдение на АВ хаплотип (т.е. линейното подреждане на два алела на една и съща хромозома, наследени като единична единица) и p A p B , където p A и p B са вероятностите за наблюдение съответно на А и В алели . Обаче, в повечето случаи, хаплотипите не са пряко достъпни и честотата им трябва да се определя от данните за генотипа.

Изходните методи, базирани на варианти на алгоритъма за минимизиране на очакванията, итеративна техника за получаване на оценки за максимална вероятност в модели на липсващи данни, са популярен избор за получаване на проби от хаплотипни честоти. Документирана е точността на алгоритъма за минимизиране на очакванията за оценяване на хаплотипни честоти за различни симулационни схеми, както функция на честотите на алелите, така и много други фактори. Последните разработки използват наблюдение, при което в кратките области хаплотипите в популацията са склонни да се групират в групи и това групиране има тенденция да варира по хромозомата.

Получените в резултат модели на генетични вариации могат да бъдат добре описани със скрити модели на Марков, а оценките на параметрите са направени с помощта на алгоритъм за извличане на хаплотипната фаза, както и липсващи данни за генотипа. Алтернативно, измерване на комбинирано генотипно неравновесие може да се изчисли директно от генотипни данни за билок, като се приеме случайно чифтосване, което съответства на гореспоменатия алелен меридиан. Редица други общи коефициенти и техните свойства са изследвани както аналитично, така и чрез моделиране.

Двойният метод при изследването на генома

Обхватът на населението - статистически и метод на сдвояване включват изучаването на модели на наследяване на знаци по двойки близнаци. Предложен от учен Халтън през 1875 г., този метод първоначално се използва за оценка на ролята на наследствеността и околната среда в развитието на човешките умствени свойства. Сега тя е широко използвана при изследването на наследствеността и променливостта на нормалните и патологични признаци. Той може да се използва за идентифициране на наследствения характер на дадена особеност, за определяне на проникването на алела и за оценка на външните фактори, влияещи върху тялото.

примери за статистически метод, базиран на населението

Същността на двойния метод:

  • При различните групи близнаци се сравнява същата черта, също се взема предвид сходството или разликата на техните генотипове.
  • При монозиготни близнаци съществува пълна генетична идентичност. Сравнението им в условия на различно постембрионално развитие дава възможност да се открият признаците, които се формират от външната среда.

Изследването на генома в популационно-статистически метод за изследване на човешката генетика позволява по-задълбочено търсене на генетични рискови фактори. В близко бъдеще тези проучвания ще бъдат по-евтини и следователно по-достъпни. От статистическа и изчислителна гледна точка, изследванията на генома като цяло предлагат нетривиални проблеми, свързани, наред с други неща, с много голям брой маркери, които трябва да бъдат включени в анализа, в сравнение с обикновено по-малките извадки.

статистически и двойствен метод

Разработване на нови аналитични методи

Въпросът, който предизвиква много дискусии и стимулира развитието на нови аналитични методи, е дали комплексните заболявания се причиняват от една обща опция или много варианти, които имат малки ефекти. Общата хипотеза за често срещано заболяване показва, че генетичният риск от често срещани заболявания често се причинява от алелите, причиняващи заболяването, които се откриват при относително високи честоти. Досега доказателствата в негова полза са ограничени.

Разумно е да се предположи, че общите заболявания се очаква да бъдат контролирани от по-сложни генетични механизми, характеризиращи се с комбинирано действие на няколко гена, като всеки ген има само малък маргинален ефект, вероятно защото естественият подбор премахва гените с по-големи ефекти. В този случай групите маркери трябва да бъдат тествани заедно за свързване, което може да бъде направено по два основни начина: групиране на маркери заедно в генотипове с няколко локуса, така че основната единица за статистически анализ да е все още индивидуална или чрез хаплотипове, като по този начин ефективно удвоява размера на пробата.

Общи методи за хаплотипове

Вместо да се изследва отделно всеки маркер, е възможно съвместно да се тестват специфични комбинации от алелни варианти в серия от тясно свързани маркери на една и съща хромозома, т.е. хаплотипи. Включително информация от няколко съседни маркера, хаплотипите запазват цялостната структура и по-пряко отразяват истинските полиморфизми.

Най-лесният начин да се провери дали има връзка между хаплотипа и състоянието на болестта е да се третира всеки хаплотип като отделна категория, възможно чрез комбиниране на всички редки хаплотипове в допълнителен клас. Този процес обикновено се извършва на два етапа: първо се оценяват честотите на хаплотипа, след което се изчислява стандартен тест за асоцииране, например съотношение на вероятност за статистика. За да се справи с раздутата статистика на теста, дължаща се на оценката на хаплотипа, разпределението на теста под нула може да се получи чрез случайно разбъркване на болестното състояние и след това повторно оценяване на честотите на хаплотиповете.

Въпреки че този подход позволява да се оцени цялостната връзка между хаплотипите и болестите, не се правят изводи за ефектите на специфични хаплотипове или хаплотипни характеристики. За да се решат тези проблеми, редица тестове на специфичните ефекти на хаплотипа се основават на оценката на вероятността от заболяване, при което състоянието на заболяването се разглежда като резултат и хаплотиповете въвеждат регресионен модел като ковариати. Субекти с неясни хаплотипове се поставят чрез изчисляване на очакваната стойност на ковариатите, дължаща се на генотипа на субекта, като се използват очакваните честоти на хаплотиповете.

статистически метод на генетиката, базиран на популацията

Население-статистически метод за изследване на човешката генетика

В човешките популации, формирани от сравнително скорошно смесване на определени групи предци, като афро-американците, капацитетът за пренос се простира на по-големи разстояния, отколкото в други, по-малко хетерогенни популации. За болести, които се различават по отношение на разпространението между две или повече популации на предците, тази широколентова честотна лента може да се използва за търсене на генетични варианти, отговорни за етническата разлика в риска от заболяване.

Основното е, че при смесените популации маркери с локус, отговорен за етническата разлика в риска от заболяване, ще имат по-голяма от очакваната пропорция на предците от високорисковата популация. Генетичното картографиране може да се извърши чрез търсене на тесни геномни региони, които показват прекомерни пропорции на родословия от една от съставните популации на предците в методология, наречена картографиране на примеси.

Членството на населението във всеки локус за всички субекти трябва да бъде статистически оценено от типичните маркери. Общоприетият вероятностен модел за описване на стохастичните вариации в родословието предполага, че хромозомите могат да бъдат представени от блокове с общо поколение, с точки на прекъсване между съседни блокове, възникващи като процес на Пуасон, и преходи между съседни блокове на предците, контролирани от веригата Марков. Според този модел са конструирани няколко метода на деривация, за да се оцени произхода на болните хромозоми и да се открият представените популации на предците.

Моделиращите изследвания и аналитичните изчисления показват, че сравнението на примесите има няколко предимства в сравнение с установените подходи към популационното картографиране, например, много по-малко маркери са необходими за търсене на целия геном и е по-малко податлив на влиянието на алелната хетерогенност.