vineri, 27 mai 2022

Modelare multi-scalară bazată pe agenți


·         Definire termeni

o   Scalar - mărime care are o valoare determinată printr-o unitate de măsură și printr-un număr real

>        Multi-scalar – mărimi caracterizate de unități de măsură diferite

o   Modelare bazată pe agenți - abordare bazată pe calculul consecințelor potențiale de la nivelul unui sistem pe baza analizei comportamentelor individuale aferente agenților ce intră în componența sistemului

·      Se folosește în prezent în încercarea de a realiza trecerea de la mecanisme intracelulare la fenotipuri întâlnite la nivelul țesuturilor.

o   are la bază un cadru de modelare celulară individuală – fiecare agent este guvernat de un set de reguli comportamentale care sunt influențate de mediu și de comportamentul celorlalți agenți

o   utilizată în o gamă largă de discipline – economie, inginerie, epidemiologie, transport urban, ecologie, biologie

o   Avantaje

§  Combină studiul comportamental al diverselor populații celulare care au influență directă asupra sistemelor celulare eterogene care stau la baza diverselor interacțiuni dintre celule

§  Granularitatea la nivel de celulă permite studierea variațiilor genotipice si fenotipice la nivelul unei singure celule

§  Pot include modele intracelulare care pot capta schimbările de la nivelul genelor

§  Descriu explicit mediul care poate avea o influență directă asupra experimentelor de laborator

o   Aplicații anterioare

§  Studierea presiunii selective a mediului asupra morfologiei tumorale

§  Celule migratoare și interacțiunea cu celulele macrofage în suprimarea răspunsului imunologic

§  Cum imunogenitatea (proprietatea de a conferi imunitate) permite celulelor tumorale periferice să scape atacului imunologic

§  Cum regimurile dinamice pot contracara rezistența celulelor tumorale la factorul tumoral de necroză (TNF)

§  Studii COVID-19

o   Tehnici de modelare

§  Bazate pe structuri (lattice-based)

·         Mediul este definit de o structură în baza căreia agenții vor fi constrânși

·         În funcție de rezoluția spațială, există următoarele subcategorii

o   Automate celulare – exista un agent în fiecare locație a structurii

o   Modele celulare cu recipiente (cellular potts) – un agent poate ocupa mai multe locații din cadrul structurii

o   Modele în care o locație din cadrul structurii poate fi ocupată de mai mulți agenți (ex. COMETS)

§  Modele fără structuri (lattice-free)

·         Mediul nu este definit de o structură

·         Principalele tipuri de modele

o   Axate pe granițele până la care se întind celulele – modele de tip Vertex

o   Axate pe volumul celular – modele bazate pe centru (CBM – centre-based models)

 

Bibliografie

o   Arnau Montagud, Miguel Ponce-de-Leon, Alfonso Valencia, Systems biology at the giga-scale: Large multiscale models of complex, heterogeneous multicellular systems  (https://www.sciencedirect.com/science/article/pii/S2452310021000792)

o   Letort G, Montagud A, Stoll G, Heiland R, Barillot E, Macklin P, Zinovyev A, Calzone L. PhysiBoSS: a multi-scale agent-based modelling framework integrating physical dimension and cell signalling. Bioinformatics (https://pubmed.ncbi.nlm.nih.gov/30169736/)


 

 

  

joi, 26 mai 2022

Predictia diabetului zaharat


                                                                                                          Flavia Costi

Diabetul zaharat este cea mai des întalnita boala a sistemului endocrin si se declanseaza atunci cand in organism, cantitatea de insulina secretata nu este cea optima sau când celulele periferice nu raspund la actiunea sa (insulina este un hormon care participa la micsorarea concentratiei glucozei din sange). Aceasta afectiune produce tulburari la nivelul intregului metabolism si, în timp, poate afecta functionarea diverselor organe din corp.


Datorita numarului mare de pacienti care sufera de diabet zaharat, predictia acestuia este un aspect important. Din acest motiv, aplicatia: XAI.Pro are ca scop predictia acestei boli. Aplicatia cuprinde un set de date, pe baza caruia se realizeaza analize si predictii.


Setul de date utilizat este: 

care cuprinde 8 caracteristici care determina aparitia diabetului zaharat si o caracteristica care prezinta daca un pacient sufera sau nu de diabet zaharat.


Pe baza acestor caracteristici, s-au facut diferite analize:

  • Analiza impactului fiecarei caracteristici asupra diabetului zaharat:
     
          * Se poate observa faptul ca valoarea glucozei este mult mai compacta si similara pentru pacientii care nu sufera de diabet zaharat, fata de cei diagnosticati cu aceasta boala. Cei care sufera de diabet zaharat au o valoare a glucozei din sange mult mai variata. In schimb, tot din figura putem sa observam din al doilea plot ca varsta celor care sufera de diabet zaharat este mult mai compacta, fata de a celor care nu sufera de aceasta boala.

  • Matricea de corelatie pentru caracteristicile din dataset

           * Din matricea de corelatie putem observa faptul ca numarul de sarcini depinde de varsta pacientelor, dar si ca insulina depinde de glucoza din sange. Aceste caracteristici sunt in stransa legatura. 

  • Matrice a valorilor caracteristicilor din setul de date, in functie de caracteristica: pacientul sufera sau nu de diabet zaharat
          * punctele de dispersie prezinta cat de compacte sunt valorile caracteristicilor si se poate observa ca exista cateva valori care nu sunt cuprinse in norul multimii de valori comune.


Finalizand cu analiza datelor, indreptandu-ne spre partea de predictie putem observa ca pentru realizarea acestora s-au utiliat 2 algoritmi importanti: PDP si SHAP. Astfel vom continua sa analizam predictiile realizate:

  • PDP
        * Am ales ca 50% din valorile din setul de date sa fie antrenate si am obtinut urmatoarea predictie pentru caracteristica glucoza:


          * Se poate observa faptul ca valorile glucozei se afla intr-o crestere ascendenta.

  • Predictia impactului a doua caracteristici
      * Pentru a ilustra impactul a doua caracteristici am ales sa prezint impactul caracteristicilor: Glucoza si Insulina, stiind de mai sus ca se afla in stransa legatura.
 
             * Din plot se poate observa ca predictia impactului celor doua caracteristici este una care demonstreaza ca exista multe valori care se intersecteaza.

  • Predictia diabetului zaharat folosid valorile SHAP
        




        * Putem sa observam faptul ca toate caracteristicile au un impact major asupra diagnosticului diabet zahart, dar totodata se identifica faptul ca BMI-ul este o caracteristica care ar putea sa lipseasca, acest lucru este datorat faptului ca acesta se obtine din valoarea masei corporale si a inaltimii. Persoanele au o valoare a BMI-ului destul de asemanatoare, astfel aceasta nu poate sa ajute foarte mult in predictia diabetului zaharat.


Astfel, concluzionand aceasta parte, observam ca diabetul zaharat este influentat de cele 8 caracteristici descrise mai sus si ca un pacient ar trebui sa tina cont de valorile acestora, in momentul diagnosticarii cu diabet zaharat.

Totodata exista o parte de predictie a diabetului zaharat in functie de anumite caracteristici, pe care pacientul, individual, le poate completa si poate identifica daca sufera sau nu de diabet zaharat.





         * Pentru predictia dorita, am primit rezultat negativ, ceea ce inseamna ca obezitatea si problemele cu vazul nu au determinat aparitia diabetului zaharat. Se poate observa faptul ca valoarea acuratetii si a predictiei este una mare, ceea ce inseamna ca predictia este una reusita. Pentru predictie s-au utilizat 5 modele de antrenare a setului de date: 
  1. Random Forest
  2. SVC
  3. Logistic Regression
  4. Naive Bayes
  5. K-Neighbors

In concluzie, predictia diabetului zaharat, care este o boala care impacteaza tot mai multe persoane, este una foarte eficienta si de dorit, pentru ca pacientul sa stie din timp daca sufera sau nu de aceasta boala. Caracteristicile evidentiate mai sus au un impact major asura aparitiei diabetului zaharat.



Bibliografie:

Site-ul: XAI.Pro, si resursele biografice din aplicatie

Prezicerea aspectului uman

 

ADN-ul este una dintre principalele molecule organice ale vieții. Informația care este codificată în structura sa controlează dezvoltarea unui organism de la geneza până la moarte.

Multe tehnologii au fost dezvoltate de la determinarea structurii de dublu helix a ADN-ului în anii 1950, ceea ce a adus beneficii societății noastre. Una dintre tehnologiile cele mai recente apărute în domeniu este fenotiparea ADN-ului, care se dovedește a fi o tehnică și un subiect revoluționar, deși controversat. Potrivit Parabon-Nanolabs cu sediul în Virginia, prin determinarea modului în care informațiile genetice se traduc în aspectul fizic, este posibil ca prin “inginerie inversa” sa decriptam ADN  într-un profil fizic.

Fenotiparea ADN-ului este știința de a prezice caracteristicile fizice sau biochimice observabile ale unui organism (fenotip) prin utilizarea numai a informațiilor genetice din secvențierea sau genotiparea ADN-ului. Un alt termen folosit frecvent pentru fenotiparea ADN-ului este fotofitting molecular. Tehnica este folosită în principal pentru a prezice aspectul fizic și/sau ascendența unei persoane în scopuri criminalistice.

 În prezent, trăsăturile de pigmentare specifice grupului sunt deja previzibile din ADN cu acuratețe destul de ridicată, în timp ce alte câteva caracteristici vizibile extern sunt în curs de investigare genetică. Până când aspectul specific individual devine previzibil cu acuratețe din ADN, profilarea ADN convențională trebuie efectuată ulterior predicției ADN-ului aspectului.

În ultimii patru ani, folosind exploatarea profundă a datelor și algoritmi avansați de învățare automată in direcția  bioinformaticii specializate, Parabon – cu sprijin financiar din partea Departamentului de Apărare al SUA – a dezvoltat Sistemul de fenotipizare a ADN-ului criminalistic Snapshot, care prezice ascendența genetică, culoarea ochilor, părul, culoarea pielii, pistruii și forma feței la indivizi din orice origine etnică.

În ciuda unei astfel de descoperiri, culorile intermediare ale ochilor sunt încă o problemă, necesitând cercetări suplimentare pentru a identifica noi variante genetice, deoarece acuratețea predicțiilor lor este încă mult mai mică în comparație cu ochii albaștri și căprui. Chiar dacă există dificultăți în a prezice aceste culori intermediare, un studiu realizat de Pośpiech și colab. a demonstrat interacțiunea genă-genă între trei dintre principalele gene de pigmentare (HERC2, OCA2 și TYRP1) legate de culoarea ochilor verzi, ajutând astfel la elaborarea viitoarelor modele de predicție. .

De asemenea, modelele actuale de predicție a părului se confruntă cu o provocare: predicția precisă a culorilor părului de la indivizii care au suferit modificări ale culorii părului de-a lungul vieții (de exemplu, părul mai închis la culoare după copilărie). Majoritatea studiilor nu iau în considerare prelevarea de probe de indivizi mai tineri și nu pun întrebări pe subiecții adulți despre fenotipuri distincte în copilăria timpurie. Prin urmare, modelele de predicție sunt elaborate doar cu informații fenotipice observate la adulți, fără a lua în considerare markerii informativi pentru fenotipurile dependente de vârstă, explicând parțial valoarea mai scăzută a acurateții pentru părul blond. Deoarece unele trăsături sunt parțial determinate de factorii de mediu și nu numai de ADN, predicțiile de trăsături Snapshot sunt prezentate cu o măsură corespunzătoare de încredere, care reflectă gradul în care astfel de factori influențează fiecare trăsătură particulară.

 

Aspecte juridice și etice

Având în vedere diversele probleme juridice legate de colectarea probelor de la suspecți pentru comparație, un avantaj al abordării fenotipării ADN-ului este că se concentrează mai mult pe obținerea de profile genetice din probele de la locul crimei, astfel încât să nu prejudicieze demnitatea sau drepturile de integritate.  Cu toate acestea, toate acele persoane care împărtășesc caracteristicile unui compozit facial pot fi intervievate și li se poate cere să doneze mostre pentru comparare cu eșantionul de infracțiuni în cauză. În aceste cazuri, este necesar să se ridice întrebări despre hărțuirea pe care le-ar putea suferi anumite grupuri cu o caracteristică fizică determinată din momentul în care se obține un fenotip din probe. Trebuie să ne întrebăm dacă astfel de persoane vor primi vreo protecție, deoarece acum vor aparține unui grup de suspecți doar prin aspectul lor fizic. Prin urmare, trebuie să ne întrebăm dacă siguranța unor astfel de grupuri este păstrată în detrimentul investigațiilor și obiectivelor de siguranță publică și dacă ar trebui create noi reglementări legale și etice pentru a păstra integritatea și intimitatea persoanelor implicate în investigațiile bazate pe fenotiparea ADN-ului. De asemenea, trebuie atrasă atenția asupra folosirii unor markeri neutri în raport cu ascendența, deoarece informațiile din unele AIM-uri pot fi asociate în mod eronat cu anumite fenotipuri, ducând la persecuție etnică.


Așadar, 

    În mod remarcabil, fenotiparea ADN-ului in scopuri criminalistice arată foarte promițătoare, aceasta ducand la grup (mult) mai mic de potențiali suspecți, care se potrivesc cu caracteristicile aspectului ADN-ului prezis din urmele de la scena crimei sau din rămășițele persoanei decedate. Cu condiția să fie disponibilă o finanțare suficientă, cercetările viitoare pentru a înțelege mai bine baza genetică a aspectului uman vor duce, de așteptat, la o descriere substanțial mai detaliată a aspectului unei persoane necunoscute din ADN, oferind o valoare sporită pentru investigațiile poliției în cazurile penale și de persoane dispărute care implică necunoscute.

    Cu toate cercetările făcute în fenotiparea genetică, se poate afirma că obținerea unui set de markeri genetici care prezic cu exactitate majoritatea trăsaturilor de bază umane pentru uz criminalistic este mai aproape ca niciodată, iar un „compozit facial ADN” complet este deja la îndemână pentru criminalistică. Mai trebuie efectuate cercetări pentru a confirma datele obținute în diverse populații globale și pentru a verifica dacă niciuna dintre asocierile găsite nu se datorează strămoșilor sau altor fonduri populaționale, pe lângă descoperirea de noi asociații de caracteristici fizice. Cu toate acestea, în ciuda numeroaselor probleme etice și juridice care încă pătrund în acest subiect, acuratețea statistică ridicată a majorității acestor studii le face viabile pentru utilizare practică în rutina criminalistică.



Surse:




luni, 23 mai 2022

Tehnologia CRISPR

Ce este CRISPR?

    Tehnologia CRISPR este un instrument simplu dar puternic pentru editarea genomului, permițându-le cercetătorilor să modifice cu ușurință secvențele ADN și funcția genelor. 
    Acest proces de editare are o mare varietate de aplicații, inclusiv în cercetarea biologică de bază, corectarea defectelor genetice, precum și tratarea și prevenirea răspândirii unor boli.
    CRISPR (clustered regularly interspaced short palindromic repeats, RO: grupuri de repetări scurte palindromice interspațiate sistematic) este o familie de secvențe de ADN găsite în genomul organismelor procariote, cum ar fi din bacteriile și archaea.


Începuturi

    CRISPR-urile au fost identificate pentru prima dată în E. coli în 1987 de către un om de știință japonez însă, din cauza lipsei de date de secvență ADN, funcția acestor entități a rămas un mister.
    La începutul anilor 2000, se credea că acestea sunt un mecanism nou de reparare a ADN-ului. 
    Horvath și colegii săi au arătat cu ajutorului experimentelor asupra Streptococcus thermophilus că sistemele CRISPR sunt într-adevăr un sistem imunitar adaptativ: ele integrează ADN-ul atacantului nou în matricea CRISPR, ceea ce le permite să lupte împotriva următorului val de bacteriofag. 
    Mai tarziu, într-o lucrare de referință din 2012 în Science1, Emmanuelle Charpentier si Jennifer Doudna au izolat componentele sistemului CRISPR-Cas9, le-a adaptat pentru a funcționa în eprubetă și a arătat că sistemul ar putea fi programat pentru a tăia fragmente specifice în ADN izolat.
    După ani întregi de cercetări și speculații, duo-ul a câștigat Premiul Nobel pentru Chimie in anul 2020 pentru contribuția lor la descoperirea tehnologiei CRISPR.

Mediu vast de aplicabilitate


    Ca orice alt lucru, CRISPR are atât părți bune, cât și părți rele.
    Specialiștii, precum. Sam Stanberg (lider al grupului de dezvoltare tehnologică la Caribou Biosciences din California) consideră ca ritmul cercetarii a explodat datorită CRISPR care are un mediu vast de aplicabilitate pe diferite ramuri ale vieții moderne.
    Ca urmare, câteva dintre cele mai importante descoperiri din ultimul timp sunt: 
        - În primul rand, în 2017 o echipă de cercetatori a reușit să programeze o moleculă CRISPR pentru a găsi tulpini de virusuri precum zika, atât în sânge cât și în urină și salivă.
        - Mai târziu în același an, oameni de știință au reușit să elimine un defect de boală cardiacă la un embrion.
        - În 2018 se anunță că este posibilă oprirea răspândirii ciupercilor și problemelor care amenință producția de ciocolata, folosind CRISPR pentru a crește rezistența plantelor.

    Totuși, nu putem exclude aplicabilitatea acestei tehnologii la oameni. 
    Aici părerile sunt împărțite în legătură cu caracterul inocent sau mai puțin inocent al aplicării acestei tehnologii asupra genomului uman.
   Conform unui sondaj din Marea Britanie realizat de Royal Society, când participanții au fost întrebați dacă ar fi în favoarea editării genomului pentru a trata sau preveni o boala incurabilă, 83% au acordat un răspuns pozitiv.
    Numerele scad drastic la mai puțin de jumătate din procentaj atunci când același grup este întrebat dacă ar fi de acord cu manipularea genelor în vederea schimbării nivelului inteligenței sau schimbarea culorii ochilor unui copil.

Designer babies


    Dr Jiankui He a efectuat un experiment s-ar putea zice misterios, fiind prima cercetare oficiala cu privire la modificarea genelor la nivel embrionar. 
    Marea majoritate a echipei cercetătorilor care au participat la experiement este ținută în secret chiar și în ziua de astăzi, precum multe alte dintre caracterele acestei inovații în domeniul geneticii.
    Se pare ca in cadrul conferinței anuale de modificare a genomului uman de la Hong Kong din 2018, Dr. He a anuntat cu mândrie nașterea unei perechi de gemeni, sub pseudonimele Lulu și Nana. Medicul susține că a intenționat crearea unor embrioni imuni la majoritatea tulpinilor de HIV.
    Acesta a recrutat în faza ințială 8 cupluri (păstrate sub anonimat), în care cel puțin unul dintre părinți era infectat cu HIV. Dr. He a avut în vedere sa coopteze cupluri din mediul rural care să nu aibă un nivel ridicat de accesibilitate la informații, profitând de acest lucru atunci cand le-a spus acestor cupluri,  că acest experiment este unica modalitate prin care aceștia pot evita transmiterea HIV la urmași. 
    Totuși, încă nu este clar daca scopul inițial al experimentului a fost atins sau nu deoarece mutația la gena țintă CCR5 nu a prezentat caracteristicile țintă. Specialiștii spun că modificarile asupra acestei gene (fie reușite sau nereușite) nu atestă neapărat că mutația a funcționat. Există multe alte gene care determină alte tulpini de HIV dar în acelasi timp există și posibilitatea ca gemenele să nu fie expuse la acest virus nici măcar o dată pe parcursul vieții. 

Urmări

    Așa cum orice lucru are urmări, acțiunile doctorului în cauză au fost considerate imorale, determinându-l pe acesta să primească o pedeapsă de 3 ani în spatele gratiilor și o amendă de aproape 2 milioane de RON. 
    De asemenea, ministerul sănătății a interzis cercetătorilor să lucreze din nou cu tehnologia de reproducere umană, iar ministerul științei le-a interzis să solicite finanțare pentru cercetare.
    Cu toate astea, un om de știință rus spune că intenționează să producă copii editati genetic, fapt care l-ar determina să fie doar a doua persoană cunoscută care a făcut acest lucru. 
    La fel de bine, un grup de oameni de știință a înviat acum doi ani un virus numit varicela. Aceștia au fost criticați de alții pe baza faptului că lucrarea va facilita recreerea de către alții a virusului înrudit și semnificativ mai periculos, variola.




BIBLIOGRAFIE




    


vineri, 20 mai 2022

 

Aplicabilitatea pachetului pyGeno în domeniul medicinei personalizate

 

În ultimii ani, cercetătorilor din domeniul medicinei personalizate tot mai mult le captează atenția INDEL-urile (inserțiile/delețiile) și SNP-urile (single nucleotide polymorphisms). INDEL-urile constau în inserția și/sau deleția nucleotidelor în/din ADN-ul genomic și includ evenimente cu lungimea mai mică de 1 kb. SNP-urile reprezintă variații ale perechilor de baze în locații specifice ale genomului. Prezența lor uneori poate fi corelată cu apariția unei boli sau poate furniza informații legate de răspunsul pacientului la un anumit tratament. Pentru a studia influența acestor mutații, un pas important constituie identificarea lor. Astfel, Tariq Daouda, de la Institute for Research in Immunology and Cancer (IRIC), a dezvoltat pachetul pyGeno. Acest pachet permite utilizatorilor studierea genoamelor și proteoamelor, prin integrarea secvențelor de referință din Ensembl, SNP-urilor din dbSNP și datele obținute prin folosirea tehnicilor de secvențiere de nouă generație. Astfel, el poate fi folosit pentru obținerea genoamelor personalizate.

Fiind destinat utilizării de către cercetători din diferite domenii, acest instrument a fost conceput astfel încât să asigure o performanță mare și în același timp să poată fi ușor integrat în scripturi. Pentru a folosi pachetul pyGeno este nevoie de Python 2.5 sau o versiune mai nouă. După tastarea comenzii pip install pyGeno și introducerea genomului de referință, pachetul este pregătit pentru utilizare.

 Până acum, acest pachet a fost folosit pentru a analiza genomul uman și al șoarecelui, dar producătorii estimează că ar putea să lucreze destul de bine pentru orice organism diploid pentru care există date în Ensembl.




 

      BIBLIOGRAFIE:

Daouda T, Perreault C and Lemieux S. pyGeno: A Python package for precision medicine and proteogenomics [version 2; peer review: 1 approved, 2 approved with reservations]. F1000Research 2016, 5:381 (https://doi.org/10.12688/f1000research.8251.2)

https://pygeno.iric.ca/

 

joi, 19 mai 2022

                            A Predictive Model of Nephrolithiasis in Primary Hyperparathyroidism

                                                                                                    ANA-SILVIA CORLAN


                          Expected complications of symptomatic primary hyperparathyroidism are:kidney stones, and their complications - infections, hydronephrosis, kidney failure. But the screening of asymptomatic primary hyperparathyroidism revealed, that a consistent proportion of patients suffer from hypercalciuria, asymptomatic renal microlithiasis and a mild decrease in kidney function.

 Our study has a retrospective design, consisting of 112 patients with a diagnosis of primary hyperparathyroidism; criteria of inclusion were normal or high serum calcium and increased parathormone (PTH) values. The diagnosis was confirmed through technetium sestamibi scan, cervical ultrasound and/ro computer tomography.

The age distribution of patients in our study was:minimum age of 20 years, mean age of 58.29 years, maximum age of 81 years.


The total serum calcium level was characterized by a mean of 10.66 mg/dl and a maximum level of 15.90 mg/dl:

The PTH values  had a minimum value of 56.4 pg/ml, with a mean of 306.7 pg/ml and a maximum value of 6000 pg/ml.


The vitamin D levels had a minimum of 4.92 ng/ml, a mean value of 20.35 ng/ml and a maximum level of 50.60 ng/ml.




The comorbidities of patients were:

 - arterial hypertension - The majority of patients had no hypertension:

-the estimated glomerular filtration rate had the following distribution:

  Minimum value of 16 mlo/min, mean value of 83.63 ml/min and a maximum value of 139 ml/min:



The abdominal ultrasound identified 63.41% patients without nephrolithiasis, 21.42% with renal microlithiasis, 12.5% with renal lithiasis, 2.67% patients with nephrocalcinosis with lithiasis:


Correlation of total serum calcium with nephrolithiasis:


Correlation of calciuria/24 hours with nephrolithiasis:

Correlation of PTH with nephrolithiasis:


The multinomial logistic regression model :

     - outcome - lithiasis category

    - predictors - total serum calcium, calciuria/24 hour, PTH level, Vitamin D levels.




Drwabacks: our study included a limited number of patients. The aim is to gather a bigger cohort of patients, to validate our model and to establish a risk of nephrolithiasis in primary hyperparathyroidism.



Proiectul 2

SureTypeSCR: R package for rapid quality control and genotyping of SNP arrays from single cells

Ce este un SNP ARRAY?

SNP-single nucleotide polymorphism –o alterare sau polimorfism într-o singură bază

    Genomul nostru – alcătuit din 3.2 miliarde perechi de baze –aranjate în 23 de perechi de cromozomi

    În timpul replicării, polimeraza inseră nucleotide în lanțul ADN nou format – uneori poate încorpora nucleotide greșite, rezultă  modificări la nivelul unei singure baze

Cum funcționează un SNP-ARRAY?

v Se descriu 3 etape în cadrul snp microarray:

       1.imobilizarea oligonucleotidelor pe un cip

       2.Fragmentarea și etichetarea adn țintă

       3.hibridizarea

        Array cip- e o colecție de probe (sonde) microscopice de ADN ( oligonucleotide cu specificitate de secvență),atașate la o suprafață solidă, precum sticlă, plastic sau cip de silicon, care formează o matrice

       Cip-ul ADN = o bucată mică de sticlă de silicon (1cm3), la care un număr mare de probe monocatenare de ADN oligonucleotidice au fost legate chimic.

       Pentru realizarea tehnici de SNP array, se izolează ADN pur dintr-un eșantion

       ADN ul genomic e dificil de procesat; se instituie metode de digestie enzimatică sau metode fizice de fragmentare, rezultând fragmente mici de ADN genomic

       Utilizându-se amplificarea PCR – se amplifică fragmentele ADN

       Apoi se marchează fragmentele ADN cu markeri fluorescenți

       Odată ce ADN-ul e marcat, ADN-UL nemarcat se spală

       pe suprafaț solidă ( de sticlă) apare hibridizarea între probele oligonucleotidice și acidul nucleic din eșantion

       Se spală cu ajutorul unui buffer acidul nucleic nehibridizat

       Hibridizarea se va derula la 37 C pentru cel puțin 24 ore

       Un scanner microarray scanează întreaga suprafață , pentru a detecta hibridizarea – rezultatele vor fi analizate printr-un software

       La locul de hibridizare, fragmentele de acizi nucleici se leagă de probele oligonucleotidice doar în locuri perfect complementare. Odată ce are loc hibridizrea, o moleculă fluroscentă eliberează flurorescență

        Genotiparea celulelor unice – identificarea genomului, când materialul genetic este limitat, ca în testarea genetică preimplantațională a embrionilor pentru aneuploidie și boli monogenice

       Analiza celulelor unice- descoperirea heterogenității mutațiilor de novo și aberațiilor numărului de copii într-o populație (1,3)

       Genotiparea, utilizând tehnologia SNP-ARRAY – precizie înaltă, acoperire bună a SNPS, cost-eficientă în reconstrucția haplotipurilor, când se analizează o cantitate mare de ADN dintr-o populație de celule DAR:

GENOTIPAREA CELULELOR UNICE NECESITĂ WGA (AMPLIFICAREA ÎNTREGULUI GENOM) ÎNAINTE DE ANALIZĂ!

        WGA-este o etapă necesară a protocolului de lucru din cauza cantității insuficiente de ADN în celule unice (8 pg) pentru analiza SNP ARRAY ( care necesită >=100 ng) (4)

       WGA introduce 2 categorii de erori:

       1.ALLELE DROP OUT (ADO)  -când WGA nu amplifică una dintre alele,rezultă că  un genotip heterozigot AB este în mod eronat genotipat ca homozigot:AA sau BB.

         - ADO este frecvent întâlnit – afectează până la 30% din SNPS genotipate (5)

       2.allele drop in (ADI) – când genotipurile homozigote AA sau BB sunt eronat interpretate ca genotipuri heterozigote AB

         -  când semnalele florescente ale ambelor alele sunt suboptimale și un artefact al procedurii de normalizare (6)

         - mai rar întâlnit

       Există multiple utilități pentru a analiza zgomotul (NOISE) determinat de WGA  în datele de secvențiere, există, însă, puține căi experimentale pentru a îndepărta zgomotul în datele SNP ARRAY:

    - creșterea scorurilor de genotipare, bazate pe algoritmii standard dezvoltați pentru ADN-ul  disponibil în cantități mari (7)

    -  utilizarea de informații provenite de la părinți, pentru a exclude variante eronate (8)

§  Autorii au dezvoltat un algoritm de MACHINE LEARNING –SURETYPESC- care e antrenat pe 28 milioane de SNPS de la 104 de celule unice, care ameliorează evocarea și precizia datelor provenind din celule unice

        Principiul genotipării SNP array, Illumina : măsurarea raportului de alele, reprezentate de intensitățiile de canal roșu și verde pentru fiecare alelă ( A și B)

       Intensitățile sunt stocate în fișiere IDAT – apoi sunt normalizate, utilizând transformări afine de 6 grade, și în fișiere GTC(fișier specific pentru Illumina, conținând genotipuri în format AA/BB/AB (9)

       Software-ul dezvoltat de Illumina-GENOMESTUDIO- tool standard pentru analiza și evaluarea calității genotipurilor și e compatibil cu fișiere IDAT ȘI GTC.

       Incluzând Genomestudio într-un pipeline cu eșantioane mari poate fi nepractic, pentru că procesul de încărcare al datelor trebuie verificat manual

       tool-uri pentru conversia automată a datelor din fișiere IDAT la GTC includ: AutoCall (pentru Windows) și IAAP genotyping CLI (pentru platforme multiple), ambele dezvoltate de Illumina

       Există un tool pentru analiza IDAT- pachetul R ILLUMINAIO (10)

       Extracția automată de caracteristici din fișierul GTC poate fi făcut prin librăria Illumina ILLUMINABEADARRAY- care stochează caracteristicile în NUMPY ARRAY(11)

       Există tool-uri care convertesc direct formatul GTC la formatul mai uzitat VCF – de la Illumina sau disponibile în bioinformatică (GTC2VCF)

        Setul minim de date de input pentru încărcarea datelor de Illumina SNP ARRAY este format din:

     - FIȘIERUL MANIFEST- descrie markerii SNP utilizați în ARRAY

     - FIȘIERUL CLUSTER  - conține informații despre clusterele de genotipuri/per marker SNP, obținute din studii populaționale și utilizate pentru scoring în software-ul GENOMESTUDIO

     - SAMPLE SHEET – fișa eșantionului

     - UN SET DE FIȘIERE GTC – fiecare fișier GTC corespunde unei mostre analizate pe SNP ARRAY

        Nucleul pachetului este implementat într-o librărie Python și SURETYPESCR comunică cu această librărie, utilizând reticulate.

       SURETYPESCR utilizează librăria Python de la Illumina – illuminabeadarray- pentru a încărca fișierele GTC și apoi utlizează funcții din ecosistemul tidyverse (pachetele DPLYR ȘI MAGRITTR) pentru a implementa funcții pentru a evalua calitatea datelor

       Procesul de clasificarea a datelor atribuie un scor de calitate pentru fiecare genotip al unei celule unice

 

       Pentru a demonstra funcționalitatea SURETYPESCR, autorii au selectat 23 mostre de spermatozoizi, provenind de la 2 familii

       Mostrele au fost amplificate și procesate pe ILLUMINA HUMAN CYTOSNP ARRAY

       Pachetul de date R, conținând datele despre spermatozoizi pot fi downloadate de pe Github, utilizând Devtools.

       Funcția DATA(.) inițializează  metadatele, care stochează informații DESPRE FAMILIE și alte metadate, care pot fi utilizate în analiza și SAMPLESHEET, conținând calea la samplesheet-ul downloadat cu date.

       Fișierele Manifest și cluster fac parte din instalarea suretypescr.

       Funcția scbasic(.) încarcă datele într-un dataframe din R

       Sunt filtrate apoi SNPS, numite  intensity only SNPS – care sunt utilizate pentru a detecta variante ale numărului de copii, dar nu asigură informații despre genotipare

        Rezultatele indică un grad înalt de heterozigoție (rate AB), sugerând un grad înalt de adi, deoarece spermatozoizii sunt celule haploide și nu s-au raportat aneuploidii în eșantioane

 


     MA PLOT :  UN PLOT, CARE VIZUALIZEAZĂ DIFERENȚELE ÎNTRE MĂSURATORI COLECTATE ÎN 2 EȘANTIOANE, TRANSFORMÂND DATELE ÎN SCALE M(LOG RATIO) ȘI A (MEAN AVERAGE), APOI REPREZENTÂND GRAFIC ACESTE VALORI

       Utilizatorii pot alege ce caracteristici ( coloane in dataframe) să utilizeze pentru analiza PCA.

       Există opțiunea, dacă PCA să se efectueze per cromozom sau pe pe întregul data frame

       Analiza per cromozom poate evidenția cromozomi aneuploizi

       Analiza PCA pe întreg data frame poate valida înrudirea eșantioanelor – în figura 2B cele 23 de eșantioane sunt separate în 2 clustere, corespunzând la 2 familii, definite în metadate

        Transformarea intensităților într-o scală logaritmică minimalizează variabilitatea între SNPS și eșantioane și permite detectarea patternurilor de clustere de genotipuri

       Pentru a evaulua genotipurile celulelor unice utilizând algoritmul de clasificare al autorilor, aceștia au calculat diferența logaritmică și media logaritmică a intensităților ( M și A, figura 2C)

       Transformarea datelor presupune adăugarea a 4 coloane adiționale la data frame-ul original, 2 coloane pentru intensitățile brute și două coloane pentru intensitățile normalizate pentru canalele X și Y.Utilizatorul poate controla plot-ul, prin ajustarea fracției punctelor, ce urmează a fi vizualizate (dacă trebuie aplicată datelor transformate o splină de netezire și, dacă să se utilizeze intensități normalizate pentru plotare)

       Plotul ma în figura 2C arată un cluster heterozigor eronat, unde m este aproape de 0 și a este scăzut, care este determinat de ADI.6 

       Autorii au făcut ulterior clasificarea genotipurlor eșantioanelor, utilizând suretypesc.

        Primul strat din algoritmul de clasificare (Random Forest) este încărcat din fișier

       Modelul de clasificare este creat pentru eșantionul individual (group_by(.) și nest(.)), utlizând analiza de discriminare gaussiană, pentru a deduce parametrii modelului.6 

       Analiza de discriminare gaussiană este realizată per eșantion individual, și nu pe setul de date combinat, pentru a evita bias-ul in funcția de scor, din cauza unor outlieri potențiali în date.

       Primii 2 parametrii ai suretype_model(.)  sunt formali șu ultimul parametru definește clasificatorul(clf), ce va fi utilizat în primul strat.

       Dataframe-ul va conține o coloană adițională , ce conține scorul de clasificare SureTypeSC  (rfgda_score).

       Autorii aplică ulterior un prag (set_threshold(.)) și utlizează MA plot  din nou, pentru a observa cum SureTypeSC  a afectat calitatea datelor.

        FigurA 2D arată rezultatele pentru întregul set de date (utilizând stat_bin_2d(.)).

       spre deosebire de  Figura 2C, care conține datele înainte de SureTypeSC,clusterul hetrrozigot (m aproape de o 0 și a scăzut), cauzat de adi, este îndepărtat și datele sunt concentrate de-a lungul m = 4 și m = −4, reprezentând genotipurile homozigote aa și, respectiv, bb.

       autorii au determinat rate de apelare și procentul de snps heterozigote în date, ca o funcție a pragului utilizat, în ambele:SureTypeSC și Illumina's GenCall (coloanele rfgda_score și, respectiv, score în dataframe):

       FIGURA 2E CONFIRMĂ CĂ SURETYPESC ESTE MAI SPECIFIC SPRE ZGOMOT, PĂSTRÂND RATE DE APELARE MAI MARI, PE MĂSURĂ CE PRAGUL CREȘTE, COMPARATIV CU GENCALL

        SureTypeSCR  este un pachet r, care dorește a facilita analiza snp array pe celule unice

       algoritmul utilizat pentru clasificarea genotipului este inovativ în domeniul SNP ARRAY al celulelor unice.6

        autorii au demonstrat utilizarea tipică pe date din lumea reală (figura 2), cu exemple de cod, pentru a demonstra funcționalitatea pachetului

        SureTypeSCR oferă o metodă de genotipare a celulelor unice cu precizie bună, și cu un pachet r ușor de utilizat, facând această metodă potrvită pentru cercetare și aplicații clinice potențiale

 Bibliografie:

       1.Mallory XF, Edrisi M, Navin N, et al.: Methods for copy number aberration detection from single-cell DNA-sequencing data. Genome Biology. August 2020; 21(1): 208. 1474-760X. Publisher Full Text

       2. Keller A, Tilleman L, Dziedzicka D, et al.: Uncovering low-level mosaicism in human embryonic stem cells using high throughput single cell shallow sequencing. Scientific Reports. Number: 1 Publisher: Nature Publishing Group; October 2019; 9(1): 14844. 2045-2322. Publisher Full Text Reference Source

       3. Wang J, Christina Fan H, Behr B, et al.: Genome-wide Single-Cell Analysis of Recombination Activity and De Novo Mutation Rates in Human Sperm. Cell. Elsevier; July 2012; 150(2): 402–412. 0092-8674, 1097-4172. PubMed Abstract Publisher Full Text Free Full Text Reference Source

       4. Blanshard RC, Chen C, Xie XS, et al.: Chapter 20 - Single cell genomics to study DNA and chromosome changes in human gametes and embryos. In: Maiato H, Schuh M, editors, Methods in Cell Biology. January 2018; 144(Mitosis and Meiosis Part A): pages 441–457. Academic Press. Publisher Full Text Reference Source

       5. Hou Y, Wu K, Shi X, et al.: Comparison of variations detection between whole-genome amplification methods used in single-cell resequencing. GigaScience. August 2015; 4. 2047-217X. PubMed Abstract Publisher Full Text Free Full Text

       6. Vogel I, Blanshard RC, Hoffmann ER: SureTypeSC—a Random Forest and Gaussian mixture predictor of high confidence genotypes in single-cell data. Bioinformatics. December 2019; 35(23): 5055–5062. 1367-4803. PubMed Abstract Publisher Full Text

       7. Zamani Esteki M, Dimitriadou E, Mateiu L, et al.: Concurrent whole-genome haplotyping and copy-number profiling of single cells. Am J Hum Genet. June 2015; 96(6): 894–912. 1537-6605. PubMed Abstract Publisher Full Text Free Full Text

       8. Johnson DS, Gemelos G, Baner J, et al.: Preclinical validation of a microarray method for full molecular karyotyping of blastomeres in a 24-h protocol. Human Reprod (Oxford, England). April 2010; 25(4): 1066–1075. 1460-2350. PubMed Abstract Publisher Full Text Free Full Text

       9. Kermani BG: Artificial intelligence and global normalization methods for genotyping.December 2008. U.S. Patent No. 7, 035, 740. Washington, DC: U.S. Patent and Trademark Office. Reference Source

       10. Smith ML, Baggerly KA, Bengtsson H, et al.: illuminaio: An open source IDAT parsing tool for Illumina microarrays. F1000Res. December 2013; 2: 264. 2046-1402. PubMed Abstract Publisher Full Text Free Full Text Reference Source

       11. Van Der Walt S, Colbert SC, Varoquaux G: The NumPy array: a structure for efficient numerical computation. arXiv:1102.1523 [cs]. February 2011. arXiv: 1102.1523.Publisher Full Text Reference Source

       12. Wickham H, Averick M, Bryan J, et al.: Welcome to the Tidyverse. J Open Source Software. November 2019; 4(43): 1686. 2475-9066. Publisher Full Text Reference Source

       13. Illumina Inc.: Infinium Genotyping Data Analysis. 2014. Technical Note: Genotyping. Reference Source

       14. Gruhn JR, Zielinska AP, Shukla V, et al.: Chromosome errors in human eggs shape natural fertility over reproductive life span. Science. American Association for the Advancement of Science Section: Report; September 2019; 365(6460): 1466–1469. 0036-8075, 1095-9203. PubMed Abstract Publisher Full Text Free Full Text Reference Source

       15. Ottolini CS, Newnham L, Capalbo A, et al.: Genome-wide recombination and chromosome segregation in human oocytes and embryos reveal selection for maternal recombination rates. Nat Genet. July 2015; 47(7): 727–735. 1061-4036. PubMed Abstract Publisher Full Text Free Full Text

       16. Vogel I, Cai L: Meiomap/SureTypeSCR: SureTypeSCR_v0.99.0(VersionRpackage_Zenodo). Zenodo. 2021, June 16. Publisher Full Text

 

 




Bioinformatica și genetica criminalistică

                                                                                                                                      Zoltan...