joi, 19 mai 2022

                            A Predictive Model of Nephrolithiasis in Primary Hyperparathyroidism

                                                                                                    ANA-SILVIA CORLAN


                          Expected complications of symptomatic primary hyperparathyroidism are:kidney stones, and their complications - infections, hydronephrosis, kidney failure. But the screening of asymptomatic primary hyperparathyroidism revealed, that a consistent proportion of patients suffer from hypercalciuria, asymptomatic renal microlithiasis and a mild decrease in kidney function.

 Our study has a retrospective design, consisting of 112 patients with a diagnosis of primary hyperparathyroidism; criteria of inclusion were normal or high serum calcium and increased parathormone (PTH) values. The diagnosis was confirmed through technetium sestamibi scan, cervical ultrasound and/ro computer tomography.

The age distribution of patients in our study was:minimum age of 20 years, mean age of 58.29 years, maximum age of 81 years.


The total serum calcium level was characterized by a mean of 10.66 mg/dl and a maximum level of 15.90 mg/dl:

The PTH values  had a minimum value of 56.4 pg/ml, with a mean of 306.7 pg/ml and a maximum value of 6000 pg/ml.


The vitamin D levels had a minimum of 4.92 ng/ml, a mean value of 20.35 ng/ml and a maximum level of 50.60 ng/ml.




The comorbidities of patients were:

 - arterial hypertension - The majority of patients had no hypertension:

-the estimated glomerular filtration rate had the following distribution:

  Minimum value of 16 mlo/min, mean value of 83.63 ml/min and a maximum value of 139 ml/min:



The abdominal ultrasound identified 63.41% patients without nephrolithiasis, 21.42% with renal microlithiasis, 12.5% with renal lithiasis, 2.67% patients with nephrocalcinosis with lithiasis:


Correlation of total serum calcium with nephrolithiasis:


Correlation of calciuria/24 hours with nephrolithiasis:

Correlation of PTH with nephrolithiasis:


The multinomial logistic regression model :

     - outcome - lithiasis category

    - predictors - total serum calcium, calciuria/24 hour, PTH level, Vitamin D levels.




Drwabacks: our study included a limited number of patients. The aim is to gather a bigger cohort of patients, to validate our model and to establish a risk of nephrolithiasis in primary hyperparathyroidism.



Proiectul 2

SureTypeSCR: R package for rapid quality control and genotyping of SNP arrays from single cells

Ce este un SNP ARRAY?

SNP-single nucleotide polymorphism –o alterare sau polimorfism într-o singură bază

    Genomul nostru – alcătuit din 3.2 miliarde perechi de baze –aranjate în 23 de perechi de cromozomi

    În timpul replicării, polimeraza inseră nucleotide în lanțul ADN nou format – uneori poate încorpora nucleotide greșite, rezultă  modificări la nivelul unei singure baze

Cum funcționează un SNP-ARRAY?

v Se descriu 3 etape în cadrul snp microarray:

       1.imobilizarea oligonucleotidelor pe un cip

       2.Fragmentarea și etichetarea adn țintă

       3.hibridizarea

        Array cip- e o colecție de probe (sonde) microscopice de ADN ( oligonucleotide cu specificitate de secvență),atașate la o suprafață solidă, precum sticlă, plastic sau cip de silicon, care formează o matrice

       Cip-ul ADN = o bucată mică de sticlă de silicon (1cm3), la care un număr mare de probe monocatenare de ADN oligonucleotidice au fost legate chimic.

       Pentru realizarea tehnici de SNP array, se izolează ADN pur dintr-un eșantion

       ADN ul genomic e dificil de procesat; se instituie metode de digestie enzimatică sau metode fizice de fragmentare, rezultând fragmente mici de ADN genomic

       Utilizându-se amplificarea PCR – se amplifică fragmentele ADN

       Apoi se marchează fragmentele ADN cu markeri fluorescenți

       Odată ce ADN-ul e marcat, ADN-UL nemarcat se spală

       pe suprafaț solidă ( de sticlă) apare hibridizarea între probele oligonucleotidice și acidul nucleic din eșantion

       Se spală cu ajutorul unui buffer acidul nucleic nehibridizat

       Hibridizarea se va derula la 37 C pentru cel puțin 24 ore

       Un scanner microarray scanează întreaga suprafață , pentru a detecta hibridizarea – rezultatele vor fi analizate printr-un software

       La locul de hibridizare, fragmentele de acizi nucleici se leagă de probele oligonucleotidice doar în locuri perfect complementare. Odată ce are loc hibridizrea, o moleculă fluroscentă eliberează flurorescență

        Genotiparea celulelor unice – identificarea genomului, când materialul genetic este limitat, ca în testarea genetică preimplantațională a embrionilor pentru aneuploidie și boli monogenice

       Analiza celulelor unice- descoperirea heterogenității mutațiilor de novo și aberațiilor numărului de copii într-o populație (1,3)

       Genotiparea, utilizând tehnologia SNP-ARRAY – precizie înaltă, acoperire bună a SNPS, cost-eficientă în reconstrucția haplotipurilor, când se analizează o cantitate mare de ADN dintr-o populație de celule DAR:

GENOTIPAREA CELULELOR UNICE NECESITĂ WGA (AMPLIFICAREA ÎNTREGULUI GENOM) ÎNAINTE DE ANALIZĂ!

        WGA-este o etapă necesară a protocolului de lucru din cauza cantității insuficiente de ADN în celule unice (8 pg) pentru analiza SNP ARRAY ( care necesită >=100 ng) (4)

       WGA introduce 2 categorii de erori:

       1.ALLELE DROP OUT (ADO)  -când WGA nu amplifică una dintre alele,rezultă că  un genotip heterozigot AB este în mod eronat genotipat ca homozigot:AA sau BB.

         - ADO este frecvent întâlnit – afectează până la 30% din SNPS genotipate (5)

       2.allele drop in (ADI) – când genotipurile homozigote AA sau BB sunt eronat interpretate ca genotipuri heterozigote AB

         -  când semnalele florescente ale ambelor alele sunt suboptimale și un artefact al procedurii de normalizare (6)

         - mai rar întâlnit

       Există multiple utilități pentru a analiza zgomotul (NOISE) determinat de WGA  în datele de secvențiere, există, însă, puține căi experimentale pentru a îndepărta zgomotul în datele SNP ARRAY:

    - creșterea scorurilor de genotipare, bazate pe algoritmii standard dezvoltați pentru ADN-ul  disponibil în cantități mari (7)

    -  utilizarea de informații provenite de la părinți, pentru a exclude variante eronate (8)

§  Autorii au dezvoltat un algoritm de MACHINE LEARNING –SURETYPESC- care e antrenat pe 28 milioane de SNPS de la 104 de celule unice, care ameliorează evocarea și precizia datelor provenind din celule unice

        Principiul genotipării SNP array, Illumina : măsurarea raportului de alele, reprezentate de intensitățiile de canal roșu și verde pentru fiecare alelă ( A și B)

       Intensitățile sunt stocate în fișiere IDAT – apoi sunt normalizate, utilizând transformări afine de 6 grade, și în fișiere GTC(fișier specific pentru Illumina, conținând genotipuri în format AA/BB/AB (9)

       Software-ul dezvoltat de Illumina-GENOMESTUDIO- tool standard pentru analiza și evaluarea calității genotipurilor și e compatibil cu fișiere IDAT ȘI GTC.

       Incluzând Genomestudio într-un pipeline cu eșantioane mari poate fi nepractic, pentru că procesul de încărcare al datelor trebuie verificat manual

       tool-uri pentru conversia automată a datelor din fișiere IDAT la GTC includ: AutoCall (pentru Windows) și IAAP genotyping CLI (pentru platforme multiple), ambele dezvoltate de Illumina

       Există un tool pentru analiza IDAT- pachetul R ILLUMINAIO (10)

       Extracția automată de caracteristici din fișierul GTC poate fi făcut prin librăria Illumina ILLUMINABEADARRAY- care stochează caracteristicile în NUMPY ARRAY(11)

       Există tool-uri care convertesc direct formatul GTC la formatul mai uzitat VCF – de la Illumina sau disponibile în bioinformatică (GTC2VCF)

        Setul minim de date de input pentru încărcarea datelor de Illumina SNP ARRAY este format din:

     - FIȘIERUL MANIFEST- descrie markerii SNP utilizați în ARRAY

     - FIȘIERUL CLUSTER  - conține informații despre clusterele de genotipuri/per marker SNP, obținute din studii populaționale și utilizate pentru scoring în software-ul GENOMESTUDIO

     - SAMPLE SHEET – fișa eșantionului

     - UN SET DE FIȘIERE GTC – fiecare fișier GTC corespunde unei mostre analizate pe SNP ARRAY

        Nucleul pachetului este implementat într-o librărie Python și SURETYPESCR comunică cu această librărie, utilizând reticulate.

       SURETYPESCR utilizează librăria Python de la Illumina – illuminabeadarray- pentru a încărca fișierele GTC și apoi utlizează funcții din ecosistemul tidyverse (pachetele DPLYR ȘI MAGRITTR) pentru a implementa funcții pentru a evalua calitatea datelor

       Procesul de clasificarea a datelor atribuie un scor de calitate pentru fiecare genotip al unei celule unice

 

       Pentru a demonstra funcționalitatea SURETYPESCR, autorii au selectat 23 mostre de spermatozoizi, provenind de la 2 familii

       Mostrele au fost amplificate și procesate pe ILLUMINA HUMAN CYTOSNP ARRAY

       Pachetul de date R, conținând datele despre spermatozoizi pot fi downloadate de pe Github, utilizând Devtools.

       Funcția DATA(.) inițializează  metadatele, care stochează informații DESPRE FAMILIE și alte metadate, care pot fi utilizate în analiza și SAMPLESHEET, conținând calea la samplesheet-ul downloadat cu date.

       Fișierele Manifest și cluster fac parte din instalarea suretypescr.

       Funcția scbasic(.) încarcă datele într-un dataframe din R

       Sunt filtrate apoi SNPS, numite  intensity only SNPS – care sunt utilizate pentru a detecta variante ale numărului de copii, dar nu asigură informații despre genotipare

        Rezultatele indică un grad înalt de heterozigoție (rate AB), sugerând un grad înalt de adi, deoarece spermatozoizii sunt celule haploide și nu s-au raportat aneuploidii în eșantioane

 


     MA PLOT :  UN PLOT, CARE VIZUALIZEAZĂ DIFERENȚELE ÎNTRE MĂSURATORI COLECTATE ÎN 2 EȘANTIOANE, TRANSFORMÂND DATELE ÎN SCALE M(LOG RATIO) ȘI A (MEAN AVERAGE), APOI REPREZENTÂND GRAFIC ACESTE VALORI

       Utilizatorii pot alege ce caracteristici ( coloane in dataframe) să utilizeze pentru analiza PCA.

       Există opțiunea, dacă PCA să se efectueze per cromozom sau pe pe întregul data frame

       Analiza per cromozom poate evidenția cromozomi aneuploizi

       Analiza PCA pe întreg data frame poate valida înrudirea eșantioanelor – în figura 2B cele 23 de eșantioane sunt separate în 2 clustere, corespunzând la 2 familii, definite în metadate

        Transformarea intensităților într-o scală logaritmică minimalizează variabilitatea între SNPS și eșantioane și permite detectarea patternurilor de clustere de genotipuri

       Pentru a evaulua genotipurile celulelor unice utilizând algoritmul de clasificare al autorilor, aceștia au calculat diferența logaritmică și media logaritmică a intensităților ( M și A, figura 2C)

       Transformarea datelor presupune adăugarea a 4 coloane adiționale la data frame-ul original, 2 coloane pentru intensitățile brute și două coloane pentru intensitățile normalizate pentru canalele X și Y.Utilizatorul poate controla plot-ul, prin ajustarea fracției punctelor, ce urmează a fi vizualizate (dacă trebuie aplicată datelor transformate o splină de netezire și, dacă să se utilizeze intensități normalizate pentru plotare)

       Plotul ma în figura 2C arată un cluster heterozigor eronat, unde m este aproape de 0 și a este scăzut, care este determinat de ADI.6 

       Autorii au făcut ulterior clasificarea genotipurlor eșantioanelor, utilizând suretypesc.

        Primul strat din algoritmul de clasificare (Random Forest) este încărcat din fișier

       Modelul de clasificare este creat pentru eșantionul individual (group_by(.) și nest(.)), utlizând analiza de discriminare gaussiană, pentru a deduce parametrii modelului.6 

       Analiza de discriminare gaussiană este realizată per eșantion individual, și nu pe setul de date combinat, pentru a evita bias-ul in funcția de scor, din cauza unor outlieri potențiali în date.

       Primii 2 parametrii ai suretype_model(.)  sunt formali șu ultimul parametru definește clasificatorul(clf), ce va fi utilizat în primul strat.

       Dataframe-ul va conține o coloană adițională , ce conține scorul de clasificare SureTypeSC  (rfgda_score).

       Autorii aplică ulterior un prag (set_threshold(.)) și utlizează MA plot  din nou, pentru a observa cum SureTypeSC  a afectat calitatea datelor.

        FigurA 2D arată rezultatele pentru întregul set de date (utilizând stat_bin_2d(.)).

       spre deosebire de  Figura 2C, care conține datele înainte de SureTypeSC,clusterul hetrrozigot (m aproape de o 0 și a scăzut), cauzat de adi, este îndepărtat și datele sunt concentrate de-a lungul m = 4 și m = −4, reprezentând genotipurile homozigote aa și, respectiv, bb.

       autorii au determinat rate de apelare și procentul de snps heterozigote în date, ca o funcție a pragului utilizat, în ambele:SureTypeSC și Illumina's GenCall (coloanele rfgda_score și, respectiv, score în dataframe):

       FIGURA 2E CONFIRMĂ CĂ SURETYPESC ESTE MAI SPECIFIC SPRE ZGOMOT, PĂSTRÂND RATE DE APELARE MAI MARI, PE MĂSURĂ CE PRAGUL CREȘTE, COMPARATIV CU GENCALL

        SureTypeSCR  este un pachet r, care dorește a facilita analiza snp array pe celule unice

       algoritmul utilizat pentru clasificarea genotipului este inovativ în domeniul SNP ARRAY al celulelor unice.6

        autorii au demonstrat utilizarea tipică pe date din lumea reală (figura 2), cu exemple de cod, pentru a demonstra funcționalitatea pachetului

        SureTypeSCR oferă o metodă de genotipare a celulelor unice cu precizie bună, și cu un pachet r ușor de utilizat, facând această metodă potrvită pentru cercetare și aplicații clinice potențiale

 Bibliografie:

       1.Mallory XF, Edrisi M, Navin N, et al.: Methods for copy number aberration detection from single-cell DNA-sequencing data. Genome Biology. August 2020; 21(1): 208. 1474-760X. Publisher Full Text

       2. Keller A, Tilleman L, Dziedzicka D, et al.: Uncovering low-level mosaicism in human embryonic stem cells using high throughput single cell shallow sequencing. Scientific Reports. Number: 1 Publisher: Nature Publishing Group; October 2019; 9(1): 14844. 2045-2322. Publisher Full Text Reference Source

       3. Wang J, Christina Fan H, Behr B, et al.: Genome-wide Single-Cell Analysis of Recombination Activity and De Novo Mutation Rates in Human Sperm. Cell. Elsevier; July 2012; 150(2): 402–412. 0092-8674, 1097-4172. PubMed Abstract Publisher Full Text Free Full Text Reference Source

       4. Blanshard RC, Chen C, Xie XS, et al.: Chapter 20 - Single cell genomics to study DNA and chromosome changes in human gametes and embryos. In: Maiato H, Schuh M, editors, Methods in Cell Biology. January 2018; 144(Mitosis and Meiosis Part A): pages 441–457. Academic Press. Publisher Full Text Reference Source

       5. Hou Y, Wu K, Shi X, et al.: Comparison of variations detection between whole-genome amplification methods used in single-cell resequencing. GigaScience. August 2015; 4. 2047-217X. PubMed Abstract Publisher Full Text Free Full Text

       6. Vogel I, Blanshard RC, Hoffmann ER: SureTypeSC—a Random Forest and Gaussian mixture predictor of high confidence genotypes in single-cell data. Bioinformatics. December 2019; 35(23): 5055–5062. 1367-4803. PubMed Abstract Publisher Full Text

       7. Zamani Esteki M, Dimitriadou E, Mateiu L, et al.: Concurrent whole-genome haplotyping and copy-number profiling of single cells. Am J Hum Genet. June 2015; 96(6): 894–912. 1537-6605. PubMed Abstract Publisher Full Text Free Full Text

       8. Johnson DS, Gemelos G, Baner J, et al.: Preclinical validation of a microarray method for full molecular karyotyping of blastomeres in a 24-h protocol. Human Reprod (Oxford, England). April 2010; 25(4): 1066–1075. 1460-2350. PubMed Abstract Publisher Full Text Free Full Text

       9. Kermani BG: Artificial intelligence and global normalization methods for genotyping.December 2008. U.S. Patent No. 7, 035, 740. Washington, DC: U.S. Patent and Trademark Office. Reference Source

       10. Smith ML, Baggerly KA, Bengtsson H, et al.: illuminaio: An open source IDAT parsing tool for Illumina microarrays. F1000Res. December 2013; 2: 264. 2046-1402. PubMed Abstract Publisher Full Text Free Full Text Reference Source

       11. Van Der Walt S, Colbert SC, Varoquaux G: The NumPy array: a structure for efficient numerical computation. arXiv:1102.1523 [cs]. February 2011. arXiv: 1102.1523.Publisher Full Text Reference Source

       12. Wickham H, Averick M, Bryan J, et al.: Welcome to the Tidyverse. J Open Source Software. November 2019; 4(43): 1686. 2475-9066. Publisher Full Text Reference Source

       13. Illumina Inc.: Infinium Genotyping Data Analysis. 2014. Technical Note: Genotyping. Reference Source

       14. Gruhn JR, Zielinska AP, Shukla V, et al.: Chromosome errors in human eggs shape natural fertility over reproductive life span. Science. American Association for the Advancement of Science Section: Report; September 2019; 365(6460): 1466–1469. 0036-8075, 1095-9203. PubMed Abstract Publisher Full Text Free Full Text Reference Source

       15. Ottolini CS, Newnham L, Capalbo A, et al.: Genome-wide recombination and chromosome segregation in human oocytes and embryos reveal selection for maternal recombination rates. Nat Genet. July 2015; 47(7): 727–735. 1061-4036. PubMed Abstract Publisher Full Text Free Full Text

       16. Vogel I, Cai L: Meiomap/SureTypeSCR: SureTypeSCR_v0.99.0(VersionRpackage_Zenodo). Zenodo. 2021, June 16. Publisher Full Text

 

 




Niciun comentariu:

Trimiteți un comentariu

Bioinformatica și genetica criminalistică

                                                                                                                                      Zoltan...