BIOINFORMATICA@UVT2022

A Predictive Model of Nephrolithiasis in Primary Hyperparathyroidism

ANA-SILVIA CORLAN

Expected complications of symptomatic primary hyperparathyroidism are:kidney stones, and their complications - infections, hydronephrosis, kidney failure. But the screening of asymptomatic primary hyperparathyroidism revealed, that a consistent proportion of patients suffer from hypercalciuria, asymptomatic renal microlithiasis and a mild decrease in kidney function.

Our study has a retrospective design, consisting of 112 patients with a diagnosis of primary hyperparathyroidism; criteria of inclusion were normal or high serum calcium and increased parathormone (PTH) values. The diagnosis was confirmed through technetium sestamibi scan, cervical ultrasound and/ro computer tomography.

The age distribution of patients in our study was:minimum age of 20 years, mean age of 58.29 years, maximum age of 81 years.

The total serum calcium level was characterized by a mean of 10.66 mg/dl and a maximum level of 15.90 mg/dl:

The PTH values had a minimum value of 56.4 pg/ml, with a mean of 306.7 pg/ml and a maximum value of 6000 pg/ml.

The vitamin D levels had a minimum of 4.92 ng/ml, a mean value of 20.35 ng/ml and a maximum level of 50.60 ng/ml.

The comorbidities of patients were:

- arterial hypertension - The majority of patients had no hypertension:

-the estimated glomerular filtration rate had the following distribution:

Minimum value of 16 mlo/min, mean value of 83.63 ml/min and a maximum value of 139 ml/min:

The abdominal ultrasound identified 63.41% patients without nephrolithiasis, 21.42% with renal microlithiasis, 12.5% with renal lithiasis, 2.67% patients with nephrocalcinosis with lithiasis:

Correlation of total serum calcium with nephrolithiasis:

Correlation of calciuria/24 hours with nephrolithiasis:

Correlation of PTH with nephrolithiasis:

The multinomial logistic regression model :

- outcome - lithiasis category

- predictors - total serum calcium, calciuria/24 hour, PTH level, Vitamin D levels.

Drwabacks: our study included a limited number of patients. The aim is to gather a bigger cohort of patients, to validate our model and to establish a risk of nephrolithiasis in primary hyperparathyroidism.

Proiectul 2

SureTypeSCR: R package for rapid quality control and genotyping of SNP arrays from single cells

Ce este un SNP ARRAY?

SNP-single nucleotide polymorphism –o alterare sau polimorfism într-o singură bază

Genomul nostru – alcătuit din 3.2 miliarde perechi de baze –aranjate în 23 de perechi de cromozomi

În timpul replicării, polimeraza inseră nucleotide în lanțul ADN nou format – uneori poate încorpora nucleotide greșite, rezultă modificări la nivelul unei singure baze

Cum funcționează un SNP-ARRAY?

v Se descriu 3 etape în cadrul snp microarray:

• 1.imobilizarea oligonucleotidelor pe un cip

• 2.Fragmentarea și etichetarea adn țintă

• 3.hibridizarea

• Array cip- e o colecție de probe (sonde) microscopice de ADN ( oligonucleotide cu specificitate de secvență),atașate la o suprafață solidă, precum sticlă, plastic sau cip de silicon, care formează o matrice

• Cip-ul ADN = o bucată mică de sticlă de silicon (1cm3), la care un număr mare de probe monocatenare de ADN oligonucleotidice au fost legate chimic.

• Pentru realizarea tehnici de SNP array, se izolează ADN pur dintr-un eșantion

• ADN ul genomic e dificil de procesat; se instituie metode de digestie enzimatică sau metode fizice de fragmentare, rezultând fragmente mici de ADN genomic

• Utilizându-se amplificarea PCR – se amplifică fragmentele ADN

• Apoi se marchează fragmentele ADN cu markeri fluorescenți

• Odată ce ADN-ul e marcat, ADN-UL nemarcat se spală

• pe suprafaț solidă ( de sticlă) apare hibridizarea între probele oligonucleotidice și acidul nucleic din eșantion

• Se spală cu ajutorul unui buffer acidul nucleic nehibridizat

• Hibridizarea se va derula la 37 C pentru cel puțin 24 ore

• Un scanner microarray scanează întreaga suprafață , pentru a detecta hibridizarea – rezultatele vor fi analizate printr-un software

• La locul de hibridizare, fragmentele de acizi nucleici se leagă de probele oligonucleotidice doar în locuri perfect complementare. Odată ce are loc hibridizrea, o moleculă fluroscentă eliberează flurorescență

• Genotiparea celulelor unice – identificarea genomului, când materialul genetic este limitat, ca în testarea genetică preimplantațională a embrionilor pentru aneuploidie și boli monogenice

• Analiza celulelor unice- descoperirea heterogenității mutațiilor de novo și aberațiilor numărului de copii într-o populație (1,3)

• Genotiparea, utilizând tehnologia SNP-ARRAY – precizie înaltă, acoperire bună a SNPS, cost-eficientă în reconstrucția haplotipurilor, când se analizează o cantitate mare de ADN dintr-o populație de celule DAR:

GENOTIPAREA CELULELOR UNICE NECESITĂ WGA (AMPLIFICAREA ÎNTREGULUI GENOM) ÎNAINTE DE ANALIZĂ!

• WGA-este o etapă necesară a protocolului de lucru din cauza cantității insuficiente de ADN în celule unice (8 pg) pentru analiza SNP ARRAY ( care necesită >=100 ng) (4)

• WGA introduce 2 categorii de erori:

• 1.ALLELE DROP OUT (ADO) -când WGA nu amplifică una dintre alele,rezultă că un genotip heterozigot AB este în mod eronat genotipat ca homozigot:AA sau BB.

- ADO este frecvent întâlnit – afectează până la 30% din SNPS genotipate (5)

• 2.allele drop in (ADI) – când genotipurile homozigote AA sau BB sunt eronat interpretate ca genotipuri heterozigote AB

- când semnalele florescente ale ambelor alele sunt suboptimale și un artefact al procedurii de normalizare (6)

- mai rar întâlnit

• Există multiple utilități pentru a analiza zgomotul (NOISE) determinat de WGA în datele de secvențiere, există, însă, puține căi experimentale pentru a îndepărta zgomotul în datele SNP ARRAY:

- creșterea scorurilor de genotipare, bazate pe algoritmii standard dezvoltați pentru ADN-ul disponibil în cantități mari (7)

- utilizarea de informații provenite de la părinți, pentru a exclude variante eronate (8)

§ Autorii au dezvoltat un algoritm de MACHINE LEARNING –SURETYPESC- care e antrenat pe 28 milioane de SNPS de la 104 de celule unice, care ameliorează evocarea și precizia datelor provenind din celule unice

• Principiul genotipării SNP array, Illumina : măsurarea raportului de alele, reprezentate de intensitățiile de canal roșu și verde pentru fiecare alelă ( A și B)

• Intensitățile sunt stocate în fișiere IDAT – apoi sunt normalizate, utilizând transformări afine de 6 grade, și în fișiere GTC(fișier specific pentru Illumina, conținând genotipuri în format AA/BB/AB (9)

• Software-ul dezvoltat de Illumina-GENOMESTUDIO- tool standard pentru analiza și evaluarea calității genotipurilor și e compatibil cu fișiere IDAT ȘI GTC.

• Incluzând Genomestudio într-un pipeline cu eșantioane mari poate fi nepractic, pentru că procesul de încărcare al datelor trebuie verificat manual

• tool-uri pentru conversia automată a datelor din fișiere IDAT la GTC includ: AutoCall (pentru Windows) și IAAP genotyping CLI (pentru platforme multiple), ambele dezvoltate de Illumina

• Există un tool pentru analiza IDAT- pachetul R ILLUMINAIO (10)

• Extracția automată de caracteristici din fișierul GTC poate fi făcut prin librăria Illumina ILLUMINABEADARRAY- care stochează caracteristicile în NUMPY ARRAY(11)

• Există tool-uri care convertesc direct formatul GTC la formatul mai uzitat VCF – de la Illumina sau disponibile în bioinformatică (GTC2VCF)

• Setul minim de date de input pentru încărcarea datelor de Illumina SNP ARRAY este format din:

- FIȘIERUL MANIFEST- descrie markerii SNP utilizați în ARRAY

- FIȘIERUL CLUSTER - conține informații despre clusterele de genotipuri/per marker SNP, obținute din studii populaționale și utilizate pentru scoring în software-ul GENOMESTUDIO

- SAMPLE SHEET – fișa eșantionului

- UN SET DE FIȘIERE GTC – fiecare fișier GTC corespunde unei mostre analizate pe SNP ARRAY

• Nucleul pachetului este implementat într-o librărie Python și SURETYPESCR comunică cu această librărie, utilizând reticulate.

• SURETYPESCR utilizează librăria Python de la Illumina – illuminabeadarray- pentru a încărca fișierele GTC și apoi utlizează funcții din ecosistemul tidyverse (pachetele DPLYR ȘI MAGRITTR) pentru a implementa funcții pentru a evalua calitatea datelor

• Procesul de clasificarea a datelor atribuie un scor de calitate pentru fiecare genotip al unei celule unice

• Pentru a demonstra funcționalitatea SURETYPESCR, autorii au selectat 23 mostre de spermatozoizi, provenind de la 2 familii

• Mostrele au fost amplificate și procesate pe ILLUMINA HUMAN CYTOSNP ARRAY

• Pachetul de date R, conținând datele despre spermatozoizi pot fi downloadate de pe Github, utilizând Devtools.

• Funcția DATA(.) inițializează metadatele, care stochează informații DESPRE FAMILIE și alte metadate, care pot fi utilizate în analiza și SAMPLESHEET, conținând calea la samplesheet-ul downloadat cu date.

• Fișierele Manifest și cluster fac parte din instalarea suretypescr.

• Funcția scbasic(.) încarcă datele într-un dataframe din R

• Sunt filtrate apoi SNPS, numite intensity only SNPS – care sunt utilizate pentru a detecta variante ale numărului de copii, dar nu asigură informații despre genotipare

• Rezultatele indică un grad înalt de heterozigoție (rate AB), sugerând un grad înalt de adi, deoarece spermatozoizii sunt celule haploide și nu s-au raportat aneuploidii în eșantioane

• MA PLOT : UN PLOT, CARE VIZUALIZEAZĂ DIFERENȚELE ÎNTRE MĂSURATORI COLECTATE ÎN 2 EȘANTIOANE, TRANSFORMÂND DATELE ÎN SCALE M(LOG RATIO) ȘI A (MEAN AVERAGE), APOI REPREZENTÂND GRAFIC ACESTE VALORI

• Utilizatorii pot alege ce caracteristici ( coloane in dataframe) să utilizeze pentru analiza PCA.

• Există opțiunea, dacă PCA să se efectueze per cromozom sau pe pe întregul data frame

• Analiza per cromozom poate evidenția cromozomi aneuploizi

• Analiza PCA pe întreg data frame poate valida înrudirea eșantioanelor – în figura 2B cele 23 de eșantioane sunt separate în 2 clustere, corespunzând la 2 familii, definite în metadate

• Transformarea intensităților într-o scală logaritmică minimalizează variabilitatea între SNPS și eșantioane și permite detectarea patternurilor de clustere de genotipuri

• Pentru a evaulua genotipurile celulelor unice utilizând algoritmul de clasificare al autorilor, aceștia au calculat diferența logaritmică și media logaritmică a intensităților ( M și A, figura 2C)

• Transformarea datelor presupune adăugarea a 4 coloane adiționale la data frame-ul original, 2 coloane pentru intensitățile brute și două coloane pentru intensitățile normalizate pentru canalele X și Y.Utilizatorul poate controla plot-ul, prin ajustarea fracției punctelor, ce urmează a fi vizualizate (dacă trebuie aplicată datelor transformate o splină de netezire și, dacă să se utilizeze intensități normalizate pentru plotare)

• Plotul ma în figura 2C arată un cluster heterozigor eronat, unde m este aproape de 0 și a este scăzut, care este determinat de ADI.⁶

• Autorii au făcut ulterior clasificarea genotipurlor eșantioanelor, utilizând suretypesc.

• Primul strat din algoritmul de clasificare (Random Forest) este încărcat din fișier

• Modelul de clasificare este creat pentru eșantionul individual (group_by(.) și nest(.)), utlizând analiza de discriminare gaussiană, pentru a deduce parametrii modelului.⁶

• Analiza de discriminare gaussiană este realizată per eșantion individual, și nu pe setul de date combinat, pentru a evita bias-ul in funcția de scor, din cauza unor outlieri potențiali în date.

• Primii 2 parametrii ai suretype_model(.) sunt formali șu ultimul parametru definește clasificatorul(clf), ce va fi utilizat în primul strat.

• Dataframe-ul va conține o coloană adițională , ce conține scorul de clasificare SureTypeSC (rfgda_score).

• Autorii aplică ulterior un prag (set_threshold(.)) și utlizează MA plot din nou, pentru a observa cum SureTypeSC a afectat calitatea datelor.

• FigurA 2D arată rezultatele pentru întregul set de date (utilizând stat_bin_2d(.)).

• spre deosebire de Figura 2C, care conține datele înainte de SureTypeSC,clusterul hetrrozigot (m aproape de o 0 și a scăzut), cauzat de adi, este îndepărtat și datele sunt concentrate de-a lungul m = 4 și m = −4, reprezentând genotipurile homozigote aa și, respectiv, bb.

• autorii au determinat rate de apelare și procentul de snps heterozigote în date, ca o funcție a pragului utilizat, în ambele:SureTypeSC și Illumina's GenCall (coloanele rfgda_score și, respectiv, score în dataframe):

• FIGURA 2E CONFIRMĂ CĂ SURETYPESC ESTE MAI SPECIFIC SPRE ZGOMOT, PĂSTRÂND RATE DE APELARE MAI MARI, PE MĂSURĂ CE PRAGUL CREȘTE, COMPARATIV CU GENCALL

• SureTypeSCR este un pachet r, care dorește a facilita analiza snp array pe celule unice

• algoritmul utilizat pentru clasificarea genotipului este inovativ în domeniul SNP ARRAY al celulelor unice.⁶

• ^{autorii au demonstrat utilizarea tipică pe date din lumea reală
(figura 2), cu exemple de cod, pentru a demonstra funcționalitatea pachetului}

• SureTypeSCR oferă o metodă de genotipare a celulelor unice cu precizie bună, și cu un pachet r ușor de utilizat, facând această metodă potrvită pentru cercetare și aplicații clinice potențiale

Bibliografie:

• 1.Mallory XF, Edrisi M, Navin N, et al.: Methods for copy number aberration detection from single-cell DNA-sequencing data. Genome Biology. August 2020; 21(1): 208. 1474-760X. Publisher Full Text

• 2. Keller A, Tilleman L, Dziedzicka D, et al.: Uncovering low-level mosaicism in human embryonic stem cells using high throughput single cell shallow sequencing. Scientific Reports. Number: 1 Publisher: Nature Publishing Group; October 2019; 9(1): 14844. 2045-2322. Publisher Full Text Reference Source

• 3. Wang J, Christina Fan H, Behr B, et al.: Genome-wide Single-Cell Analysis of Recombination Activity and De Novo Mutation Rates in Human Sperm. Cell. Elsevier; July 2012; 150(2): 402–412. 0092-8674, 1097-4172. PubMed Abstract | Publisher Full Text | Free Full Text Reference Source

• 4. Blanshard RC, Chen C, Xie XS, et al.: Chapter 20 - Single cell genomics to study DNA and chromosome changes in human gametes and embryos. In: Maiato H, Schuh M, editors, Methods in Cell Biology. January 2018; 144(Mitosis and Meiosis Part A): pages 441–457. Academic Press. Publisher Full Text Reference Source

• 5. Hou Y, Wu K, Shi X, et al.: Comparison of variations detection between whole-genome amplification methods used in single-cell resequencing. GigaScience. August 2015; 4. 2047-217X. PubMed Abstract | Publisher Full Text | Free Full Text

• 6. Vogel I, Blanshard RC, Hoffmann ER: SureTypeSC—a Random Forest and Gaussian mixture predictor of high confidence genotypes in single-cell data. Bioinformatics. December 2019; 35(23): 5055–5062. 1367-4803. PubMed Abstract | Publisher Full Text

• 7. Zamani Esteki M, Dimitriadou E, Mateiu L, et al.: Concurrent whole-genome haplotyping and copy-number profiling of single cells. Am J Hum Genet. June 2015; 96(6): 894–912. 1537-6605. PubMed Abstract | Publisher Full Text | Free Full Text

• 8. Johnson DS, Gemelos G, Baner J, et al.: Preclinical validation of a microarray method for full molecular karyotyping of blastomeres in a 24-h protocol. Human Reprod (Oxford, England). April 2010; 25(4): 1066–1075. 1460-2350. PubMed Abstract | Publisher Full Text | Free Full Text

• 9. Kermani BG: Artificial intelligence and global normalization methods for genotyping.December 2008. U.S. Patent No. 7, 035, 740. Washington, DC: U.S. Patent and Trademark Office. Reference Source

• 10. Smith ML, Baggerly KA, Bengtsson H, et al.: illuminaio: An open source IDAT parsing tool for Illumina microarrays. F1000Res. December 2013; 2: 264. 2046-1402. PubMed Abstract | Publisher Full Text | Free Full Text Reference Source

• 11. Van Der Walt S, Colbert SC, Varoquaux G: The NumPy array: a structure for efficient numerical computation. arXiv:1102.1523 [cs]. February 2011. arXiv: 1102.1523.Publisher Full Text Reference Source

• 12. Wickham H, Averick M, Bryan J, et al.: Welcome to the Tidyverse. J Open Source Software. November 2019; 4(43): 1686. 2475-9066. Publisher Full Text Reference Source

• 13. Illumina Inc.: Infinium Genotyping Data Analysis. 2014. Technical Note: Genotyping. Reference Source

• 14. Gruhn JR, Zielinska AP, Shukla V, et al.: Chromosome errors in human eggs shape natural fertility over reproductive life span. Science. American Association for the Advancement of Science Section: Report; September 2019; 365(6460): 1466–1469. 0036-8075, 1095-9203. PubMed Abstract | Publisher Full Text | Free Full Text Reference Source

• 15. Ottolini CS, Newnham L, Capalbo A, et al.: Genome-wide recombination and chromosome segregation in human oocytes and embryos reveal selection for maternal recombination rates. Nat Genet. July 2015; 47(7): 727–735. 1061-4036. PubMed Abstract | Publisher Full Text | Free Full Text

• 16. Vogel I, Cai L: Meiomap/SureTypeSCR: SureTypeSCR_v0.99.0(VersionRpackage_Zenodo). Zenodo. 2021, June 16. Publisher Full Text

BIOINFORMATICA@UVT2022

joi, 19 mai 2022

Niciun comentariu:

Trimiteți un comentariu

Bioinformatica și genetica criminalistică

Raportați un abuz

Etichete