Universul proteic este ansamblul tuturor proteinelor tuturor organismelor. Proteinele sunt molecule esențiale care se găsesc în toate ființele vii. Ele joacă un rol central în structura și funcția corpului nostru. Fiecare proteină este un lanț de blocuri de aminoacizi și, așa cum o imagine poate include mai multe obiecte, o proteină poate avea, de asemenea, mai multe componente, care sunt numite domenii proteice.
În ciuda a 6 decenii de progres, tehnicile de ultimă generație bazate pe aliniere nu pot prezice funcția pentru o treime din secvențele de proteine microbiene, împiedicând capacitatea noastră de a exploata datele de la diverse organisme. Aceste cazuri au dus la antrenarea unor modele de deep learning folosite la prezicerea adnotărilor funcționale pentru secvențe de aminoacizi nealiniate. Pentru antrenare au fost folosite cele 17.929 de familii proteice din baza de date Pfam.
Folosind secvențele de semințe Pfam, a fost stabilită o evaluare riguroasă de referință și găsit un model convoluțional dilatat care reduce eroarea BLASTp și pHMM-urilor cu un factor de nouă. Folosind 80% din întreaga bază de date Pfam, a fost antrenat un predictor al familiei de proteine care este mai precis și de peste 200 de ori mai rapid decât BLASTp.
Prezicerea funcției unei proteine din secvența sa brută de aminoacizi este un pas critic pentru înțelegerea relației dintre genotip și fenotip. Pe măsură ce costul secvențierii ADN-ului scade și proiectele de secvențiere metagenomică cresc în prioritate, instrumentele rapide și eficiente pentru adnotările funcționale vor juca un rol central în exploatarea datelor.
Identificarea proteinelor care catalizează reacții noi, leagă ținte microbiene specifice sau lucrează împreună pentru a construi noi molecule va accelera progresele în biotehnologie.
Concluzia este că modelele de deep learning sunt mai rapide la adnotarea secvențelor de testare reținute decât abordările de profil HMM și BLASTp de ultimă generație, reduc rata de eroare de aproape zece ori și ating o precizie predictivă de 99,84%.