Nwlapcug.com


Introduzione alle tecniche di classificazione in bioinformatica

La bioinformatica è l'applicazione di tecniche di scienze informatiche nel campo della biologia. Gli obiettivi di bioinformatica sono per aiutare gli scienziati di vita nell'organizzare dati biologici e lo sviluppo di strumenti informatici necessari per la scoperta di nuove ipotesi scientifiche. Tecniche di classificazione, tecniche di noto anche come clustering, sono importanti in bioinformatica, in quanto consentono la separazione di vari dati biologici con attributi simili in insiemi distinti.

Storia

La dimensione di dati biologici è in crescita esponenziale, con il raddoppio delle informazioni osservati ogni 15 mesi. Di conseguenza, tecniche di computer science e informatica sono utilizzate intensivamente nell'elaborazione e nella gestione di dati biologici. Il concetto più fondamentale in bioinformatica è che più dati biologici condividono caratteristiche simili e possono essere suddivise in gruppi. Per esempio, i geni di un organismo possono essere classificati in loro gruppi funzionali o vie metaboliche. Proteine possono anche essere classificate basato sui geni che sono espressi. Classificazione o tecniche di clustering sono necessarie nella gestione di grandi database di dati genetici e biologici. Ci sono due tipi principali di tecniche di classificazione in bioinformatica: il gerarchico e le tecniche di classificazione k-Means.

Classificazione gerarchica

La tecnica di classificazione gerarchica organizza i dati biologici in una struttura di dati ad albero. Geni sono espressi come nodi dell'albero, mentre ogni sottostruttura ad albero di nodi rappresenta un cluster o un raggruppamento di geni. L'albero potrebbe essere radicata o talee. Un albero radicato è definito come un albero con solo un singolo nodo in cima. Al contrario, un albero unrooted ha più nodi più in alto.

Classificazione di k-Means

Una tecnica di classificazione più complicata è la classificazione di k-Means, che tenta di trovare un insieme di centri che riducono al minimo la distorsione di errore quadrati tra gli insiemi di dati nello spazio multidimensionale. Un cluster è classificato dal raggruppamento punti correlati al loro centro più vicino. L'algoritmo di Lloyd è spesso utilizzato nella tecnica di classificazione k-Means. In questo algoritmo, i punti dati sono disposte in modo casuale in cluster separato, che successivamente sono ottimizzate per produrre le distorsioni di minimo errore quadrato locale.

Significato

Dopo proteine correlate sono stati classificati in gruppi simili, gli scienziati di vita possono utilizzare tali informazioni per predire le proprietà di determinate proteine meno studiato. Questo vale anche per altri aspetti della struttura delle proteine. Un altro uso di tecniche di classificazione è quello di risolvere il problema di determinare l'albero evolutivo di determinati organismi basato su loro sequenze genetiche. L'albero evolutivo è costruito dalla sequenza di DNA dell'organismo utilizzando uno gerarchico o tecniche di classificazione k-Means.

Considerazioni

Classificazione gerarchica tecnica è un modo relativamente semplice ed efficace di clustering di dati biologici. Al contrario, nessun algoritmo efficiente esistente al momento della scrittura che è in grado di eseguire la tecnica di classificazione di k-Means efficacemente come la dimensione degli aumenti di dati biologici. Ciò suggerisce che una grande potenza di calcolo è spesso necessaria per eseguire la classificazione di k-Means, che è un fattore importante da considerare quando si sceglie la tecnica di classificazione da utilizzare nelle applicazioni di bioinformatica.