Strumenti per il Data Mining & pratico Machine Learning / Nwlapcug.com

Apprendimento automatico e data mining sono due aree della scienza che disegno da una varietà di discipline con l'obiettivo di usare i computer per raccogliere informazioni dai corpi di testo. Idee nel campo della linguistica, informatica e matematica sono impiegati per determinare le relazioni tra le parole e le frasi e creare modelli e descrizioni delle caratteristiche del testo. Questi principi e idee vengono applicati al data mining e pacchetti software di apprendimento automatico.

Natural Language Toolkit

Conosciuto anche come NLTK, il Toolkit di linguaggio naturale è un insieme di librerie software che aiuti nella elaborazione del linguaggio statistico. Collezioni di testo chiamato corpora sono importati in NLTK e moduli sono chiamati ad analizzare il testo e produrre comprensione circa la natura del testo. Moduli includono lo stemming parola, chunk estrazione e parte-of-speech tagging. Il NLTK è scritta per il livello superiore programmazione linguaggio Python. È un progetto open-source che continua ad essere rivisto e migliorato di collaboratori da tutto il mondo.

WEKA

WEKA fornisce un insieme di algoritmi di apprendimento che vengono spesso utilizzati nell'analisi del testo durante i processi di estrazione mineraria di dati. Questo pacchetto software è affidato al gruppo di apprendimento del computer presso l'Università di Waikato, in Nuova Zelanda. Weka è implementato in linguaggio Java e viene distribuito gratuitamente sotto la GNU General Public License. Questo pacchetto fornisce metodi per la pre-elaborazione testo, ad esempio disegno informazioni da un database e la lettura di file CSV.

ELKI

ELKI è un framework che fornisce gli algoritmi per il clustering, la gestione degli indici del database e outlier detection. Il suo nome è l'acronimo di ambiente per lo sviluppo di KDD-applicazioni supportate da strutture di indice. KDD è un altro acronimo che sta per Knowledge Discovery in Databases. ELKI è un progetto accademico che è mantenuto da Università Ludwig Maximilian di Monaco e deve essere utilizzato da studenti, docenti, ricercatori e ingegneri del software. È scritto in Java ed è protetto da copyright. Necessario ottenere una licenza per utilizzare il framework ELKI.

RapidMiner

Un'altra raccolta di open source di strumenti di dati linguistici, RapidMiner è un ambiente nel quale macchina esperimenti di apprendimento può essere eseguita e i risultati raccolti per un'ulteriore analisi. RapidMiner è adatto per una varietà di attività di text mining, ad esempio l'individuazione delle informazioni, creazione di statistiche descrizioni di testo ed elaborazione dei dati da operazioni di massa spettrometria e genotipo. RapidMiner è dotato di un'interfaccia di utente grafica avanzata che aiuta nella visualizzazione delle informazioni in modi descrittivi, ad esempio istogrammi e inoltre aiuta nello sviluppo del flusso di lavoro. RapidMiner è scritto in Java, può essere integrato con la piattaforma di Weka e può essere chiamato da altri programmi scritti in altri linguaggi di alto livello, come Perl, Python e C++.