Nwlapcug.com


Che cosa è un Tagger di parte del discorso?

Che cosa è un Tagger di parte del discorso?


Un parte del discorso tagger è un pezzo di software che legge un corpo di testo, noto come un corpus e assegna parti del discorso - sostantivo, verbo, aggettivo, avverbio, congiunzione, autorità decisionale, pronome, preposizione..--ad ogni parola. Parte del discorso taggers sono utili per l'indicizzazione di testo e recupero o applicazioni di sintesi vocale, dove parte del discorso tag può aiutare a determinare la corretta pronuncia.

Tralasciati

Parte del discorso taggers utilizzare una formula matematica o algoritmo, che accetta come input una stringa di parole e un set di tag conosciuto come un tagset. Questo viene scelto per soddisfare una particolare applicazione. L'output dell'algoritmo è il singolo tag più appropriato per ogni parola. Un tagset deve identificare distinzioni basate sul significato delle parole - semantica..--o l'ordine in cui appaiono - syntax--che sarebbe immediatamente evidente per un osservatore umano.

Tipi di Tagger

Esistono due tipi base di taggers parte del discorso, questi noto come taggers basato su regole e statistici taggers. Basato su regole taggers in genere utilizzare un database di regole disambigua. Essi assegnare tutte le possibili parti del discorso tag a ogni parola e applicare le regole di eliminano i tag impossibile o improbabile, per lasciare solo un singolo tag a parola. Statistica taggers, noto anche come stocastico taggers, d'altra parte, utilizzare un corpus di formazione - una vasta collezione di frasi che sono già stati etichettati..--per determinare la probabilità di una parola con un determinato tag.

Punteggiatura

Tag venga applicato non solo alle parole di ogni frase, ma anche per i segni di punteggiatura. Il processo di codifica implica pertanto che separano i segni di punteggiatura come virgole dalle parole, ma anche che separano i segni di punteggiatura che indicano la fine di una frase, ad esempio periodi e punti interrogativi, da segni di punteggiatura che fanno parte delle abbreviazioni, ad esempio "ad esempio" o "ecc.".

Considerazioni

Parte del discorso taggers codificare le otto parti del discorso di base, ma anche utilizzare i tag più dettagliate o a grana fine, come "sostantivo plurale" o "sostantivo plurale." Parole spesso possono essere designati come possibile più di una parte del discorso; ad esempio, nella frase "on my back", la parola "retro" è un sostantivo, nella frase "la porta", è un aggettivo e nella frase "promessa per eseguire il disegno di legge", è un verbo. Così, in "Standard del campione di attualità inglese americano" - uno dei più ben noto corpura di formazione, conosciuto colloquialmente come "Brown Corpus" - la parola "indietro" è etichettata in modo diverso a seconda del suo contesto e la sua parte del discorso.