Teorie di pulizia dei dati / Nwlapcug.com

Possono essere commessi durante l'integrazione e la raccolta dei dati, e gli analisti devono saper identificare e correggere questi errori. Questo è chiamato la pulizia dei dati, o scrubbing dei dati. Non si tratta di una scienza esatta, e a volte la decisione di cosa fare si basa sul giudizio dell'analista; Tuttavia, lei sa che non solo è importante avere una quantità sufficiente di dati-- deve essere di una qualità affidabile, troppo.

Semantica e formattazione

Una comune attività di pulizia dei dati comporta la rimozione di errori nella formattazione. Questo potrebbe essere qualcosa di semplice come errori ortografici durante la raccolta dei dati o voce, fino a problemi con il simbolo utilizzato per separare le voci. Si supponga, ad esempio, che il seguente pezzo di dati è all'interno di un dataset in cui un apostrofo è utilizzato per separare le voci:

Bird-Watcher Club 42 Beacon Street'Boston

Questo potrebbe essere inteso come:

Bird watching
Club
42 beacon Street
Boston

Programmi e query automatizzate sono spesso utilizzati per pulire i dati di questo errore.

Integrazione

Alcuni set di dati sono belle da sola ma diventa problematico quando sono integrati in un più grande repository o un data warehouse. Ad esempio, età possono essere archiviate come data di nascita:

gg/mm/aa
gg/mm/aaaa

O di gamma:

20-30, 30-40, 40-50
15-25, 25-35, 35-45

In alcuni casi, come data di nascita di formattazione, è abbastanza semplice da identificare strutture semantiche e standardizzare le voci. In casi come le fasce di età, tuttavia, devono essere effettuati assunzioni. Per esempio; è il numero di persone di età 25-35 la media delle persone di età compresa tra 20-30 e 30-40?

Valori anomali

Valori erratici sono punti di dati che si trovano lontano dal resto dei dati. Per esempio un'età minima di 600 o un punteggio del test diverse volte superiore alla media. Nel primo caso, si può tranquillamente presumere che era un errore di battitura, ma in quest'ultimo non è così ovvio. Quando non sai se un outlier è un errore o un punto dati legittimo, è il vostro giudizio se rimuoverlo o no, tenendo conto dello scopo dei dati.

Dati mancanti

È inoltre necessario decidere che cosa fare se non è presente alcun dato. In primo luogo, modelli dovrebbero essere identificati mediante query e analisi statistiche..--la distribuzione dei dati mancanti determina cosa si dovrebbe fare. Ad esempio, se un sondaggio online ha due pagine, ma solo le domande nella prima pagina ha risposto, questa informazione utilizzabile per perfezionare le forme. Se i dati mancanti sono distribuiti in modo casuale ed sono sulla stessa variabile, a volte è possibile effettuare stime basate su ciò che è già noto.