Nwlapcug.com


Pulizia dei dati & procedure di codificazione

Pulizia dei dati & procedure di codificazione


L'analisi dei dati, non solo è necessario disporre di una quantità abbastanza grande, ma è anche fondamentale che la qualità dei dati è di alto livello. Dati possono essere resi "sporchi" in un certo numero di modi-errori durante la raccolta, errori commessi durante l'integrazione di più set di dati e cancellazione accidentale sono pochi tali modi. Per questo motivo, è importante che i dati sia puliti prima dell'uso.

Dati mancanti

Procedure automatizzate sono spesso utilizzate per trovare mancante dati. Questi potrebbero essere le query SQL in un database, o analisi statistiche. Come analista cercate modelli nella diffusione dei dati mancanti. È quindi prendere decisioni su cosa fare, che possono essere escluse determinate variabili complessivamente, o sostituendo i valori con le medie. A volte i dati mancanti possono indicare errori quando l'integrazione di più set di dati, e nel caso peggiore l'intero processo potrebbe essere necessario essere ripetuta per ottenere tutti i dati.

Valori anomali

Un outlier è un valore di dati che è fuori lo schema generale dei dati. Possono essere identificate con grafici, come casella tracciati, o cercando i valori di un certo numero di deviazioni standard dalla media. Una volta identificato, è necessario decidere se rimuoverli o non – che coinvolge decidere se fossero errori di raccolta dei dati, o di veri valori. A volte, è possibile scegliere di eseguire determinate procedure con e senza valori erratici, confrontare i risultati.

Errori di formattazione

Gli errori più banali in un set di dati potrebbero essere errori di ortografia o altri errori simili. Le query possono essere utilizzate per trovare e sostituire errori evidenti, come errori di ortografia dei nomi di marca o posizioni, ma può essere utilizzati anche per evidenziare i punti di dati che potrebbero aver bisogno di pulizia. Ad esempio, è possibile eseguire una ricerca per cognomi o numeri di telefono sopra e sotto una certa lunghezza, per individuare gli errori che si sono verificati da qualche parte lungo il processo di raccolta e l'integrazione dei dati.

Codifica dei dati

È comune per i dati essere inizialmente in un formato che non è adatto per l'analisi. Ad esempio, le risposte al sondaggio potrebbero essere necessario per essere convertito in un equivalente numerico, ad esempio da "Fortemente d'accordo" "7", o potrebbero essere necessario essere convertiti in variabili indicatore binario variabili categoriche come genere. Questo è chiamato codifica o ricodifica ed è buona norma creare nuove variabili con i dati appena codificati, anziché sovrascrivere quelle vecchie, modo che gli errori possono essere retro-controllato.