Nwlapcug.com


Come sviluppare parametri di qualità dei dati

Data warehouse e strumenti di data mining lo rendono facile da estrarre e analizzare enormi volumi di informazioni, ma la qualità dell'analisi è solo buona come la qualità dei dati. Il primo passo in qualsiasi studio di ricerca o dati progetto di magazzinaggio deve essere una valutazione della qualità dei dati andando nel progetto. Misure per la completezza, la validità e la coerenza che tutti fattore in questa valutazione. Per sviluppare parametri di qualità dei dati, è necessario seguire alcuni passaggi.

Istruzioni

1

Sviluppare un quadro per la qualità dei dati di misura. Creare spazio in ogni database dove possono essere memorizzati i risultati dei controlli di qualità. Sviluppare rapporti o dashboard da questi dati.

2

Misurare la completezza dei dati. Scegliere elementi chiave in ogni database e contare la percentuale di valori null, campi vuoti o i valori che rappresentano dati non disponibili o sconosciuti.

3

Misurare le percentuali dei valori consentiti. Quando un campo contiene un numero di valori di codice predefiniti, è possibile misurare la distribuzione di questi valori contro il numero di valori non corretti o mancanti. Analizzare queste distribuzioni per determinare se alcuni codici appaiono troppo frequentemente. Se è così, questo valore potrebbe essere necessario essere suddiviso per fornire la descrizione migliore. Ad esempio, se le risposte sono nero, bianco e colore e il 98% delle risposte sono colore, esso avrebbe senso per sostituire il colore con rosso, blu o verde.

4

Controllare i valori ragionevoli. Misure numeriche di solito compaiono in un intervallo consentito. Ad esempio, una quotidiano meteo temperatura Fahrenheit misura solitamente verrà visualizzati come un valore da circa -40 a 120. Qualsiasi valore di fuori di tale intervallo probabilmente non è valido.

5

Confrontare i valori all'interno del record stesso per coerenza. Se la temperatura era 90 gradi Fahrenheit e il valore di precipitazione è neve, uno dei due valori è probabilmente errato.

6

Verificare la coerenza tra i record correlati. Utilizzare controlli di consistenza simile tra i record in relazioni padre-figlio e all'interno di più voci di bambino. Relazioni padre e figlio sono collegamenti tra gli elementi del database. Ad esempio, in un numero di elementi relativi al tempo, se un set di oraria temperatura misure elenco temperature in costante aumento da 50 a 70 gradi in tutta la mattina ma il 10 la lettura è -20, questo valore è probabilmente in errore.

7

Creare report, dashboard o notifiche sulla base dei dati raccolti. Riassumere di tipo organizzativo di gruppo, fornitore o cliente con capacità di drill-down per elementi di dati specifici. Analizzare i dati per determinare dove si verificano gli errori e cosa si può fare per migliorare la qualità dei dati.

8

Migliorare la qualità dei dati. Rivedere le regole di business, software per respingere i dati errati, informare i clienti di problemi dati e trovare modi per iniziative di qualità ricompensa di riparazione. Monitorare queste misurazioni nel tempo.

Consigli & Avvertenze

  • Maggior parte dei database relazionale offrono modi per rifiutare i dati non validi utilizzando vincoli e chiavi esterne. Utilizzare questi vincoli per imporre la qualità dei dati.