Exploración de datos: análisis de la calidad de los datos
La tarea principal del análisis de la calidad de los datos es comprobar si existen datos sucios en los datos sin procesar. Los datos sucios generalmente se refieren a datos que no cumplen con los requisitos y datos que no pueden analizarse directamente como respuesta. En el trabajo común de minería de datos, los datos sucios incluyen principalmente los siguientes tipos:
Los datos faltantes incluyen principalmente registros faltantes e información faltante en un determinado campo del registro. Ambas situaciones provocarán resultados de análisis inexactos. Causas y efectos de los valores perdidos.
(1) Razones de los valores faltantes
1) Alguna información no está disponible temporalmente o el costo de obtener información es demasiado alto.
2) Se omite alguna información. El motivo de la omisión puede ser algunos factores humanos, como no pensar que es importante al ingresar, olvidar completar o malinterpretar los datos, etc., también puede ser la pérdida causada por factores no humanos, como el equipo de recolección de datos; falla, falla del medio de almacenamiento o falla del medio de transmisión, etc.
3) El valor del atributo no existe. En algunos casos, los valores faltantes no significan que haya un error en los datos. Para algunos objetos, algunos valores de atributos no existen, como el nombre del cónyuge de una persona soltera y los ingresos fijos de los hijos.
(2) Impacto de los valores faltantes
1) Se perderá mucha información útil en el modelado de minería de datos.
2) La incertidumbre que muestra el modelo de minería de datos es más significativa y las leyes contenidas en el modelo son más difíciles de comprender.
3) Los datos que contienen valores nulos pueden confundir el proceso de modelado y generar resultados poco confiables.
(3) Análisis de valores faltantes
Utilizando un análisis estadístico simple, puede obtener la cantidad de atributos que contienen valores faltantes, así como la tasa no faltante, la tasa faltante y la tasa faltante. de cada atributo.
El análisis de valores atípicos examina los datos en busca de errores de entrada y datos inusuales. Es muy peligroso ignorar la existencia de valores atípicos. Si no se eliminan durante el proceso de cálculo y análisis de datos, los resultados tendrán efectos negativos. Prestar atención a la aparición de valores atípicos y analizar las razones de su aparición a menudo se convertirá en un problema. , oportunidades para mejorar la toma de decisiones.
Los valores atípicos se refieren a valores individuales en la muestra que se desvían significativamente de otros valores observados. Los valores atípicos también se denominan valores atípicos y el análisis de valores atípicos también se denomina análisis de valores atípicos.
(1) Análisis de medición simple
Primero puede realizar estadísticas descriptivas de las variables y luego ver qué datos no son razonables. Las estadísticas más utilizadas son el valor máximo y el valor mínimo, que se utilizan para determinar si el valor de la variable excede un rango razonable. Por ejemplo, si la edad máxima del cliente es 199, entonces existe una anomalía en el valor de esta variable.
(2) Principio 3σ
Si los datos obedecen a la distribución normal, según el principio 3σ, la definición de valores atípicos es un conjunto de valores medidos que se desvían de la media en más de tres veces el valor de la desviación estándar. Bajo el supuesto de distribución normal, la probabilidad de que un valor se desvíe de la media 3σ es P(|x-μ|>3σ) ≤ 0,003, lo cual es un evento extremadamente raro con pequeña probabilidad.
Si los datos no siguen una distribución normal, también se puede describir por cuántas veces la desviación estándar se aleja de la media.
(3) Análisis de diagrama de caja
El diagrama de caja proporciona un criterio para identificar valores atípicos: los valores atípicos generalmente se definen como menores que QL-1.5IQR o mayores que Qu+ 1.5IQR. QL es el cuartil inferior, lo que indica que una cuarta parte de todos los valores observados es menor que este valor; Qu se denomina cuartil superior, lo que indica que una cuarta parte de todos los valores observados es mayor que este valor; que este valor; el valor IQR es mayor que este valor. Qu se llama cuartil superior, lo que significa que una cuarta parte de todas las observaciones tienen valores mayores que él; el IQR se llama rango intercuartil, que es la diferencia entre el cuartil superior y el cuartil inferior, incluida la mitad del valor observado. .
El diagrama de bloques se basa en datos reales y no tiene ningún requisito restrictivo para los datos (como obedecer a una forma de distribución específica). Solo representa verdadera e intuitivamente la apariencia original de la distribución de datos; Por otro lado, el diagrama de bloques determina Los criterios para los valores atípicos se basan en cuartiles y rangos intercuartílicos. Los cuartiles tienen un cierto grado de robustez: hasta un 25% de los datos pueden estar arbitrariamente alejados sin afectar significativamente a los cuartiles. , es la diferencia entre los cuartiles superior e inferior, que contiene la mitad de todas las observaciones. IQR es la diferencia entre los cuartiles superior e inferior, que contiene la mitad de todas las observaciones. Esto muestra que el diagrama de caja es más objetivo a la hora de identificar valores atípicos y tiene ciertas ventajas a la hora de identificar valores atípicos.
Los datos de ventas en el sistema de restaurantes pueden tener valores faltantes y valores atípicos, como se muestra en la siguiente tabla:
Al analizar los datos de ventas diarias en el sistema de restaurantes, se puede Se descubrió que faltan algunos datos, pero si hay muchos registros de datos y atributos, no es práctico utilizar el juicio manual, por lo que aquí debe escribir un programa para detectar registros y atributos que contengan valores faltantes, así como la tasa faltante y número de valores faltantes.
En la biblioteca Pandas de Python, simplemente lea los datos y use la función describe() para ver los conceptos básicos de los datos.
Los resultados son los siguientes:
Entre ellos, el recuento es un valor no nulo y a través de len(data) sabemos que hay 201 registros de datos, por lo que el número de Los valores faltantes son 1. Además, los parámetros básicos proporcionados incluyen media, desviación estándar, mínimo, máximo y cuartiles, semicuartiles, tres cuartos y cuartiles (25%, 50%, 50%). Utilice diagramas de caja para visualizar estos datos y detectar valores atípicos.
El resultado de ejecutar el programa es "Número de valores faltantes: 1" y el diagrama de bloques que se muestra arriba.
Como se puede ver en la figura, los 7 datos de ventas en el diagrama de caja que exceden los límites superior e inferior pueden ser valores atípicos. Según el negocio específico, 865, 4060.3 y 4065.2 se pueden clasificar como valores normales, y 22, 51, 60, 6607.4 y 9106.44 se pueden clasificar como valores anormales. Las reglas de selección finales se determinan de la siguiente manera: las ventas diarias por debajo de 400 y por encima de 5000 son datos anormales y se redacta un programa de selección para su procesamiento posterior.
La inconsistencia de los datos significa que los datos son contradictorios e incompatibles. La extracción directa de datos inconsistentes puede producir resultados de extracción opuestos a lo que realmente está sucediendo.
En el proceso de minería de datos, la generación de datos inconsistentes ocurre principalmente en el proceso de integración de datos. Esto puede deberse al hecho de que los datos provienen de diferentes fuentes de datos y los datos restaurados fallan. ser procesados consistentemente. Por ejemplo, si ambas tablas almacenan el número de teléfono del usuario, pero solo se actualizan los datos de una tabla cuando cambia el número de teléfono del usuario, entonces los datos de las dos tablas serán inconsistentes.