Comprensión del análisis de datos, minería de datos y big data
Primero, introduzcamos la diferencia entre datos e información.
¿Qué son datos y qué es información? De hecho, la diferencia más esencial es que los datos existen, son rastreables y no necesitan ser procesados, mientras que la información sí debe procesarse.
Por ejemplo, si quieres comprar un armario nuevo para tu casa, primero debes medir el largo, ancho y alto de cada parte de la habitación. Siempre que se midan estos datos, se pueden obtener valores precisos, porque estos datos existen objetivamente y estos valores objetivamente existentes son datos.
Pero la información es otra. Cuando vengas a una tienda de muebles a comprar un armario, dirás que un armario de 3 metros es perfecto para poner en la habitación. El armario de 2 metros es un poco corto y no parece grandioso. El armario de un metro es demasiado grande y no es rentable. Entonces este tipo de información pertenece a la información. En estos momentos, el cerebro ya ha pensado y emitido juicios subjetivos, y la base para obtener esta información son datos objetivamente existentes.
En segundo lugar, el análisis de datos consiste en analizar datos objetivamente existentes o conocidos a través de varias dimensiones y sacar conclusiones.
Por ejemplo, descubrimos que la actividad de los usuarios de la aplicación de la empresa disminuyó:
Desde una perspectiva regional, el porcentaje de actividad en una determinada región disminuyó.
En cuanto al género, el porcentaje de actividades para los chicos disminuyó.
En cuanto a la edad, el porcentaje de actividad disminuye entre los 20 y los 30 años.
Por analogía, diferentes tipos de empresas pueden sacar conclusiones al observar las tendencias de desarrollo durante el último período de tiempo.
La minería de datos no sólo requiere conocimientos de estadística, sino también conocimientos de aprendizaje automático, que implica el concepto de modelos. La minería de datos puede descubrir patrones y valores desconocidos a un nivel más profundo. Y prestamos más atención a la relación entre los datos en sí, para sacar algunas conclusiones no explícitas que no podemos obtener del análisis de datos. Por ejemplo, el análisis de correlación puede conocer la relación entre la cerveza y los pañales, los árboles de decisión pueden conocer la probabilidad de su compra, el análisis de conglomerados puede saber a quién es similar, etc. El objetivo es descubrir las conexiones intrínsecas entre datos de varias dimensiones.
Entonces, los propósitos de ambos son diferentes. El análisis de datos requiere un grupo de análisis claro, es decir, dividir, dividir y combinar grupos en varias dimensiones para encontrar problemas. Sin embargo, el grupo objetivo de la minería de datos es incierto, lo que requiere que nos centremos más en los datos. combine negocios, usuarios y datos para obtener más conocimientos e interpretaciones.
Por ejemplo, si una persona quiere encontrar novia, puede conocer rápida y fácilmente sus factores externos, como altura, peso, ingresos, educación, etc. , pero a partir de estos datos no puede saber si esta chica es adecuada para él, si su personalidad se lleva bien con él... En este momento, necesito inferir de algunos datos de comportamiento diario. Una es la inferencia subjetiva, si. él piensa, calculo y creo que podemos estar juntos.
La otra es la inferencia objetiva + subjetiva, como integrar datos de plataformas sociales (puede conocer el contenido diario de Moments, Weibo, pasatiempos, etc.) y utilizar su propio comportamiento para realizar extracción de datos y observar. los datos ¿Cuántas coincidencias hay internamente? En este momento, puede juzgar que la probabilidad de que estén juntos es del 99%, generando así confianza y comenzando a actuar. .....
Por supuesto, estadísticamente hablando, una probabilidad del 100% no necesariamente sucede, y una probabilidad del 0% no necesariamente sucede. Este es sólo un evento de pequeña probabilidad. No dejes que esto te impida estar soltero.
Por último, la forma de pensar es diferente. En términos generales, el análisis de datos se basa en verificación continua y suposiciones basadas en datos objetivos, mientras que la minería de datos no tiene suposiciones, pero también debe dar su criterio de juicio basado en el resultado del modelo.
Cuando hacemos análisis a menudo, el análisis de datos requiere más pensamiento y más uso de métodos de pensamiento estructurados y MECE, similares a las suposiciones en los programas.
Marco analítico (hipótesis) + problema objetivo (análisis de datos) = conclusión (juicio subjetivo)
La minería de datos es en su mayoría amplia, integral, multifacética y precisa.
Cuantos más datos, más preciso será el modelo y cuantas más variables, más clara será la relación entre los datos.
Todas las variables deben filtrarse en el sentido del modelo (grandes y completas, numerosas y precisas), y luego seleccionarse de acuerdo con el grado de correlación, la relación de sustitución y la importancia de las variables, y finalmente descartarse. en el modelo. Finalmente, la racionalidad de este método se juzga a partir de los parámetros del modelo y el significado de la interpretación.
El análisis se basa más en el conocimiento empresarial, mientras que la minería de datos se centra más en la implementación de tecnología, con requisitos empresariales ligeramente inferiores. La minería de datos a menudo requiere una mayor cantidad de datos. Cuanto mayor sea la cantidad de datos, mayores serán los requisitos técnicos. Requiere sólidas habilidades de programación, habilidades matemáticas y habilidades de aprendizaje automático. A juzgar por los resultados, el análisis de datos se centra más en la presentación de resultados, que deben interpretarse en combinación con el conocimiento empresarial. El resultado de la minería de datos es un modelo a través del cual se pueden analizar los patrones de todos los datos y se pueden hacer predicciones para el futuro de inmediato, como determinar las características del usuario y para qué tipo de actividades de marketing es adecuado el usuario. . Obviamente, la minería de datos va más allá del análisis de datos. El análisis de datos es una herramienta que transforma datos en información, mientras que la minería de datos es una herramienta que transforma información en cognición.
Lo anterior es el contenido relevante de "Habla sobre la comprensión del análisis de datos, la minería de datos y los big data" compilado y enviado por el editor hoy. Espero que ayude a todos. Si desea saber más sobre análisis de datos y análisis de trabajos de inteligencia artificial, siga al editor para obtener actualizaciones continuas.