Red de conocimiento de recetas - Recetas de frutas - ¿Qué es la minería de datos? ¿Cómo hacer minería de datos?

¿Qué es la minería de datos? ¿Cómo hacer minería de datos?

La minería de datos se refiere al proceso automatizado de clasificar grandes conjuntos de datos para identificar tendencias y patrones a través del análisis de datos y construir relaciones para resolver problemas comerciales. En otras palabras, la minería de datos es el proceso de extraer información y conocimientos ocultos, desconocidos, pero potencialmente útiles, a partir de una gran cantidad de datos incompletos, ruidosos, confusos y aleatorios.

En principio, la minería de datos se puede aplicar a cualquier tipo de base de información y datos transitorios (como flujos de datos), como bases de datos, almacenes de datos, data marts, bases de datos de transacciones, bases de datos espaciales (como mapas ), datos de diseño de ingeniería (como diseño arquitectónico), datos multimedia (como texto, imágenes, video y audio), redes, flujos de datos y bases de datos de series temporales. Por tanto, la minería de datos tiene las siguientes características:

(1) El conjunto de datos es grande e incompleto.

La minería de datos requiere conjuntos de datos muy grandes. Sólo que cuanto mayor sea el conjunto de datos, más cerca estará la ley obtenida de la ley real correcta y más preciso será el resultado. Además, los datos suelen estar incompletos.

(2) Inexactitud

La minería de datos inexacta se debe principalmente a datos ruidosos. Por ejemplo, en los negocios, los usuarios pueden proporcionar datos falsos; en un entorno de fábrica, los datos normales a menudo están sujetos a interferencias electromagnéticas o de radiación, lo que genera anomalías en los datos. Estos datos anormales y absolutamente imposibles se denominan ruido y pueden provocar imprecisiones en la extracción de datos.

(3) Borrosidad y aleatoriedad

La minería de datos tiene borrosidad y aleatoriedad. La ambigüedad aquí puede estar relacionada con la inexactitud. Debido a que los datos son inexactos, solo podemos observarlos en su conjunto o no podemos conocer algún contenido específico debido a información privada. Si desea realizar operaciones de análisis relevantes en este momento, solo puede realizar algunos análisis generales y no puede emitir juicios precisos.

Hay dos explicaciones para la aleatoriedad de los datos. Una es que los datos obtenidos son aleatorios; no tenemos forma de saber qué completó el usuario. La segunda es que los resultados del análisis son aleatorios. Los datos se entregan a la máquina para su juicio y aprendizaje, por lo que todas las operaciones son operaciones de caja gris.