Conjunto de datos sobre cerveza y pañales
AVC-set: la proyección de todos los registros contenidos en el nodo N sobre los atributos, donde AVC-set incluye el recuento de diferentes valores de los atributos en cada categoría.
Grupo AVC: la colección de todos los conjuntos AVC en el nodo n.
La memoria ocupada por AVC-set es proporcional al número de valores diferentes del atributo correspondiente. AVC-group no es una simple compresión de información de la base de datos, sino que solo proporciona la información necesaria para construir un árbol de decisiones. El espacio de memoria ocupado por el grupo AVC es mucho menor que el espacio realmente ocupado por la base de datos.
Solución de diseño general:
AVC_set
{
//Valor único del atributo de almacenamiento.
DistinctValue[]
//Almacena el recuento correspondiente a cada valor de un atributo de una clase.
DistinctValueCountForClassA[]
DistinctValueCountForClassB[]
… …
}
AVC_group
{
//avc_set para cada atributo en el nodo n
AVC_set[]
}
Toma de decisiones de arriba hacia abajo Algoritmo de árbol
Árbol de construcción (nodo m, parte de datos D, árbol de decisión del algoritmo)
El algoritmo del árbol de decisión se utiliza para obtener el índice dividido crit(n) de d.
Sea k el número de nodos secundarios del nodo n.
if(k gt; 0)
Crea k nodos secundarios de n, c1,..., ck.
Divida d en d1,...,dk usando la mejor partición.
for(I = 1; i lt= k; i)
Construir árbol (ci, Di)
Fin
endif
Parte de redefinición del marco del algoritmo Rainforest:
1a) Para el predicado P de cada atributo, encuentre la mejor división.
1b) Árbol de decisión. encontrar _ mejor _ partición (conjunto AVC-p)
1c) endfor
2a)k = árbol de decisión _ división. _ criterio(); //Determina la división final
El proceso general del algoritmo de la selva tropical:
Establece un grupo de nodos AVC.
(Leyendo toda la base de datos original o la tabla o archivo de la base de datos sucursal)
Selección de atributos de división y criterios de división: verificando uno por uno según el algoritmo específico utilizando el algoritmo Rainforest marco AVC-set para elegir.
Descomponer los datos en subnodos: Tenemos que leer todo el conjunto de datos (base de datos o archivo) y descomponer cada dato en subnodos. En este punto, si hay suficiente memoria, estableceremos un grupo AVC de uno o más nodos secundarios.
Materiales de referencia:
Dai Li Rainforest ppt ¿Qué es la minería de datos?
La minería de datos, también conocida como descubrimiento de conocimiento en bases de datos (KDD), es el extraordinario proceso de derivar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de grandes cantidades de datos. En pocas palabras, la minería de datos es la extracción o "minería" de conocimiento a partir de grandes cantidades de datos.
No todas las tareas de descubrimiento de información se consideran minería de datos. Por ejemplo, encontrar un solo registro mediante el uso de un sistema de gestión de bases de datos o encontrar una página web específica a través de un motor de búsqueda en Internet es una tarea en el campo de la recuperación de información. Si bien estas tareas son importantes y pueden implicar el uso de algoritmos y estructuras de datos complejos, se basan principalmente en técnicas y ciencias informáticas tradicionales y en las características distintivas de los datos para crear estructuras de índice para organizar y recuperar información de manera efectiva.
Sin embargo, las técnicas de minería de datos también se utilizan para mejorar las capacidades de los sistemas de recuperación de información.
Edite los orígenes de la minería de datos en este párrafo.
Para abordar estos desafíos en la sección anterior, investigadores de diferentes disciplinas se unieron para comenzar a desarrollar herramientas más eficientes y escalables que puedan manejar diferentes tipos de datos. Estos trabajos se basan en métodos y algoritmos utilizados previamente por los investigadores y culminan en el campo de la minería de datos. Específicamente, la minería de datos utiliza ideas de las siguientes áreas: (1) muestreo, estimación y prueba de hipótesis a partir de estadísticas (2) algoritmos de búsqueda, técnicas de modelado y teorías de aprendizaje a partir de inteligencia artificial, reconocimiento de patrones y aprendizaje automático. La minería de datos también adoptó rápidamente ideas de otros campos, incluida la optimización, la computación evolutiva, la teoría de la información, el procesamiento de señales, la visualización y la recuperación de información.
Algunos otros campos también desempeñan un importante papel de apoyo. En particular, los sistemas de bases de datos deben proporcionar soporte eficiente de almacenamiento, indexación y procesamiento de consultas. Las técnicas derivadas de la computación de alto rendimiento (paralela) suelen ser importantes cuando se procesan conjuntos de datos masivos. La tecnología distribuida también puede ayudar a procesar grandes cantidades de datos, lo cual es aún más importante cuando los datos no se pueden procesar juntos.
¿Qué se puede hacer editando esta minería de datos?
1) La minería de datos puede hacer las siguientes seis cosas diferentes (métodos de análisis):
Clasificación (clasificación)
Estimación (estimación)
Predicción (predicción)
Agrupación de asociaciones o reglas de asociación.
Clustering (Clustering)
Descripción y Visualización (Descripción y Visualización)
Minería de tipos de datos complejos (texto, web, gráficos e imágenes, video, audio, etc. )
2) Clasificación de minería de datos
Los seis métodos de análisis de minería de datos anteriores se pueden dividir en dos categorías: minería de datos directa; El objetivo de la minería directa de datos es utilizar los datos disponibles para construir un modelo que describa los datos restantes y una variable específica (que puede entenderse como los atributos de la tabla en la base de datos, es decir, la columna).
Minería de datos indirecta
En el objetivo, las variables específicas no se seleccionan, sino que el modelo las describe, se establece una relación entre todas las variables;
La clasificación, valoración y predicción pertenecen a la minería de datos directa; las tres últimas pertenecen a la minería de datos indirecta.
3) Una breve introducción a varios métodos de análisis
Clasificación (clasificación)
Primero seleccione un conjunto de entrenamiento clasificado de los datos En este conjunto de entrenamiento, usando. Tecnología de clasificación de minería de datos para construir un modelo de clasificación para clasificar datos no clasificados.
Ejemplo:
a Los solicitantes de tarjetas de crédito se clasifican en riesgo bajo, medio o alto.
B. Asignar clientes a grupos de clientes predefinidos.
Nota: El número de clases es fijo y predefinido.
Estimación (estimación)
La estimación es similar a la clasificación, excepto que la clasificación describe la salida de variables discretas, mientras que la estimación se ocupa de la salida de valores continuos; determinado, el importe de la valoración es incierto.
Ejemplo:
A. Estimar el número de niños en una familia según los patrones de compra.
B. Estimar los ingresos de una familia según los patrones de compra.
C. Estimación del valor de un inmueble
De forma general, la valoración puede utilizarse como paso previo a la clasificación. Dados algunos datos de entrada, los valores de variables continuas desconocidas se estiman y luego se clasifican según umbrales preestablecidos. Por ejemplo, en el negocio de préstamos hipotecarios, los bancos utilizan valoraciones para calificar a cada cliente (0 a 1). Luego, las calificaciones de los préstamos se clasifican según umbrales.
Predicción (predicción)
Normalmente la predicción funciona mediante clasificación o estimación, es decir, mediante clasificación o estimación se obtiene un modelo para predecir variables desconocidas. En este sentido, no hay necesidad de separar las profecías en una categoría separada. El propósito del pronóstico es predecir variables desconocidas en el futuro. Se necesita tiempo para verificar esta predicción, lo que significa que se necesita una cierta cantidad de tiempo para conocer la precisión de la predicción.
Agrupación de asociaciones o reglas de asociación.
Decidan juntos qué pasará.
Ejemplo:
A. Los clientes del supermercado suelen comprar A y B al mismo tiempo, es decir, A = gtb (regla de asociación)
B. Los clientes compran Después de comprar A, compraré B de vez en cuando (análisis de secuencia).
Agrupación (clustering)
Agregación es agrupar registros y colocar registros similares en una agregación. La diferencia entre agregación y clasificación es que la agregación no depende de clases predefinidas y no requiere un conjunto de entrenamiento.
Ejemplo:
A. Un grupo de síntomas específicos puede indicar una enfermedad específica.
B. Los clientes que alquilan diferentes tipos de VCD se reúnen, lo que puede implicar que los miembros pertenecen a diferentes grupos subculturales.
La agregación suele ser el primer paso en la minería de datos. Por ejemplo, "¿Qué tipo de promoción es la mejor respuesta para un cliente?" Para este tipo de preguntas, puede ser mejor agregar primero a todo el cliente, agruparlos en sus propios conjuntos y luego responder la pregunta para cada uno de ellos. colocar.
Descripción y Visualización (Descripción y Visualización)
Es la representación de los resultados de la minería de datos.
Editar las reglas de asociación en esta minería de datos. El algoritmo anterior es bastante claro. Déjame ponerte un ejemplo:
Datos de entrenamiento:
Id grupo de edad e ingresos
1 joven 65 gramos
2 jóvenes 15 B
3 Jóvenes 75 G
4 Mayores 40 B
5 Mayores 100 G
6 Mayores 60 G
¿AVC configurado? Edad de N1:
Recuento de clasificación de valores
Joven B 1
Joven G 2
Senior B 1
Estudiante de segundo año de secundaria
¿Conjunto AVC? Ingreso" es N1:
Valor Clasificación Recuento
15 B 1
40 B 1
60 Gramos 1
65 gramos 1
75 gramos 1
100 gramos 1
¿Conjunto de AVC N2:
Recuento de clasificación de valores
p>
15 B 1
65 g 1
75 g 1
¿Conjunto AVC?
Recuento de clasificación de valores
Joven B 1
Joven G 2
Última introducción a Rainforest: N1
Edad=Joven/ \ Edad = mayor
/ \
N2·N3
Finalmente, para el algoritmo de la selva tropical, el conjunto de muestras de entrenamiento no puede ser mayor que 3 millones. De lo contrario, use SPRINT
Antes de describir algunos detalles sobre las reglas de asociación, veamos una historia interesante: “Pañales y cerveza”
En un supermercado, hay una historia interesante. Fenómeno: pañales y cerveza se venden juntos. Pero esta extraña medida aumenta las ventas de pañales y cerveza. Esto no es una broma, sino un caso real que ha ocurrido en la cadena de supermercados estadounidense Wal-Mart del que hablan los comerciantes. Walmart tiene el sistema de almacenamiento de datos más grande del mundo. Para comprender con precisión los hábitos de compra de los clientes en sus tiendas, Walmart realiza un análisis de la cesta de compras de los clientes y quiere saber qué productos suelen comprar juntos en función de estos datos de transacciones sin procesar. Wal-Mart utilizó métodos de minería de datos para analizar y extraer los datos. Un descubrimiento inesperado fue: “¡El producto para pañales más comprado es la cerveza! "Después de mucha investigación y análisis, se reveló un patrón de comportamiento estadounidense oculto detrás de "pañales y cerveza": en los Estados Unidos, algunos padres jóvenes suelen ir al supermercado a comprar pañales para bebés después de salir del trabajo, y entre 30 y 40 de ellos todavía los compran.
La razón de este fenómeno es que las esposas estadounidenses a menudo les dicen a sus maridos que compren pañales para sus hijos después de salir del trabajo. Después de comprarlos, el marido les trae su cerveza favorita.
Según el pensamiento convencional, los pañales no tienen nada que ver con la cerveza. Sin utilizar tecnología de minería de datos para extraer y analizar una gran cantidad de datos de transacciones, sería imposible para Wal-Mart descubrir patrones tan valiosos dentro de los datos.
La asociación de datos es un conocimiento de descubrimiento importante en la base de datos. Si existe cierta regularidad entre los valores de dos o más variables, se llama correlación. La correlación se puede dividir en correlación simple, correlación de series temporales y correlación causal. El propósito del análisis de correlación es encontrar la red de correlación oculta en la base de datos. A veces no conocemos la función de correlación de los datos en la base de datos, e incluso si la conocemos, es incierta, por lo que las reglas generadas por el análisis de correlación son creíbles. La minería de reglas de asociación descubre asociaciones o correlaciones interesantes entre conjuntos de elementos en grandes cantidades de datos. Agrawal equivale a 1993. Primero, se presenta el problema de las reglas de asociación minera entre conjuntos de elementos en una base de datos de transacciones de clientes. Más tarde, muchos investigadores investigaron mucho sobre las reglas de las asociaciones mineras. Su trabajo incluye optimizar el algoritmo original, como introducir muestreo aleatorio e ideas paralelas para mejorar la eficiencia de las reglas de minería de algoritmos promoviendo la aplicación de reglas de asociación; La minería de reglas de asociación es un tema importante en la minería de datos y ha sido ampliamente estudiado por la industria en los últimos años.
2. El proceso de minería, clasificación y algoritmos relacionados de reglas de asociación.
2.1 Proceso de minería de reglas de asociación
El proceso de minería de reglas de asociación incluye principalmente dos etapas: en la primera etapa, todos los conjuntos de elementos de alta frecuencia deben encontrarse en el conjunto de datos; En la segunda etapa, las reglas de asociación se generan a partir de estos conjuntos de elementos de alta frecuencia.
En la primera etapa de la minería de reglas de asociación, todos los conjuntos de elementos grandes deben encontrarse a partir del conjunto de datos original. Alta frecuencia significa que la frecuencia de un determinado grupo de elementos en relación con todos los registros debe alcanzar un cierto nivel. La frecuencia con la que aparece el equipo del proyecto se llama apoyo. Tomando como ejemplo un conjunto de 2 elementos que contiene dos elementos A y B, el soporte del grupo de elementos que contiene {A, B} se puede obtener mediante la fórmula (1). Si el soporte es mayor o igual al umbral mínimo de soporte establecido, {A, B} se denomina grupo de artículos de alta frecuencia. El conjunto de k elementos que satisface el soporte mínimo se denomina conjunto de k elementos frecuentes, generalmente expresado como k grande o k frecuente. El algoritmo también genera k 1 grande a partir del grupo de elementos k grande hasta que no se pueda formar ningún grupo de elementos de alta frecuencia. encontrado más.
La segunda etapa de la minería de reglas de asociación es generar reglas de asociación. Generar reglas de asociación a partir de grupos de elementos de alta frecuencia consiste en utilizar las reglas de generación de grupos de elementos k de alta frecuencia en el paso anterior. Bajo el umbral condicional de confianza mínima, si la credibilidad obtenida por una regla cumple con la confianza mínima, esta regla se denomina regla de asociación. Por ejemplo, la confiabilidad de la regla AB generada por el grupo de elementos k de alta frecuencia {A, B} se puede obtener mediante la fórmula (2). Si la confiabilidad es mayor o igual que la confiabilidad mínima, AB se denomina regla de asociación.
En lo que respecta al caso de Vuormaa, al utilizar la tecnología de minería de reglas de asociación para extraer registros en la base de datos de transacciones, primero debemos establecer dos umbrales: soporte mínimo y confianza mínima. Supongamos que el soporte mínimo min_support=. 5, confianza mínima min_confidence=70. Por tanto, las normas de la asociación que satisfagan las necesidades de este supermercado deben cumplir las dos condiciones anteriores al mismo tiempo. Si la regla de asociación "pañal, cerveza" encontrada mediante el proceso de extracción satisface las siguientes condiciones, se aceptará la regla de asociación "pañal, cerveza". El apoyo (pañal, cerveza) se puede describir mediante la fórmula >:=5, confianza (pañal, cerveza) >=70. Entre ellos, soporte (pañales, cerveza) >: El significado de =5 en este ejemplo de aplicación es que al menos 5 registros de transacciones entre todos los registros de transacciones muestran que se compraron pañales y cerveza al mismo tiempo. En este ejemplo de aplicación, la confianza (pañales, cerveza) > = 70 significa que al menos 70 de todos los registros de transacciones, incluidos los pañales, también comprarán cerveza. Por lo tanto, si un consumidor compra pañales en el futuro, el supermercado podrá recomendarle que compre cerveza al mismo tiempo. Este comportamiento de recomendación de productos se basa en la regla de asociación "pañales, cerveza", porque los registros de transacciones anteriores del supermercado respaldan el comportamiento del consumidor de que "la mayoría de las compras de pañales también incluirán la compra de cerveza".
También se puede ver en la introducción anterior que la minería de reglas de asociación suele ser más adecuada para situaciones en las que los indicadores de los registros toman valores discretos. Si los valores del índice en la base de datos original son datos continuos, entonces los datos deben discretizarse adecuadamente antes de las reglas de asociación minera (en realidad, un valor en un determinado intervalo corresponde a un determinado valor). La discretización de datos es un paso importante antes de la extracción de datos. Si el proceso de discretización es razonable afectará directamente los resultados de la extracción de las reglas de asociación.
2.2 Clasificación de las reglas de asociación
Según las diferentes situaciones, las reglas de asociación se pueden clasificar de la siguiente manera:
1. Según las categorías de variables procesadas en el reglas, las reglas de asociación se pueden dividir en tipos booleanos y numéricos.
Los valores procesados por reglas de asociación booleanas son discretos y categóricos, mostrando la relación entre estas variables. Las reglas de asociación numérica se pueden combinar con reglas de asociación multidimensionales o reglas de asociación multicapa para procesar campos numéricos y dividirlos dinámicamente, o pueden procesar directamente datos sin procesar. Por supuesto, las reglas de asociación numérica también pueden contener variables categóricas. Por ejemplo: género = "mujer" = gtocupación="secretaria", esta es una regla de asociación booleana; Género = "mujer" = gtAvg (ingresos) =2300, los ingresos involucrados son numéricos, por lo que es una regla de asociación numérica.
2. Según el nivel de abstracción de los datos en las reglas, se pueden dividir en reglas de asociación de una sola capa y reglas de asociación de múltiples capas.
En las reglas de asociación de un solo nivel, todas las variables no tienen en cuenta que los datos reales tienen muchos niveles diferentes; en las reglas de asociación de varios niveles, la naturaleza multinivel de los datos se considera completamente. Por ejemplo: IBM Desktop = GT Sony Printer es una regla de asociación de una sola capa para datos detallados; Desktop IBM = GT Sony Printer es una regla de asociación de múltiples capas entre niveles superiores y niveles de detalle.
3. Según las dimensiones de los datos involucrados en las reglas, las reglas de asociación se pueden dividir en unidimensionales y multidimensionales.
En las reglas de asociación unidimensionales, solo involucramos una dimensión de datos, como los artículos comprados por el usuario; en las reglas de asociación multidimensionales, los datos a procesar involucrarán múltiples dimensiones. En otras palabras, las reglas de asociación unidimensionales se ocupan de algunas relaciones en un único atributo; las reglas de asociación multidimensionales se ocupan de algunas relaciones entre varios atributos. Por ejemplo: cerveza = pañales gt, esta regla solo involucra artículos comprados por el usuario; Género = "mujer" = ocupación gt = "secretaria", esta regla involucra información en dos campos y es una regla de asociación bidimensional.
2.3 Algoritmo de minería de reglas de asociación
1. Algoritmo a priori: utilice conjuntos de elementos candidatos para descubrir conjuntos de elementos frecuentes.
El algoritmo Apriori es el algoritmo más influyente para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. Su núcleo es un algoritmo recursivo basado en la idea de conjuntos de frecuencias de dos etapas. Esta regla de asociación se clasifica como regla de asociación booleana unidimensional y de un solo nivel. Aquí, todos los conjuntos de elementos cuyo soporte es mayor que el soporte mínimo se denominan conjuntos de elementos frecuentes o, para abreviar, conjuntos de frecuencia.
La idea básica del algoritmo es: primero encuentre todos los conjuntos de frecuencias y las frecuencias de estos conjuntos de elementos sean al menos las mismas que el soporte mínimo predefinido. Luego, se generan reglas de asociación sólidas a partir del conjunto de frecuencias, y estas reglas deben satisfacer un soporte mínimo y una confianza mínima. Luego, el conjunto de frecuencias encontrado en el paso 1 se usa para generar las reglas deseadas, y se generan todas las reglas que contienen solo elementos establecidos, en las que solo hay un elemento en la mitad derecha de cada regla. Aquí se usa la definición de regla intermedia. . Una vez generadas estas reglas, solo quedan aquellas reglas que sean mayores que el nivel mínimo de confianza dado por el usuario. Para generar todos los conjuntos de frecuencias, se utiliza un enfoque recursivo.
Puede haber una gran cantidad de conjuntos de candidatos y es posible que sea necesario escanear la base de datos repetidamente. Estas son las dos principales deficiencias del algoritmo Apriori.
2. Algoritmo basado en particiones
Savasere et al.
El algoritmo primero divide lógicamente la base de datos en varios bloques separados, considera un bloque individualmente a la vez y genera todos los conjuntos de frecuencias para él, luego combina los conjuntos de frecuencias generados para generar todos los conjuntos de frecuencias posibles y finalmente calcula estos elementos. Aquí, el tamaño de cada bloque se elige de manera que cada bloque pueda caber en la memoria principal y solo deba escanearse una vez en cada etapa. La exactitud del algoritmo está garantizada por el hecho de que cada posible conjunto de frecuencias es una frecuencia establecida en al menos un bloque. El algoritmo puede estar altamente paralelizado y cada bloque puede asignarse a un procesador para generar conjuntos de frecuencias. Después de cada ciclo de generación de conjuntos de frecuencias, los procesadores se comunican entre sí para generar k-itemsets candidatos globales. Por lo general, el proceso de comunicación aquí es el principal cuello de botella en el tiempo de ejecución del algoritmo; por otro lado, el tiempo que tarda cada procesador independiente en generar el conjunto de frecuencias también es un cuello de botella;
3. Algoritmo de conjunto de frecuencias de árbol FP
Apuntando a las deficiencias inherentes del algoritmo Apriori, J. Han et al. propusieron un método que no genera conjuntos de elementos frecuentes para la minería candidata: FP- algoritmo de conjunto de frecuencias de árbol. Adopte una estrategia de divide y vencerás. Después del primer escaneo, la frecuencia establecida en la base de datos se comprime en un árbol de patrones frecuentes (árbol FP), mientras que la información relevante aún se conserva. Luego, el árbol FP se divide en varias bases de condiciones, cada base de condiciones se asocia con un conjunto de frecuencias de longitud 1 y luego estas bases de condiciones se extraen por separado. Cuando la cantidad de datos originales es grande, el árbol FP se puede colocar en la memoria principal en combinación con el método de partición. Los experimentos muestran que el crecimiento de FP tiene buena adaptabilidad a reglas de diferentes longitudes y su eficiencia mejora enormemente en comparación con el algoritmo Apriori.
3. Aplicaciones en este campo en el país y en el extranjero
3.1 Aplicaciones de la tecnología de minería de reglas de asociación en el país y en el extranjero
En la actualidad, la tecnología de minería de reglas de asociación tiene Se ha utilizado ampliamente en los negocios financieros occidentales y puede anticipar con éxito las necesidades de los clientes bancarios. Una vez que tengan esta información, los bancos pueden mejorar su marketing. Ahora, los bancos están desarrollando nuevas formas de comunicarse con los clientes todos los días. Cada banco agrupa la información de los productos del banco que pueden interesar a los clientes en su propio cajero automático para que los usuarios la comprendan. Si la base de datos muestra que un cliente con un límite de crédito alto ha cambiado su dirección, entonces existe una buena posibilidad de que el cliente haya comprado recientemente una casa más grande y, por lo tanto, necesite un límite de crédito más alto, una nueva tarjeta de crédito de alta gama o una préstamo para mejoras en el hogar. Estos productos se pueden enviar por correo a los clientes mediante extractos de tarjetas de crédito. La base de datos puede ayudar eficazmente a los representantes de telemercadeo cuando los clientes llaman para realizar consultas. La pantalla de la computadora de un representante de ventas puede mostrar las características del cliente y también mostrar qué productos le interesarían.
Al mismo tiempo, algunos sitios web de comercio electrónico conocidos también se benefician de una poderosa minería de reglas de asociación. Estos sitios de compras electrónicas explotan utilizando reglas de asociación y luego configuran paquetes que los usuarios pretenden comprar juntos. También hay algunos sitios web de compras que los utilizan para configurar las ventas cruzadas correspondientes, es decir, los clientes que compran un determinado producto verán anuncios de otro producto relacionado.
Sin embargo, actualmente en China, "los datos masivos y la falta de información" son una vergüenza común que enfrentan los bancos comerciales después de la concentración de datos. La mayoría de las bases de datos implementadas actualmente en la industria financiera solo pueden implementar funciones subyacentes como entrada de datos, consultas, estadísticas, etc., pero no pueden encontrar información útil en los datos, como analizar estos datos, descubrir sus patrones y características de datos, y luego descubrir ciertos intereses financieros y comerciales de clientes individuales, grupos de consumidores u organizaciones, y observar las tendencias cambiantes en los mercados financieros. Se puede decir que la investigación y aplicación nacional de la tecnología minera de reglas de asociación no es muy extensa ni profunda.
3.2 Algunas investigaciones sobre la tecnología de minería de reglas de asociación en los últimos años
Dado que muchos problemas de aplicación suelen ser más complejos que los problemas de adquisición de los supermercados, una gran cantidad de estudios han ampliado las reglas de asociación desde diferentes perspectivas. , integrando más factores en el método de minería de reglas de asociación, enriqueciendo así los campos de aplicación de las reglas de asociación y ampliando el alcance de las decisiones de gestión de apoyo. Por ejemplo, considere las relaciones jerárquicas entre atributos, relaciones temporales, minería de múltiples tablas, etc. En los últimos años, la investigación sobre reglas de asociación se ha centrado principalmente en dos aspectos: ampliar el alcance de los problemas que las reglas de asociación clásicas pueden resolver y mejorar la eficiencia y el interés de los algoritmos de minería de reglas de asociación clásicas.
La implementación de la tecnología de minería de datos en la edición de este párrafo
Técnicamente hablando, según su proceso de trabajo, se puede dividir en tecnologías clave como extracción de datos, almacenamiento de datos y gestión y visualización de datos.
Extracción de datos
La extracción de datos es el punto de entrada para que los datos ingresen al almacén. Debido a que el almacén de datos es un entorno de datos independiente, requiere un proceso de extracción para importar datos del procesamiento de transacciones en línea, fuentes de datos externas y medios de almacenamiento de datos fuera de línea. La extracción de datos implica principalmente interconexión, replicación, incremento, transformación, programación y monitoreo. En términos de extracción de datos, el desarrollo tecnológico futuro se centrará en la integración de funciones del sistema para adaptarse a los cambios en el propio almacén de datos o en las fuentes de datos, haciendo que el sistema sea más fácil de gestionar y mantener.
Almacenamiento y gestión de datos
El modelo de organización y gestión del data warehouse determina sus características diferentes a las bases de datos tradicionales, y también determina su forma de expresión de datos externos. La cantidad de datos involucrados en la gestión del almacén de datos es mucho mayor que el procesamiento de transacciones tradicional y la cantidad de datos puede acumularse rápidamente con el tiempo. En el almacenamiento y gestión de datos del almacén de datos, lo que hay que resolver es cómo gestionar grandes cantidades de datos, cómo procesar grandes cantidades de datos en paralelo, cómo optimizar las consultas, etc. Actualmente, las soluciones técnicas proporcionadas por muchos proveedores de bases de datos consisten en ampliar las funciones de las bases de datos relacionales y transformar las bases de datos relacionales ordinarias en servidores adecuados para almacenes de datos.
Visualización de datos
En términos de presentación de datos, los métodos principales son:
Consulta: realiza consultas predefinidas, consultas dinámicas, consultas OLAP y consultas inteligentes de soporte de decisiones. Informes: genere tablas de datos relacionales, tablas complejas, tablas OLAP, informes y varios informes completos. Visualización: utilice gráficos de puntos y líneas, histogramas, gráficos circulares, diagramas de red, visualización interactiva, simulación dinámica y tecnología de animación por computadora; para expresar datos complejos y sus relaciones estadísticas: realizar diversos análisis estadísticos como promedio, máximo, mínimo, valor esperado, varianza, resumen, clasificación, etc. Minería: utilice métodos como la minería de datos para obtener conocimientos sobre las relaciones y patrones de los datos.
La integración y el desarrollo de la minería y el almacenamiento de datos en la edición de este párrafo
Por un lado, el trabajo colaborativo de la minería y el almacenamiento de datos puede atender y simplificar importantes pasos en el proceso de minería de datos, mejorar la eficiencia y las capacidades de la minería de datos y garantizar la versatilidad e integridad de las fuentes de datos en la minería de datos. Por otro lado, la tecnología de minería de datos se ha convertido en un aspecto y una herramienta extremadamente importante y relativamente independiente en las aplicaciones de almacenamiento de datos.
La integración e interacción de la minería de datos y el almacenamiento de datos tendrán un interesante valor de investigación académica y perspectivas de investigación aplicada. Es el resultado de los esfuerzos conjuntos de expertos en minería de datos, técnicos de almacenamiento de datos y expertos de la industria. También es la salida para la gran cantidad de usuarios finales empresariales que están ansiosos por transformarse de "esclavos" de bases de datos a "maestros" de bases de datos.
Estadística y Minería de Datos
La estadística y la minería de datos tienen el mismo objetivo: descubrir estructuras en los datos. De hecho, debido a objetivos similares, algunas personas (especialmente los estadísticos) consideran la minería de datos como una rama de la estadística. Ésta es una visión poco realista. Porque la minería de datos también aplica ideas, herramientas y métodos de otros campos, especialmente la informática, como la tecnología de bases de datos y el aprendizaje automático, y algunos de los campos en los que se centra son muy diferentes a los de los estadísticos.
1. La esencia de la estadística
No tiene sentido intentar definir la estadística de manera demasiado amplia. Si bien es posible, habrá muchas objeciones. Más bien, quiero señalar las diferencias entre las estadísticas y la minería de datos.
Una de las diferencias está relacionada con el último párrafo mencionado en el apartado anterior, es decir, la estadística es una disciplina relativamente conservadora con una tendencia actual hacia una mayor precisión. Por supuesto, esto no es malo en sí mismo. Sólo siendo más precisos podremos evitar errores y descubrir la verdad. Pero si es excesivo, puede resultar perjudicial. Esta visión conservadora surge de la opinión de que la estadística es una rama de las matemáticas. No estoy de acuerdo con esta opinión. Si bien la estadística se basa en las matemáticas (al igual que la física y la ingeniería también se basan en las matemáticas y no se consideran una rama de las matemáticas), está estrechamente relacionada con otras disciplinas.
Los conocimientos matemáticos y la búsqueda de la precisión refuerzan la tendencia de que un método debe probarse antes de adoptarse, a diferencia de las computadoras.