¿Cómo surgió el algoritmo de correlación para los pañales de cerveza?
La llamada asociación refleja el conocimiento de dependencia o asociación entre un evento y otros eventos. Cuando buscamos literatura en inglés, podemos encontrar que hay dos palabras en inglés que pueden describir el significado de asociación. El primero es correlación y el segundo es correlación. Ambos pueden usarse para describir el grado de correlación entre eventos. El primero se utiliza principalmente para contenidos y documentos de Internet, como la correlación entre documentos en los algoritmos de los motores de búsqueda. La palabra que utilizamos es relevancia, mientras que el segundo se utiliza a menudo para cosas reales, como la relación entre productos en sitios web de comercio electrónico. Usamos asociación para representar el grado de asociación y las reglas de asociación están representadas por reglas de asociación.
Si existe una correlación entre dos o más atributos, entonces el valor de uno de los atributos se puede predecir en función de los valores de los otros atributos. En pocas palabras, las reglas de asociación se pueden expresar de esta manera: A → B, donde A se llama premisa o parte izquierda (LHS) y B se llama resultado o parte derecha (RHS). Si queremos describir la regla de asociación sobre pañales y cerveza (las personas que compran pañales también compran cerveza), entonces podemos expresarla así: compra pañales → compra cerveza.
Dos conceptos de algoritmos de asociación
Un concepto muy importante en los algoritmos de asociación es el soporte, que es la probabilidad de que el conjunto de datos contenga ciertos elementos específicos.
Por ejemplo, si la cerveza y los pañales aparecen juntos 50 veces en 1.000 transacciones de productos, entonces el apoyo de esta asociación es 5.
Otro concepto que está muy relacionado con el algoritmo de asociación es la confianza (Confidence), que es la probabilidad de que B ocurra cuando A ya aparece en el conjunto de datos. La fórmula de cálculo de la confianza es: A y B aparecen. al mismo tiempo. La probabilidad de/la probabilidad de que A aparezca.
La asociación de datos es un tipo importante de conocimiento detectable que existe en la base de datos. Si existe cierta regularidad entre los valores de dos o más variables, se llama correlación. Las asociaciones se pueden dividir en asociaciones simples, asociaciones temporales, asociaciones causales, etc. El propósito del análisis de correlación es encontrar la red de correlación oculta en la base de datos. A veces, la función de correlación de los datos en la base de datos no se conoce, o incluso si se conoce, es incierta, por lo que las reglas generadas por el análisis de correlación tienen un nivel de confianza.
La minería de reglas de asociación descubre asociaciones interesantes o conexiones relevantes entre conjuntos de elementos en grandes cantidades de datos. Es un tema importante en la minería de datos y ha sido ampliamente estudiado por la industria en los últimos años.
Un ejemplo típico de minería de reglas de asociación es el análisis de la cesta de la compra. La investigación de reglas de asociación ayuda a descubrir las conexiones entre diferentes productos (artículos) en la base de datos de transacciones y a descubrir patrones de comportamiento de compra de los clientes, como el impacto de la compra de un producto en la compra de otros productos. Los resultados del análisis se pueden aplicar al diseño de los estantes de productos, la disposición del inventario y la clasificación de los usuarios según los patrones de compra.
El proceso de descubrimiento de reglas de asociación se puede dividir en los dos pasos siguientes:
El primer paso es identificar iterativamente todos los conjuntos de elementos frecuentes (Conjuntos de elementos frecuentes), lo que requiere que el soporte de los conjuntos de elementos frecuentes no son inferiores al valor mínimo establecido por el usuario;
El segundo paso es construir reglas con niveles de confianza no inferiores al valor mínimo establecido por el usuario a partir del conjunto de elementos frecuentes para generar reglas de asociación. . Identificar o descubrir todos los conjuntos de elementos frecuentes es el núcleo del algoritmo de descubrimiento de reglas de asociación y también es la parte más intensiva desde el punto de vista computacional.
Los dos umbrales de apoyo y confianza son los dos conceptos más importantes al describir las reglas de asociación. La frecuencia de aparición de un grupo de elementos se denomina soporte, lo que refleja la importancia de las reglas de asociación en la base de datos. La confianza mide la credibilidad de las reglas de asociación. Si una regla satisface tanto el soporte mínimo (soporte mínimo) como la confianza mínima (confianza mínima), se denomina regla de asociación fuerte.
Fase de minería de datos de reglas de asociación
La primera fase debe encontrar todos los conjuntos de elementos de alta frecuencia (Large Itemsets) de la recopilación de datos original. Alta frecuencia significa que la frecuencia de aparición de un determinado grupo de elementos en relación con todos los registros debe alcanzar un cierto nivel.
Tomando como ejemplo un conjunto de 2 elementos que contiene dos elementos A y B, podemos encontrar el soporte del grupo de elementos que contiene {A, B}. Si el soporte es mayor o igual que el umbral mínimo de soporte establecido Cuando, {A, B} se denomina grupo de proyectos de alta frecuencia. Un conjunto de elementos k que satisface el soporte mínimo se denomina conjunto de elementos k de alta frecuencia (conjunto de elementos k frecuente), generalmente expresado como k grande o k frecuente. Luego, el algoritmo intenta generar conjuntos de elementos Large k 1 cuya longitud exceda k a partir de los grupos de elementos de Large k hasta que ya no se puedan encontrar grupos de elementos de alta frecuencia.
La segunda etapa de la minería de reglas de asociación es generar reglas de asociación. Generar reglas de asociación a partir de grupos de elementos de alta frecuencia es utilizar el grupo de elementos k de alta frecuencia en el paso anterior para generar reglas Por debajo del umbral condicional de credibilidad mínima (Confianza mínima), si la credibilidad obtenida por una regla satisface El mínimo. El nivel de confianza se llama regla de asociación.
Por ejemplo: si la regla generada por el grupo de k-items de alta frecuencia {A, B} tiene una credibilidad mayor o igual a la credibilidad mínima, {A, B} se llama regla de asociación .
En lo que respecta al caso de "Cerveza + Pañales", al utilizar la tecnología de minería de reglas de asociación para extraer registros en la base de datos de transacciones, primero debe establecer el soporte mínimo y el valor de umbral mínimo, aquí está. Se supone que el soporte mínimo min-support=5 y la confianza mínima min-confidence=65. Por lo tanto, las reglas de asociación que cumplan con los requisitos deben cumplir las dos condiciones anteriores al mismo tiempo. Si la regla de asociación {pañales, cerveza} encontrada mediante la minería cumple con las siguientes condiciones, se aceptará la regla de asociación {pañales, cerveza}. La fórmula se puede describir como:
Apoyo (pañales, cerveza) ≥ 5 y Confianza (pañales, cerveza) ≥ 65.
Entre ellos, Soporte (pañales, cerveza) ≥ 5 significa en este ejemplo de aplicación: en todos los datos del registro de transacciones, al menos 5 transacciones muestran que los pañales y la cerveza se compran al mismo tiempo. Confianza (pañales, cerveza) ≥ 65 significa en este ejemplo de aplicación: entre todos los registros de transacciones que contienen pañales, al menos 65 transacciones también comprarán cerveza.
Por lo tanto, si un consumidor compra pañales en el futuro, podremos recomendarle que compre cerveza al mismo tiempo. El comportamiento de esta recomendación de producto se basa en la regla de asociación {pañal, cerveza} porque, en términos de registros de transacciones anteriores, respalda el comportamiento de consumo de "la mayoría de las transacciones para comprar pañales también comprarán cerveza".
También se puede ver en la introducción anterior que la minería de reglas de asociación suele ser más adecuada para situaciones en las que los indicadores de los registros toman valores discretos.
Si los valores del indicador en la base de datos original son datos continuos, se debe realizar una discretización de datos adecuada antes de extraer las reglas de asociación (en realidad, los valores en un determinado intervalo están emparejados