Introducción a las reglas de asociación
En un supermercado se produce un fenómeno interesante: pañales y cerveza se venden juntos. Pero la extraña medida aumentó las ventas de pañales y cerveza. Esto no es una broma, sino un caso real ocurrido en la cadena de supermercados estadounidense Wal-Mart, y del que han hablado las empresas. Walmart tiene el sistema de almacenamiento de datos más grande del mundo. Para comprender con precisión los hábitos de compra de los clientes en sus tiendas, Walmart realiza un análisis de la cesta sobre el comportamiento de compra de los clientes y quiere saber qué productos suelen comprar juntos. El almacén de datos de Walmart centraliza datos detallados de transacciones sin procesar de sus tiendas. Con base en estos datos de transacciones originales, Walmart utiliza métodos de minería de datos para analizar y extraer estos datos. ¡Un descubrimiento inesperado es que la cerveza es el artículo más comprado junto con los pañales! Después de mucha investigación y análisis, se revela que se revela el patrón de comportamiento de los estadounidenses que se esconden detrás de pañales y cerveza: en los Estados Unidos, algunos padres jóvenes suelen ir al supermercado a comprar pañales para bebés después de salir del trabajo, y 30 Del % al 40% de ellos también les dan Cómprese una cerveza. La razón de este fenómeno es que las esposas estadounidenses a menudo les dicen a sus maridos que compren pañales para sus hijos después de salir del trabajo. Después de comprarlos, el marido les trae su cerveza favorita. La motivación original de las reglas de asociación fue resolver el problema del análisis de la canasta de mercado. Supongamos que el gerente de una tienda quiere saber más sobre los hábitos de compra de un cliente. En particular, ¿quiere saber qué productos es probable que compren los clientes al mismo tiempo que compran? Para responder a esta pregunta, podemos hacer un análisis de la cesta de la compra del volumen minorista de los artículos de un cliente en la tienda. Este proceso analiza los hábitos de compra de los clientes descubriendo relaciones entre los diferentes artículos que ponen en su "cesta de la compra". El descubrimiento de esta correlación puede ayudar a los minoristas a comprender qué artículos compran con frecuencia los clientes al mismo tiempo, ayudándoles así a desarrollar mejores estrategias de marketing.
En 1993, Agrawal et al. propusieron por primera vez el concepto de reglas de asociación y también proporcionaron el algoritmo de minería correspondiente AIS, pero su rendimiento fue deficiente. En 1994, establecieron la teoría del espacio reticular de conjuntos de elementos y propusieron el famoso algoritmo Apriori basado en los dos teoremas anteriores. Hasta ahora, Apriori todavía se discute ampliamente como un algoritmo clásico para la minería de reglas de asociación, y muchos investigadores han investigado mucho sobre la minería de reglas de asociación en el futuro. Según la investigación de Han Jiawei et al., las reglas de asociación se definen como:
Supongamos que es una colección de elementos. Dada una base de datos de transacciones D, cada transacción)t es un subconjunto no vacío de I, es decir, cada transacción corresponde a un identificador único TID (ID de transacción). El soporte de las reglas de asociación en D es el porcentaje de transacciones en D que contienen tanto X como Y, es decir, el nivel de confianza es el porcentaje de Y cuando las transacciones en D ya contienen X, es decir, el condicional; probabilidad. Una regla de asociación se considera interesante si se cumplen el umbral mínimo de soporte y el umbral mínimo de confianza. Estos umbrales se establecen artificialmente en función de las necesidades mineras.
Conceptos básicos Tabla 1: Ejemplo simple de reglas de asociación El proceso de minería de reglas de asociación incluye principalmente dos etapas: en la primera etapa, todos los conjuntos de elementos de alta frecuencia se deben encontrar a partir del conjunto de datos en la segunda; etapa, a partir de estos elementos de alta frecuencia se concentran para generar reglas de asociación.
En la primera etapa de la minería de reglas de asociación, todos los conjuntos de elementos grandes deben encontrarse a partir del conjunto de datos original. Alta frecuencia significa que la frecuencia de un determinado grupo de elementos en relación con todos los registros debe alcanzar un cierto nivel. La frecuencia con la que aparece el equipo del proyecto se llama apoyo. Tomando como ejemplo un conjunto de 2 elementos que contiene dos elementos A y B, el soporte del grupo de elementos que contiene {A, B} se puede obtener mediante la fórmula (1). Si el soporte es mayor o igual al umbral mínimo de soporte establecido, {A, B} se denomina grupo de artículos de alta frecuencia. El conjunto de k elementos que satisface el soporte mínimo se denomina conjunto de k elementos frecuentes, generalmente expresado como k grande o k frecuente. El algoritmo también genera k + 1 grande a partir del grupo de k elementos grandes hasta que no se puedan encontrar elementos de alta frecuencia. encontrado más.
La segunda etapa de la minería de reglas de asociación es generar reglas de asociación. Generar reglas de asociación a partir de grupos de elementos de alta frecuencia consiste en utilizar las reglas de generación de grupos de elementos k de alta frecuencia en el paso anterior. Bajo el umbral condicional de confianza mínima, si la credibilidad obtenida por una regla cumple con la confianza mínima, esta regla se denomina regla de asociación. Por ejemplo, la confiabilidad de la regla AB generada por el grupo de elementos k de alta frecuencia {A, B} se puede obtener mediante la fórmula (2). Si la confiabilidad es mayor o igual que la confiabilidad mínima, AB se denomina regla de asociación.
En el caso de Vuormaa, para utilizar la tecnología de minería de reglas de asociación para extraer registros en la base de datos de transacciones, primero debemos establecer dos umbrales: soporte mínimo y confianza mínima. Supongamos que el soporte mínimo min_support=5% y la confianza mínima min_confidence=70%. . Por tanto, las normas de la asociación que satisfagan las necesidades de este supermercado deben cumplir las dos condiciones anteriores al mismo tiempo. Si la regla de asociación "pañal, cerveza" encontrada mediante el proceso de extracción satisface las siguientes condiciones, se aceptará la regla de asociación "pañal, cerveza". El apoyo (pañal, cerveza) se puede describir mediante la fórmula >:=5%, confianza (pañal, cerveza) >=70%. Entre ellos, soporte (pañales, cerveza) >: En este ejemplo de aplicación, la importancia de =5% es que al menos el 5% de todos los registros de transacciones muestran que los pañales y la cerveza se compraron al mismo tiempo. En este ejemplo de aplicación, el nivel de confianza (pañales, cerveza) >=70 % significa que al menos el 70 % de todos los registros de transacciones, incluidos los pañales, también comprarán cerveza. Por lo tanto, si un consumidor compra pañales en el futuro, el supermercado podrá recomendarle que compre cerveza al mismo tiempo. Este comportamiento de recomendación de productos se basa en la regla de asociación "pañales, cerveza", porque los registros de transacciones anteriores del supermercado respaldan el comportamiento del consumidor de que "la mayoría de las compras de pañales también incluirán la compra de cerveza".
También se puede ver en la introducción anterior que la minería de reglas de asociación suele ser más adecuada para situaciones en las que los indicadores de los registros toman valores discretos. Si los valores del índice en la base de datos original son datos continuos, entonces los datos deben discretizarse adecuadamente antes de las reglas de asociación minera (en realidad, un valor en un determinado intervalo corresponde a un determinado valor). La discretización de datos es un paso importante antes de la extracción de datos. Si el proceso de discretización es razonable afectará directamente los resultados de la extracción de las reglas de asociación.