Solicitar preguntas del examen de minería de datos
1. ¿Qué es el análisis de correlación?
El análisis de correlación es un tipo de algoritmo comúnmente utilizado en el campo de la minería de datos. Se utiliza principalmente para descubrir conexiones significativas ocultas en grandes conjuntos de datos.
El ejemplo más familiar es el de los pañales y la cerveza, expresados como reglas de asociación en la forma {urinario} - gt; Este es el resultado obtenido al utilizar el método de análisis de asociación, y los resultados obtenidos mediante el análisis de asociación se pueden expresar en forma de reglas de asociación o conjuntos de elementos frecuentes.
Al realizar análisis de correlación, a menudo nos encontramos con los dos problemas siguientes:
A. Descubrir patrones a partir de grandes conjuntos de datos generalmente requiere un costo computacional enorme. A menudo es incluso imposible, y nosotros. A menudo utilizamos la poda de confianza y apoyo para resolver este problema.
B. Algunos de los patrones encontrados pueden ser falsos. Necesitamos utilizar alguna evaluación de reglas de asociación para resolver este problema.
2. Conceptos básicos
A. Conjunto de elementos: en el análisis de asociación, un conjunto que contiene 0 o más elementos se denomina conjunto de elementos. Si un conjunto de elementos contiene k elementos, se denomina conjunto de k elementos. Por ejemplo, {leche, café} se denomina conjunto de 2 elementos.
B. Soporte: el soporte se utiliza para determinar la frecuencia de un conjunto de datos determinado, es decir, la frecuencia de un conjunto de datos determinado que aparece en todos los conjuntos de datos, como s (X -gt; Y). = P (X, Y) / N
C Confianza: La confianza se utiliza para determinar con qué frecuencia aparece Y en transacciones que contienen X, es decir, c(X -gt; Y) = P( X, Y) / P(X)
3. Principios básicos del algoritmo de análisis de correlación
La importancia del soporte y la confianza es que el soporte es una medida importante si el grado de soporte es muy bajo. , lo que significa que esta regla sólo aparece accidentalmente y básicamente no tiene sentido. Por lo tanto, el apoyo se utiliza a menudo para eliminar reglas sin sentido. La confianza es la confiabilidad del razonamiento a través de reglas. En términos de c(X-gt;Y), solo cuanto mayor sea la confianza, mayor será la probabilidad de que Y aparezca en una transacción que contenga X; de lo contrario, esta regla no tiene sentido.
Por lo general, cuando descubrimos reglas de asociación, establecemos los umbrales de soporte y confianza minsup y minconf. El descubrimiento de reglas de asociación consiste en descubrir todas las reglas cuyo soporte es mayor o igual que minsup y cuya confianza es mayor que. minconf. Por tanto, la forma más sencilla de mejorar la eficiencia del algoritmo de análisis de correlación es aumentar los umbrales de apoyo y confianza.
Entonces, a través de los conceptos anteriores, podemos pensar naturalmente en el algoritmo básico del análisis de asociación:
A. Encontrar todos los conjuntos de elementos que satisfagan el umbral mínimo de soporte, al que llamamos es un. conjunto de elementos frecuentes. (Por ejemplo, conjuntos binomiales frecuentes, conjuntos trinomiales frecuentes)
B. Encuentre todas las reglas que satisfagan el nivel mínimo de confianza de los conjuntos de elementos frecuentes.
4. Evaluación de algoritmos de análisis de asociación
A. Medición objetiva del interés
Primero, consideremos las limitaciones del marco de apoyo-confianza.
El primero es el apoyo, por ejemplo, en el mercado del libro, el número de libros de literatura es mucho mayor que el de los libros de física, por lo que el apoyo a las reglas de los libros de física será muy bajo, lo que aumentará. conduce a muchos libros de física. Las reglas de asociación de los libros se filtran.
El siguiente paso es la confianza. Por ejemplo, medimos a 1.000 personas y descubrimos que a 200 les gusta beber té, a 150 les gusta tomar café y a 50 no les gusta. Luego pasamos la confianza. nivel El cálculo encontró que el nivel de confianza de c (beber té-gt; beber café) es muy alto, por lo que podemos deducir que a las personas a las que les gusta beber té también les gusta tomar café. Pero, de hecho, si miramos la siguiente encuesta, entre las 800 personas a las que no les gusta beber té, a 650 les gusta tomar café. En resumen, podemos encontrar que beber té y tomar café son en realidad dos eventos independientes.
Entonces podemos resumir que la deficiencia de la confianza es que la medida de confianza ignora el respaldo del ítem establecido en la regla consecuente.
(A) Para resolver este problema, introducimos una métrica, llamada elevación, para calcular la relación de confianza y el soporte consecuente del conjunto de elementos de la regla:
lift(A-gt; B) = c(A-gt;B) / s(B)
Luego, para conjuntos de elementos binarios, podemos hacer la siguiente transformación:
lift(X-gt;Y) = c(X-gt;Y) / s(Y) = ( p(X,Y) / p(X) ) / p(Y) = p(X,Y) / p(X)p(Y)
Así que aquí podemos llamar a lift(X-gt;Y) el factor de interés, expresado como I(A, B)
A través del conocimiento de la probabilidad, podemos saber que si X El evento y el evento Y son independientes entre sí (o lo llamamos satisfacer el supuesto de independencia del evento), entonces p(X, Y) = p(X) * p(Y), entonces entonces la medida del factor de interés puede se expresará de la siguiente manera:
Cuando I(A, B) = 1, decimos que A y B son independientes entre sí. Cuando I(A, B) lt; decimos A y B. están correlacionados negativamente; de lo contrario, decimos que A y B están correlacionados positivamente.
Pero a partir de este sencillo modelo de cálculo, podemos sentir fácilmente que no es fiable utilizar simplemente factores de interés para medir la correlación. Los ejemplos son particularmente fáciles de encontrar.
(B) Correspondiente al factor de interés, existe otro análisis relacionado, la medición del IS y otros métodos de medición objetiva de interés.