El caso explica en detalle todo el proceso de análisis de conglomerados de SPSS.
El caso explica en detalle todo el proceso de análisis de conglomerados de SPSS.
Fuente de datos del caso:
Hay datos sobre los ingredientes y precios de 20 tipos de 12. -onza de cerveza. Las variables incluyen el nombre de la cerveza, las calorías, el contenido de sodio, el contenido de alcohol y el precio. Pregunta 1: ¿Qué variables se deben seleccionar para la agrupación? - Uso de la "agrupación tipo R"
1. Ahora tenemos 4 variables utilizadas para clasificar la cerveza. ¿Es necesario incluir las 4 variables como variables categóricas? Los tres indicadores de calorías, contenido de sodio y contenido de alcohol requieren el arduo trabajo de los técnicos de laboratorio para medirlos, y también cuesta mucho dinero si se incluyen todos en el análisis, ¿no sería demasiado problemático y un desperdicio? Entonces, es necesario reducir la dimensionalidad de las cuatro variables. Aquí, se utiliza la agrupación de tipo R de spss (agrupación de variables) para reducir la dimensionalidad de las cuatro variables. Generar la "matriz de similitud" nos ayuda a comprender el proceso de reducción de dimensionalidad.
2. Las cuatro variables categóricas tienen dimensiones diferentes. Esta vez primero determinamos usar la similitud para medir, seleccionamos el coeficiente de Pearson como métrica y seleccionamos el elemento más lejano como método de agrupación. La correlación está involucrada. No es necesario estandarizar las cuatro variables, y los números en la matriz de similitud futura son coeficientes de correlación. Si el coeficiente de correlación de dos variables es cercano a 1 o -1, significa que las dos variables pueden reemplazarse entre sí. 3. Simplemente genere el "dendrograma". Personalmente, creo que el gráfico de carámbano es muy complicado y no parece tan claro como el gráfico de árbol. En la tabla de la matriz de proximidad, podemos ver que el coeficiente de correlación de las dos variables, contenido de calorías y alcohol, es 0,903, que es el mayor. Puede elegir una de las dos variables. No es necesario utilizar ambas como variables de agrupación. lo que conducirá a mayores costos. En cuanto a cuál de las calorías y el contenido de alcohol se selecciona como indicador típico para reemplazar las dos variables originales, se puede decidir en función del conocimiento profesional o la dificultad de la medición. (A diferencia del análisis factorial, una de las variables se elimina por completo para lograr la reducción de dimensionalidad). Aquí se selecciona el contenido de alcohol. En este punto, se determina que las variables utilizadas para la agrupación son: contenido de alcohol, contenido de sodio y precio.
Segunda pregunta dos: ¿En cuántas categorías se pueden dividir las 20 cervezas? - Usando "agrupación tipo Q" 1. Ahora comience a agrupar las 20 cervezas. Al principio no estaba seguro en cuántas categorías debía dividirse, así que usé un rango de 3 a 5 categorías para probar por ahora. La agrupación de tipo Q requiere las mismas dimensiones, por lo que necesitamos estandarizar los datos. Esta vez usamos la distancia euclidiana al cuadrado para medir. 2. Comprender categorías principalmente a través de diagramas de árbol y diagramas de carámbanos. Que finalmente se clasifique en 4 categorías o en 3 categorías es un proceso complejo que requiere conocimiento profesional y un propósito original para identificarlo. Estoy tratando de identificar 4 categorías aquí. Seleccione "Guardar" para generar automáticamente resultados de agrupación en el área de datos. Pregunta 3: ¿Las variables utilizadas para la agrupación contribuyen al proceso y a los resultados de agrupación? ¿Son útiles? Utilice el "análisis de varianza de un solo factor" 1. Además de la discusión sobre la determinación de categorías, el análisis de agrupación también tiene una función. comparación La pregunta clave es si las variables de clasificación tienen algún efecto o contribución al agrupamiento. Si hay variables individuales que no tienen ningún efecto en la clasificación, deben eliminarse. 2. Este proceso generalmente se juzga mediante un análisis de varianza de un factor. Tenga en cuenta que en este momento, las variables factoriales se seleccionan para agruparlas en cuatro categorías y las tres variables agrupadas se tratan como variables dependientes. Los resultados del análisis de varianza muestran que los valores sig de las tres variables de agrupamiento son extremadamente significativos. Las tres variables que utilizamos para la clasificación tienen un efecto en la clasificación y pueden usarse como variables de agrupamiento. Pregunta 4: ¿Interpretación de los resultados de agrupamiento? - Utilice "estadísticas descriptivas de comparación de medias" 1. El último paso del análisis de conglomerados y el más difícil es definir y explicar las categorías separadas y describir las características de cada categoría, es decir, cada categoría. descripción de la característica. Esto requiere conocimientos profesionales como base y combinados con fines analíticos. 2. Podemos utilizar el proceso de comparación de medias de spss o la función de tabla dinámica de Excel para describir varios indicadores. Entre ellos, el informe se utiliza para describir los resultados de la agrupación. Comparar diversos indicadores para definir inicialmente categorías, basadas principalmente en conocimientos profesionales. Eso es todo por ahora. El proceso anterior implica agrupación de tipo Q y agrupación de tipo R en agrupación jerárquica de spss, análisis de varianza de un solo factor, proceso de medias, etc. Es un muy buen caso de uso conjunto de múltiples métodos de análisis.