Red de conocimiento de recetas - Recetas gastronómicas - Estadística multivariada SPSS

Estadística multivariada SPSS

La base de la popularidad de los modelos de regresión es su uso para predecir y explicar variables medidas. Sin embargo, la regresión múltiple general no es adecuada para resolver problemas donde las variables explicadas son variables no métricas.

El análisis discriminante es adecuado para situaciones en las que la variable explicada es una variable no métrica (variable de atributo) y la variable explicada es medible (la media y la varianza se calculan y se aplican a funciones estadísticas). Por ejemplo, la categoría del objeto.

Tarea: utilizar SPSS para realizar un análisis discriminante en el conjunto de datos del iris.

Se puede ver que estas 150 muestras son todas válidas. No se pierde ninguna variable.

Resultado: En el nivel de significancia 0.01 se rechazó la hipótesis nula, es decir, las longitudes de los tres grupos fueron diferentes.

La figura anterior refleja el logaritmo del rango y determinante de la matriz de covarianza. Como puede verse en los valores determinantes, la matriz de covarianza no es una matriz mal condicionada.

La figura anterior muestra que la hipótesis nula se rechaza en el nivel de significancia de 0,05 (las covarianzas son iguales)

También tiene sentido cuando se utiliza agrupación, por lo que la forma de matriz de covarianza de agrupación se utiliza.

La figura anterior refleja la raíz característica de la función discriminante, la proporción de varianza explicada y el coeficiente de correlación canónico.

La varianza explicada por la primera función discriminante es 99,1 y la varianza explicada por la segunda función discriminante es 0,9.

La prueba muestra que las dos funciones discriminantes son significativas al nivel de significancia 0,05.

El centro del grupo Y=3 es (5.783, 0.513).

El centro del grupo Y=2 es (1.825, -0.728).

El centro del grupo Y=1 es (-7.608, 0.25438 05).

La primera tabla resume el proceso de clasificación, mostrando que en la clasificación participaron 150 observaciones.

La segunda tabla muestra la probabilidad a priori de cada grupo: cuando elegimos entre las opciones de clasificación, todos los grupos son iguales.

La tercera tabla es la función de clasificación de cada grupo: (diferente de la función discriminante)

Podemos calcular el valor de la función de clasificación de cada grupo excepto para cada valor de observación, y luego combine las observaciones Los valores se clasifican en valores de funciones categóricas más grandes.

La cuarta tabla es la tabla de matriz de clasificación:

La validación cruzada aquí adopta el principio de "omitir una". Cada observación se obtiene de todas las observaciones excepto esta. .

Finalmente, se muestra un diagrama esquemático del resultado de la clasificación:

El iris de cerdas se puede distinguir claramente del iris abigarrado y del iris de playa, y el iris de cerdas se puede distinguir claramente del iris de iris junto al mar.

Hay un área de superposición entre el iris abigarrado y el iris costero, lo que significa que hay un error de juicio.

Del análisis anterior se encuentra que las matrices de covarianzas no son iguales, por lo que se puede considerar la matriz de covarianzas agrupadas. Los resultados de la clasificación son los siguientes:

Los resultados muestran que no existe una diferencia significativa entre la matriz de covarianza dentro del grupo y la matriz de covarianza de agrupación, por lo que la matriz de covarianza dentro del grupo se puede utilizar para la discriminación.

Existe una cierta correlación lineal entre los ocho indicadores del nivel de consumo de los residentes urbanos. Para estudiar la estructura de consumo de los residentes urbanos, es necesario fusionar indicadores altamente correlacionados, lo que en realidad es una agrupación de indicadores.

Los principios y pasos de los diferentes métodos de agrupación son básicamente los mismos. La diferencia es que la definición de distancia entre clases es diferente.

Aquí utilizamos la distancia euclidiana para clasificar 31 provincias, municipios y regiones autónomas utilizando el método de promedio de clase, el método de distancia más corta y el método de distancia más larga. El funcionamiento de la agrupación promedio de clases en SPSS es el siguiente:

Selección de parámetros opcionales

Analizar 12 indicadores, X1-X12, para analizar y evaluar el nivel de desarrollo integral de cada ciudad.

Busque el cuadro de diálogo Análisis factorial:

Haga clic en Continuar y Aceptar.

A continuación, observe la tabla de explicación de la varianza y el diagrama de grava para saber qué factores comunes se seleccionaron:

Como se muestra en la figura, las tasas de contribución de la varianza de los tres factores seleccionados son respectivamente :55.59, 22.30, 9.22.

Pero esta vez, lo que obtienes es el factor común sin rotar. Su importancia práctica es difícil de explicar.

Luego se rotan los factores y los resultados se ordenan por tamaño, de modo que las columnas de la matriz de carga de salida se organizan según el tamaño del coeficiente de carga:

Finalmente se calcula el Puntuación del factor:

Este método de evaluación se utiliza ampliamente en la actualidad, pero también es controvertido y debe utilizarse con precaución.

La operación es la siguiente:

Grafica la puntuación factorial de cada ciudad:

Selecciona distribución simple:

Selecciona FAC1 y FAC2 sirve como eje X e Y; haga clic en Aceptar:

Se puede ver en la matriz de carga factorial rotada que el factor público F1 está en el volumen total de carga), x4 (número de empleados en el comercio mayorista, minorista, alojamiento y restauración), x5 (ingresos del presupuesto de las administraciones locales), x6 (saldo de ahorro de fin de año de los residentes urbanos y rurales), x7 (saldo de ahorro anual de los residentes urbanos y rurales).

Por tanto, la F1 es un factor común que refleja el tamaño de la ciudad y el nivel de desarrollo económico.

Debido a las pesadas cargas en x10 (un árbol de autobús por cada 10.000 personas), x11 (área de pavimento per cápita) y x12 (espacio verde público per cápita), son factores públicos que reflejan el nivel de infraestructura urbana.

F3 solo tiene una gran carga en x9 (área habitable per cápita), que es un factor común que refleja el estado de vivienda de los residentes urbanos.

Con una explicación razonable de cada factor común, combinada con las puntuaciones de cada ciudad en los tres factores comunes y la puntuación integral, se puede evaluar el nivel de desarrollo integral de cada ciudad central:

F1 (factor de escala económica de la ciudad) obtiene puntuaciones más altas: Shanghai, Beijing, Guangzhou, Tianjin, Chongqing.

Las puntuaciones del F1 (factor de escala económica urbana) son bajas: Xining, Yinchuan y Haikou.

F2 (factor de infraestructura) obtiene puntuaciones más altas: Shenzhen, Guangzhou y Nanjing.

Las puntuaciones del F2 (factor de infraestructura) son bajas: Chongqing y Wuhan.

F3 (factor residencial) obtiene puntuaciones más altas: Shanghai, Chongqing, Shenzhen.

Las puntuaciones del F3 (factor de vivienda residencial) son bajas: Beijing y Harbin.

Las 5 mejores puntuaciones integrales: Shanghai, Beijing, Shenzhen, Guangzhou y Tianjin.

Después de puntuaciones completas, los cinco primeros son Xining, Yinchuan, Lanzhou, Hohhot y Haikou.

Luego analice combinando las puntuaciones de cada factor:

Del análisis del gráfico de puntuación de factores, podemos ver:

En términos de tamaño de la ciudad, Las ciudades emergentes son mejores que las ciudades establecidas.

En términos de nivel de infraestructura, las ciudades del sur son generalmente mejores que las del norte, y las ciudades emergentes son mejores que las antiguas.

En general, las ciudades del este son más altas que las del oeste.

Los niveles de desarrollo de Shanghai, Beijing y Shenzhen son similares:

Shanghai es de gran escala pero tiene un bajo nivel de infraestructura.

Beijing es de gran escala y tiene buena infraestructura, pero la superficie habitacional per cápita es pequeña.

Shenzhen es de pequeña escala, pero tiene un alto nivel de infraestructura y una gran superficie habitable per cápita.

Entre ellas, 18 ciudades están ubicadas en el tercer cuadrante del mapa de puntuación de factores, la mayoría de las cuales están ubicadas en las regiones central y occidental. Por lo tanto, cómo acelerar el desarrollo de estas ciudades y promover el progreso de las áreas circundantes es un tema importante que afecta el desarrollo económico general de nuestro país.

El punto de vista geométrico del análisis de componentes principales consiste en reemplazar el sistema de coordenadas original por un nuevo sistema de coordenadas. Haga que el costo de reducción de dimensionalidad en el nuevo sistema de coordenadas sea lo más pequeño posible.

Luego se puede transformar linealmente: [Imagen-14687 b-1657953033634].

Girar el sistema de coordenadas. (Por cierto, recomiendo "La esencia del álgebra lineal" en Bilibili.)

En la evaluación de los beneficios económicos corporativos, a menudo hay muchos indicadores bien diseñados. Para simplificar la estructura del sistema y comprender las principales cuestiones en la evaluación de beneficios económicos, los componentes principales se pueden extraer de la matriz de datos original.

Tamaño de muestra: n=28, número de variables: p=9.

Consulte el caso en línea:

El análisis de componentes principales y el análisis factorial se completan en el módulo de análisis factorial:

La suma de las varianzas de los dos primeros Los componentes principales y1 e y2 representan La suma de las varianzas totales es 84,7.

Elegimos y1 como el primer componente principal y y2 como el segundo componente principal, que básicamente retiene la información de los indicadores originales, convirtiendo así los 9 indicadores originales en 2 nuevos indicadores, lo que desempeña un papel en la reducción de dimensionalidad.

El resultado de salida de la matriz de carga factorial obtenida por SPSS se muestra en la siguiente figura:

Para cada elemento de cada categoría en la figura, tome la raíz cuadrada de la I- ª raíz característica [Imagen-6aa 51A -1657953033634].

Obtenga el análisis de los componentes principales de la primera [Error en la carga de la imagen...(Picture-5d98fb-1657953033634)].

Coeficientes de componentes principales.