Comprensión y aplicación sencilla del análisis de regresión
El análisis de regresión es un método de análisis estadístico que determina la relación cuantitativa entre dos o más variables. Es ampliamente utilizado. El análisis de regresión se divide en análisis de regresión y análisis de regresión múltiple según la cantidad de variables independientes involucradas. Según el número de variables independientes, se puede dividir en análisis de regresión univariante y análisis de regresión multivariable; según el tipo de relación entre variables independientes y variables dependientes, se puede dividir en análisis de regresión lineal y análisis de regresión no lineal. Si el análisis de regresión contiene solo una variable independiente y una variable dependiente, y la relación entre ellas se puede aproximar mediante una línea recta, este análisis de regresión se denomina análisis de regresión lineal. Si el análisis de regresión incluye dos o más variables independientes y existe una relación lineal entre la variable dependiente y las variables independientes, se denomina análisis de regresión lineal múltiple.
Definición
El análisis de regresión es uno de los métodos de análisis de datos más utilizados. Con base en los datos observados, establece dependencias apropiadas entre variables para analizar las leyes inherentes de los datos y puede usarse para predicción, control y otras cuestiones.
Homogeneidad de varianzas
Relación lineal
Acumulación de efectos
Variables sin error de medición
Variables Obey multivariante distribución normal.
Independencia de la observación
El modelo está completo (no hay variables que no deban ingresarse ni variables que deban ingresarse).
Los términos de error son independientes y obedecen a la distribución normal (0, 1).
Los datos reales a menudo no pueden satisfacer plenamente los supuestos anteriores. Por lo tanto, los estadísticos han desarrollado muchos modelos de regresión para abordar las limitaciones del proceso supuesto de los modelos de regresión lineal.
Método estadístico para estudiar la relación entre una o más variables aleatorias Y1, Y2,..., Yi y otras variables X1,..., Xk, también llamado análisis de regresión múltiple. Generalmente, Y1, Y2,…,Yi son variables dependientes, X1,,…,Xk son variables independientes. El análisis de regresión es un modelo matemático, especialmente cuando la variable dependiente y la variable independiente son lineales, es un modelo lineal especial. El caso más simple es el de la variable independiente y la variable dependiente, que generalmente son lineales. Este caso se llama regresión lineal, es decir, el modelo es Y=a bX ε, donde x es la variable independiente, Y es la variable dependiente, y ε es el error aleatorio. Generalmente se supone que el valor medio del error aleatorio es 0 y la varianza es σ2 (σ2 es mayor que 0). σ 2 es independiente del valor de x. Si asumimos además que los errores aleatorios siguen una distribución normal, se denomina modelo lineal normal. En términos generales, tiene k variables independientes y una variable dependiente. El valor de la variable dependiente se puede dividir en dos partes: una parte se debe a la influencia de las variables independientes, es decir, expresada en función de las variables independientes. donde se conoce la forma de la función, pero contiene algunos parámetros desconocidos, la otra parte es aleatoriedad debido a otros factores, es decir, error aleatorio; Cuando la forma de la función es una función lineal con parámetros desconocidos, se denomina modelo de análisis de regresión lineal; cuando la función es una función no lineal con parámetros desconocidos, se denomina modelo de análisis de regresión no lineal. Cuando el número de variables independientes es mayor que 1, se llama regresión múltiple, y cuando el número de variables dependientes es mayor que 1, se llama regresión múltiple.
Los principales contenidos del análisis de regresión son:
① A partir de un conjunto de datos, determinar la relación cuantitativa entre determinadas variables, es decir, establecer un modelo matemático y estimar parámetros desconocidos. Un método común para estimar parámetros es el método de mínimos cuadrados.
② Pon a prueba la credibilidad de estas relaciones.
(3) En una relación en la que múltiples variables independientes afectan conjuntamente a una variable dependiente, generalmente se usa para determinar qué (o cuáles) variables independientes tienen un impacto significativo y qué variables independientes tienen un impacto insignificante. lo que afectará a la variable independiente significativa. Las variables se introducen en el modelo y las variables con efectos insignificantes se eliminan, como la regresión por pasos, la regresión hacia adelante y la regresión hacia atrás.
④Utilizar las relaciones requeridas para predecir o controlar el proceso de producción. El análisis de regresión se utiliza ampliamente y los paquetes de software estadístico hacen que sea muy conveniente calcular varios métodos de regresión.
En el análisis de regresión las variables se dividen en dos categorías. Un tipo es la variable dependiente, que suele ser un tipo de indicador que preocupa en problemas prácticos, generalmente representado por y; el otro tipo de variable que afecta el valor de la variable dependiente se llama variable independiente, representada por x;
Los principales problemas en la investigación del análisis de regresión son:
(1) La determinación de la expresión de la relación cuantitativa entre Y y X se denomina ecuación de regresión;
② Pruebe la confiabilidad de la ecuación de regresión obtenida;
(3) Determine si la variable independiente X tiene un impacto en la variable dependiente Y;
(4) Utilice la ecuación de regresión obtenida para predicción y control.
Se puede decir que el análisis de regresión es la rama de la estadística más abundante y utilizada. Esto no es una exageración. Incluyendo la prueba T más simple y el análisis de varianza, también se puede clasificar en la categoría de regresión lineal. La prueba de chi-cuadrado también puede sustituirse por la regresión logística.
Hay muchos nombres para la regresión, como regresión lineal, regresión logística, regresión de Cox, regresión venenosa, regresión probit, etc., que siempre pueden marearte. Para que todos comprendan claramente los muchos rendimientos, aquí hay un breve resumen:
1. La regresión lineal es la primera regresión con la que entramos en contacto cuando aprendemos estadística. Incluso si no sabes nada más, al menos debes saber que la variable dependiente de la regresión lineal es una variable continua y la variable independiente puede ser una variable continua o una variable categórica. Si solo hay una variable independiente y solo dos tipos, entonces este tipo de regresión equivale a una prueba t. Si solo hay una variable independiente y tres o más categorías, entonces esta regresión equivale a un análisis de varianza. Si hay dos variables independientes, una continua y otra categórica, entonces este tipo de regresión equivale al análisis de covarianza. Por tanto, la regresión lineal debe ser precisa y la variable dependiente debe ser continua.
2. La regresión logística y la regresión lineal se han convertido en las dos regresiones principales, y su alcance de aplicación no es menor que el de la regresión lineal, e incluso tiene el potencial de brillar. Porque la regresión logística es muy fácil de usar y práctica. Se puede explicar directamente que si existen ciertos factores de riesgo, el riesgo de enfermedad aumentará 2,3 veces, lo que parece fácil de entender. En comparación con la regresión lineal, su importancia práctica es más débil. La regresión logística es exactamente lo opuesto a la regresión lineal en el sentido de que la variable dependiente debe ser una variable categórica, no una variable continua. Las variables categóricas pueden ser binarias o de múltiples categorías, y las de múltiples categorías pueden estar ordenadas o desordenadas. La regresión logística binaria a veces se divide en regresión logística condicional y regresión logística incondicional según el propósito de la investigación. La regresión logística condicional se utiliza para analizar datos pareados y la regresión logística incondicional se utiliza para analizar datos no pareados, es decir, muestreo aleatorio directo de datos. La regresión logística multiclase desordenada a veces se denomina modelo logit multinomial, y la regresión logística ordenada a veces se denomina modelo logit de razón acumulativa.
3. Regresión de Cox. La variable dependiente de la regresión de Cox es algo especial, porque su variable dependiente debe tener dos al mismo tiempo, una que represente el estado y la otra que represente el tiempo, y debe ser una variable continua. . El análisis de regresión de Cox sólo se puede utilizar cuando ambas variables están disponibles. La regresión de Cox se utiliza principalmente para el análisis de datos de supervivencia, en los que hay al menos dos variables de resultado, una es la muerte, ¿está vivo o muerto? El segundo es el momento de la muerte. Si ocurre la muerte, ¿cuándo ocurrirá? Si está vivo, ¿cuánto tiempo transcurrió desde el principio hasta el final de la observación? Entonces, con estas dos variables, podemos considerar el uso del análisis de regresión de Cox.
4. La regresión de Poisson. La regresión de Poisson no se utiliza tan ampliamente como las tres primeras. Pero en la práctica, si puede utilizar la regresión logística, normalmente puede utilizar la regresión de Poisson. La variable dependiente de la regresión de Poisson es un número, es decir, ¿cuántas personas están enfermas después de observar durante un período de tiempo? ¿O cuántas personas murieron? Espera un momento. De hecho, es similar a la regresión logística, porque ya sea que el resultado de la regresión logística sea incidencia o muerte, también es necesario utilizar el número de casos y muertes. Si lo piensas detenidamente, en realidad es lo mismo que cuántas personas se enferman y cuántas mueren. Es solo que la regresión del veneno no es tan famosa como la logística, por lo que no hay tanta gente que la utilice como logística. Pero no crea que la regresión de Poisson es inútil.
5. La regresión probabilística es realmente inútil en medicina. El problema clave es que la palabra probit es demasiado difícil de entender y normalmente se traduce a una unidad de probabilidad. La función probit en realidad está muy cerca de la función logística y los resultados de su análisis también lo están muy cerca.
La regresión lineal ordinaria tiene solo una variable dependiente, mientras que la regresión de mínimos cuadrados parciales se puede utilizar para el análisis entre múltiples variables dependientes y múltiples variables independientes. Debido a que su principio es extraer simultáneamente información de múltiples variables dependientes y múltiples variables independientes para formar nuevas variables para el reanálisis, múltiples variables dependientes no le importan.
Después de leer la explicación anterior, espero que te resulte útil para comprender la aplicación del análisis de regresión.
Lo anterior es la comprensión y la aplicación sencilla del análisis de regresión compartida por el editor. Para obtener más información, puede seguir a Global Ivy para compartir más información detallada.