Red de conocimiento de recetas - Servicios de restauración - Comparación de las ventajas y desventajas de cuatro conjuntos de datos diferentes para el aprendizaje automático

Comparación de las ventajas y desventajas de cuatro conjuntos de datos diferentes para el aprendizaje automático

Comparación de las ventajas y desventajas de cuatro conjuntos de datos diferentes para el aprendizaje automático

La fuente de datos determina el algoritmo de aprendizaje automático y la elección del algoritmo de la máquina también determina la calidad de los datos. análisis, etc. Por lo tanto, cuando elegimos un algoritmo de máquina, primero debemos comprender los pros y los contras y las características principales de cada conjunto de datos de aprendizaje automático antes de que podamos comenzar a procesarlo, para lograr el doble de resultado con la mitad del esfuerzo. Echemos un vistazo a la comparación de 4 conjuntos de datos de aprendizaje automático diferentes con el editor de Dasheng Crowdsourcing.

Iris

Iris, también conocido como conjunto de datos de flores de iris, es un tipo de conjunto de datos para análisis multivariable. Utilice los cuatro atributos de longitud del cáliz, ancho del cáliz, longitud del pétalo y ancho del pétalo para predecir a cuál de las tres categorías pertenece la flor del iris (Setosa, Versicolor, Virginica).

Adultos

Estos datos se extraen de la base de datos del censo de EE. UU. de 1994 y se pueden utilizar para predecir si los ingresos de los residentes superan los 50.000 dólares al año. La variable de clase de este conjunto de datos es si el ingreso anual supera los 50k$. Las variables de atributos incluyen información importante como edad, tipo de trabajo, educación, ocupación, raza, etc. Cabe mencionar que hay 7 variables categóricas entre las. 14 variables de atributos.

Vino

Este conjunto de datos contiene ***178 registros de 3 vinos de diferentes orígenes. Los 13 atributos son los 13 componentes químicos del vino. El análisis químico se puede utilizar para deducir el origen del vino. Cabe mencionar que todas las variables de atributos son variables continuas.

CarEvaluación

Este es un conjunto de datos sobre la evaluación de automóviles. Las variables de categoría son evaluaciones de automóviles (unacc, ACC, bueno, vgood) que representan respectivamente (inaceptable, aceptable, bueno, muy). bueno), y las seis variables de atributos son "precio de compra", "tarifa de mantenimiento", "número de puertas", "número de personas que se pueden acomodar", "tamaño del baúl" y "seguridad". Vale la pena mencionar que las seis variables de atributos son variables categóricas ordenadas. Por ejemplo, el valor de "capacidad" puede ser "2, 4, más" y el valor de "seguridad" puede ser "bajo, medio, alto".

Resumen

Al comparar las diferencias entre los cuatro conjuntos de datos anteriores, podemos simplemente resumir: cuando necesitamos probar una mayor cantidad de datos, podemos pensar en "Adulto"; cuando queremos estudiar variables Cuando queremos estudiar la correlación entre variables, podemos elegir "Iris" y "Wine" cuyos valores de variables son solo números enteros o reales, cuando queremos estudiar regresión logística, podemos elegir "; Adulto" cuyos valores de variables de clase solo tienen dos tipos; cuando queremos estudiar categorías Al convertir variables, podemos elegir "CarEvaluación" cuya variable de atributo es una categoría ordenada. El editor de Dasheng Crowdsourcing sugiere que es necesario hacer más intentos para comprender mejor estos conjuntos de datos.