Red de conocimiento de recetas - Recetas de frutas - ¿Qué es big data? ¿Cuáles son los casos típicos de big data?

¿Qué es big data? ¿Cuáles son los casos típicos de big data?

"Big data" es un conjunto de datos con un volumen muy grande y una categoría de datos muy grande, y el contenido de dicho conjunto de datos no se puede capturar, administrar ni procesar utilizando herramientas de bases de datos tradicionales. "Big data" se refiere primero a grandes volúmenes de datos (volúmenes), que se refieren a grandes conjuntos de datos, generalmente de alrededor de 10 TB. Sin embargo, en aplicaciones prácticas, muchos usuarios empresariales reúnen varios conjuntos de datos para formar un volumen de datos a nivel de PB; En segundo lugar, se refiere a la gran variedad de datos. Los datos provienen de una variedad de fuentes de datos y se están volviendo cada vez más ricos. Ha superado el alcance previamente limitado de los datos estructurados e incluye datos semiestructurados y no estructurados. datos. Lo siguiente es la velocidad de procesamiento de datos (Velocity), que permite el procesamiento de datos en tiempo real incluso cuando la cantidad de datos es muy grande. La última característica se refiere a la alta veracidad de los datos. Con el interés en nuevas fuentes de datos, como datos sociales, contenido empresarial, datos de transacciones y aplicaciones, las limitaciones de las fuentes de datos tradicionales se rompen y las empresas necesitan cada vez más información eficaz para garantizar su autenticidad. y seguridad.

Recopilación de datos: las herramientas ETL son responsables de extraer datos de fuentes de datos distribuidas y heterogéneas, como datos relacionales, archivos de datos planos, etc., a la capa intermedia temporal para su limpieza, conversión, integración y, finalmente, Al cargarlo en el almacén de datos o en el mercado de datos, se convierte en la base para el análisis, el procesamiento y la extracción de datos en línea.

Acceso a datos: base de datos relacional, NOSQL, SQL, etc.

Infraestructura: almacenamiento en la nube, almacenamiento distribuido de archivos, etc.

Procesamiento de datos: El procesamiento del lenguaje natural (NLP, NaturalLanguageProcessing) es una disciplina que estudia cuestiones del lenguaje en la interacción entre humanos y ordenadores. La clave para procesar el lenguaje natural es permitir que la computadora "comprenda" el lenguaje natural, por lo que el procesamiento del lenguaje natural también se denomina comprensión del lenguaje natural (NLU, NaturalLanguage Understanding), también conocida como lingüística computacional (lingüística computacional). es una rama del procesamiento de información del lenguaje, por otro lado, es uno de los temas centrales de la inteligencia artificial (IA)

Análisis estadístico: prueba de hipótesis, prueba de significancia, análisis de diferencias, análisis de correlación, Prueba T, análisis de varianza, análisis de Chi-cuadrado, análisis de correlación parcial, análisis de distancia, análisis de regresión, análisis de regresión simple, análisis de regresión múltiple, regresión por pasos, predicción de regresión y análisis residual, regresión de cresta, análisis de regresión logística, estimación de curvas, análisis factorial , análisis de conglomerados, análisis de componentes principales, análisis factorial, método de agrupamiento rápido y método de agrupamiento, análisis discriminante, análisis de correspondencia, análisis de correspondencia múltiple (análisis de escala óptima), tecnología bootstrap, etc.

Minería de datos: Clasificación ( Clasificación), Estimación, Predicción, Reglas de agrupación o asociación por afinidad, Agrupación, Descripción y Visualización, Minería de tipos de datos complejos (Texto, Web, Gráficos) Imagen, vídeo, audio, etc.)

Predicción del modelo: modelo de predicción, aprendizaje automático, modelado y simulación.

Presentación de resultados: computación en la nube, nube de etiquetas, diagrama de relaciones, etc.

Para comprender el concepto de big data, primero debemos comenzar con "grande". "Grande" se refiere a la escala de datos, generalmente se refiere a la cantidad de datos superiores a 10 TB (1 TB = 1024 GB). . Big data es diferente de los datos masivos del pasado. Sus características básicas se pueden resumir en cuatro V (Volumen, Variedad, Valor y Velocidad), es decir, gran volumen, diversidad, baja densidad de valor y alta velocidad.

En primer lugar, el volumen de datos es enorme.

Del nivel TB al nivel PB.

En segundo lugar, existen muchos tipos de datos, como los registros web, vídeos, imágenes, información de ubicación geográfica, etc., mencionados anteriormente.

En tercer lugar, la densidad de valor es baja. Tomando el vídeo como ejemplo, durante el monitoreo continuo e ininterrumpido, los datos potencialmente útiles son solo uno o dos segundos.

En cuarto lugar, la velocidad de procesamiento es rápida. Regla de 1 segundo. Este último punto también es fundamentalmente diferente de la tecnología tradicional de minería de datos. El Internet de las cosas, la computación en la nube, el Internet móvil, el Internet de los vehículos, los teléfonos móviles, las tabletas, las PC y diversos sensores repartidos por todos los rincones de la tierra son fuentes de datos o métodos de transporte.

La tecnología big data se refiere a la tecnología que obtiene rápidamente información valiosa a partir de varios tipos de enormes cantidades de datos. El núcleo de la solución de los problemas de big data es la tecnología de big data. El término actual "big data" se refiere no sólo a la escala de los datos en sí, sino también a las herramientas, plataformas y sistemas de análisis de datos utilizados para recopilarlos. El propósito de la investigación y el desarrollo de big data es desarrollar tecnología de big data y aplicarla a campos relacionados, y promover su desarrollo innovador resolviendo enormes problemas de procesamiento de datos. Por tanto, los retos que trae la era del big data no sólo se reflejan en cómo manejar enormes cantidades de datos