Cinco preguntas sobre big data para legos le ayudarán a comprender el big data.
¿Qué es el big data? ¿Es el modelo operativo, las capacidades, la tecnología o la recopilación de datos? ¿Cuál es la diferencia entre lo que hoy llamamos “big data” y los “datos” en el sentido tradicional del pasado? ¿Cuáles son las características del big data? ¿Cuáles son las fuentes? De qué manera, etc. A continuación, el editor le llevará a comprender los big data.
& gt& gt& gt& gt& gtConcepto de big data
"Big data" se refiere a conjuntos de datos con un volumen y categorías de datos extremadamente grandes. Dichos conjuntos de datos no pueden capturarse mediante herramientas de bases de datos tradicionales. recopilados, gestionados y procesados. ¿“Big data” se refiere primero a la cantidad de datos? Grande se refiere a grandes conjuntos de datos, generalmente de 10 TB. Con respecto a la escala, en aplicaciones prácticas, muchos usuarios empresariales reúnen múltiples conjuntos de datos para formar un volumen de datos a nivel de PB. En segundo lugar, hay muchos tipos de datos, y los datos provienen de varias fuentes de datos y tipos de datos; y Los formatos son cada vez más ricos y han superado el ámbito previamente definido de datos estructurados para incluir datos semiestructurados y no estructurados. En segundo lugar, la velocidad de procesamiento de datos (Velocity) es rápida y puede procesar datos en tiempo real cuando la cantidad de datos es enorme. La última característica se refiere a la alta autenticidad de los datos. Con el interés de las personas en nuevas fuentes de datos, como datos sociales, contenido empresarial, datos de transacciones y aplicaciones, las limitaciones de las fuentes de datos tradicionales se rompen y las empresas necesitan cada vez más poder de información eficaz para garantizar su autenticidad y seguridad.
Baidu Knows - Concepto de Big Data
Big data (Bigdata), o datos enormes, se refiere a la cantidad de datos involucrados que es tan grande que no puede ser capturado por el software convencional actual. Herramientas: Información que se gestiona, procesa y organiza para ayudar a las empresas a tomar decisiones más proactivas en un período de tiempo razonable. Las características 4V del big data: volumen, velocidad, variabilidad y precisión.
Internet Weekly - Concepto Big Data
El concepto de "big data" es mucho más que una gran cantidad de datos (TB) y la tecnología para procesar grandes cantidades de datos, o como las llamadas "cuatro v" "Es un concepto tan simple, pero cubre cosas que las personas pueden hacer basándose en datos a gran escala, pero que no se pueden lograr basándose en datos a pequeña escala". En otras palabras, los big data nos permiten analizar cantidades masivas de datos de una manera sin precedentes para obtener productos y servicios de gran valor o conocimientos profundos, formando en última instancia una fuerza para el cambio.
Organización de investigación Gartner - Concepto de big data
"Big data" es un activo de información masivo, de alto crecimiento y diversificado que requiere nuevos modelos de procesamiento para tener más información sólida. , capacidades de conocimiento, descubrimiento y optimización de procesos. En términos de datos, “big data” se refiere a información que no puede procesarse ni analizarse mediante procesos o herramientas tradicionales. Define conjuntos de datos que están más allá del alcance y tamaño del procesamiento normal, lo que obliga a los usuarios a adoptar métodos de procesamiento no tradicionales. Amazon Web Services (AWS) y el científico de big data John Rauser mencionaron una definición simple: Big data es cualquier cantidad masiva de datos que excede la potencia de procesamiento de las computadoras. La definición de big data del equipo de I + D: "Big data es la tecnología más popular y la tecnología más de moda. Cuando ocurre este fenómeno, la definición se vuelve muy confusa", dijo Kelly: "Es posible que big data no contenga toda la información, pero creo que eso es así". En su mayor parte es cierto. Parte de la percepción del big data es que es tan grande que analizarlo requiere múltiples cargas de trabajo, y esa es la definición de AWS cuando su tecnología está al límite: "El big data no se trata de cómo definirlo. lo más importante es cómo usarlo. El mayor desafío es qué tecnologías pueden hacer un mejor uso de los datos y cómo se pueden aplicar los big data. El auge de las herramientas de análisis de big data de código abierto como Hadoop y el valor de estos servicios de datos no estructurados en comparación con las bases de datos tradicionales.
& gt& gt& gt& gt& gtAnálisis de big data
Como todos sabemos, big data no son simplemente hechos de big data, la realidad más importante es el análisis de big data. Sólo a través del análisis se puede obtener una gran cantidad de información inteligente, profunda y valiosa. Luego, cada vez más aplicaciones involucran big data, y los atributos de estos big data, incluida la cantidad, la velocidad y la diversidad, muestran la creciente complejidad de los big data. Por lo tanto, los métodos de análisis de big data se encuentran en el campo de big data. Es particularmente importante y se puede decir que es el factor decisivo para determinar si la información final es valiosa.
Con base en este conocimiento, ¿cuáles son los métodos y teorías comunes del análisis de big data?
& gt& gt& gt& gt& gtTecnología big data
Recopilación de datos: Las herramientas ETL se encargan de extraer datos de fuentes de datos distribuidas y heterogéneas, como datos relacionales, archivos de datos planos, etc. a la capa intermedia temporal para su limpieza, transformación e integración, y finalmente se carga en un almacén de datos o mercado de datos, convirtiéndose en la base para el procesamiento analítico en línea y la extracción de datos.
Acceso a datos: base de datos relacional, NOSQL, SQL, etc.
Infraestructura: almacenamiento en la nube, almacenamiento distribuido de archivos, etc.
Procesamiento de datos: PNL (Procesamiento del Lenguaje Natural) es una disciplina que estudia cuestiones del lenguaje en la interacción persona-computadora. La clave para procesar el lenguaje natural es permitir que la computadora "comprenda" el lenguaje natural, por lo que el procesamiento del lenguaje natural también se llama NLU (comprensión del lenguaje natural), también llamado lingüística computacional. Por un lado, es una rama del procesamiento de información del lenguaje y, por otro, es uno de los temas centrales de la inteligencia artificial (IA).
Análisis estadístico: prueba de hipótesis, prueba de significancia, análisis de diferencias, análisis de correlación, prueba t, análisis de varianza, análisis chi-cuadrado, análisis de correlación parcial, análisis de distancia, análisis de regresión, análisis de regresión simple, regresión múltiple análisis, regresión por pasos, predicción de regresión y análisis residual, regresión de crestas, análisis de regresión logística, estimación de curvas, análisis factorial, análisis de conglomerados, análisis de componentes principales, análisis factorial, método de agrupamiento rápido y método de agrupamiento.
Minería de datos: clasificación, estimación, predicción, agrupación por afinidad o reglas de asociación, clustering, descripción y visualización, descripción y visualización, minería de tipos de datos complejos (texto, Web, imágenes gráficas, vídeo, audio, etc. ).
Predicción de modelos: modelos predictivos, aprendizaje automático, modelado y simulación.
Resultados presentados: computación en la nube, nube de etiquetas, diagrama de relaciones, etc.
& gt& gt& gt& gt& gtCaracterísticas del big data
Para entender el concepto de big data, primero debemos comenzar con "grande", que se refiere al tamaño de los datos. Big data generalmente se refiere a la cantidad de datos superiores a 10 TB (1 TB = 1024 GB). Big data es diferente de los datos masivos anteriores. Sus características básicas se pueden resumir en cuatro V (volumen, diversidad, valor y velocidad), a saber, gran volumen, diversidad, baja densidad de valor y alta velocidad.
En primer lugar, la cantidad de datos es enorme. Salta del nivel de terabyte al nivel de petabyte.
En segundo lugar, existen muchos tipos de datos, como registros web, vídeos, imágenes, información geográfica, etc.
En tercer lugar, la densidad de valor es baja. Tomando el video como ejemplo, en el proceso de monitoreo continuo, los datos que pueden ser útiles son solo uno o dos segundos.
En cuarto lugar, la velocidad de procesamiento es rápida. 1 Segunda Ley. Este último punto también es fundamentalmente diferente de la tecnología tradicional de minería de datos. El Internet de las cosas, la computación en la nube, el Internet móvil, el Internet de los vehículos, los teléfonos móviles, las tabletas, las PC y varios sensores en todo el mundo son fuentes de datos o métodos de transporte.
La tecnología big data se refiere a la tecnología que obtiene rápidamente información valiosa a partir de varios tipos de datos masivos. El núcleo de la solución de los problemas de big data es la tecnología de big data. Actualmente, “big data” se refiere no solo al tamaño de los datos en sí, sino también a las herramientas, plataformas y sistemas de análisis de datos que los recopilan. El propósito de la investigación y el desarrollo de big data es desarrollar tecnología de big data y aplicarla a campos relacionados, y promover su desarrollo innovador resolviendo enormes problemas de procesamiento de datos. Por lo tanto, el desafío que trae la era del big data no es solo cómo procesar datos masivos para obtener información valiosa, sino también cómo fortalecer la investigación y el desarrollo de la tecnología de big data y tomar la vanguardia del desarrollo de la era.
Actualmente, la construcción de I+D de big data en mi país debería centrarse en los siguientes cuatro aspectos:
El primero es establecer un mecanismo operativo. La construcción de big data es un proyecto de sistema ordenado, dinámico y sostenible. Es necesario establecer un buen mecanismo operativo, promover la construcción formal y ordenada de todos los enlaces, lograr la integración y hacer un buen trabajo en el diseño de alto nivel.
El segundo es estandarizar un conjunto de normas de construcción. Sin normas no hay sistema. Se deben establecer estándares de construcción de big data para diferentes temas, cubriendo todos los campos, y actualizarlos constantemente de manera dinámica para sentar las bases para la interconexión de redes, el intercambio de información y el intercambio de recursos de varios tipos de sistemas de información en todos los niveles.
El tercero es construir una * * * plataforma. Sólo cuando los datos fluyen constantemente y se disfrutan plenamente pueden tener vitalidad.
Sobre la base de la construcción de la base de datos temática, el intercambio de datos y el intercambio de datos de varios tipos de sistemas de información de mando en todos los niveles se realizan mediante la integración de datos.
El cuarto es cultivar un equipo profesional. Cada aspecto de la construcción de big data requiere que los completen profesionales. Por tanto, es necesario cultivar y crear un equipo profesional para la construcción de big data que comprenda el mando, la tecnología y la gestión.
& gt& gt& gt& gt& gtEl papel del big data
Con el advenimiento de la era del big data, cada vez más personas están de acuerdo con este juicio. Entonces, ¿qué significa big data y qué cambiará? No basta con responder desde una perspectiva técnica. Big data es solo un objeto. Sin el tema de los seres humanos, por grandes que sean las cosas, no tienen sentido. Necesitamos poner los macrodatos en un contexto humano y comprender por qué son la fuerza transformadora de nuestros tiempos.
El poder de cambiar los valores
En los próximos diez años, el criterio de significado central ("pensador") que determina si China tiene una gran sabiduría es la felicidad nacional. Uno es en términos de los medios de vida de las personas, usar big data para aclarar cosas significativas y ver si hemos hecho cosas más significativas en las relaciones interpersonales que antes. En segundo lugar, se refleja en la ecología; A través de big data, podemos aclarar cosas significativas y ver si hemos hecho cosas más significativas que antes en la relación entre el cielo y el hombre. En resumen, pasemos de la era del caos de hace 10 años a la era de la claridad en los próximos 10 años.
El poder de cambiar la economía
Los productores tienen valor y los consumidores son el significado del valor. Lo que es significativo es valioso. Lo que los consumidores no están de acuerdo no se puede vender y el valor no se puede realizar. Sólo las cosas con las que los consumidores están de acuerdo se pueden vender y se puede realizar el valor. Los macrodatos nos ayudan a identificar el significado de la fuente de los consumidores, ayudando así a los productores a obtener valor. Éste es el principio para estimular la demanda interna.
El poder de cambiar las organizaciones
Con el desarrollo de la infraestructura de datos y los recursos de datos con las características de la Web Semántica, el cambio organizacional se está volviendo cada vez más inevitable. Los macrodatos promoverán estructuras de red para generar poder organizacional desorganizado. Las primeras en incorporar esta característica estructural son varias aplicaciones WEB2.0 descentralizadas, como RSS, wiki, blog, etc.
La razón por la que los big data se han convertido en una fuerza transformadora de la época es que adquieren sabiduría al seguir el significado.
& gt& gt& gt& gt& gtProcesamiento de big data
Procesamiento de big data Tres cambios importantes en los conceptos en la era de los datos: no todo debe ser muestreado, la eficiencia no debe ser absolutamente precisa y la correlación No debería haber una relación causal.
El proceso de procesamiento de big data
De hecho, existen muchos métodos específicos de procesamiento de big data, pero según la práctica a largo plazo del autor, he resumido un proceso de procesamiento de big data de aplicación general. Este proceso debería ayudar a todos a agilizar el procesamiento de big data. Todo el proceso de procesamiento se puede resumir en cuatro pasos: recopilación, importación y preprocesamiento, estadísticas y análisis y, finalmente, extracción de datos.
Procesamiento de big data uno: recopilación
La recopilación de big data se refiere al uso de múltiples bases de datos para recibir datos de los clientes (Web, aplicaciones o sensores, etc.). ), los usuarios pueden realizar consultas y procesamientos simples a través de estas bases de datos. Por ejemplo, las empresas de comercio electrónico utilizan bases de datos relacionales tradicionales como MySQL y Oracle para almacenar datos de cada transacción. Además, las bases de datos NoSQL como Redis y MongoDB también se utilizan habitualmente para la recopilación de datos.
En el proceso de recopilación de big data, su principal característica y desafío es la alta concurrencia, porque miles de usuarios pueden acceder y operar al mismo tiempo, como los sitios web de venta de boletos de tren y Taobao, sus visitas simultáneas. llega a millones en las horas pico, por lo que es necesario implementar una gran cantidad de bases de datos en el extremo de la recopilación para respaldarlo. Cómo realizar el equilibrio de carga y la fragmentación entre estas bases de datos requiere un pensamiento y un diseño profundos.
Procesamiento de Big Data II: Importación/Preprocesamiento
Aunque el terminal de recopilación en sí tiene muchas bases de datos, si desea analizar de manera efectiva estos datos masivos, debe importar los datos desde el front-end En una base de datos distribuida centralizada a gran escala o un clúster de almacenamiento distribuido, se pueden realizar algunas limpiezas y preprocesamiento simples en función de la importación. Algunos usuarios también utilizan Storm de Twitter para transmitir datos al importarlos para satisfacer las necesidades informáticas en tiempo real de algunas empresas.
Las características y desafíos del proceso de importación y preprocesamiento son principalmente la gran cantidad de datos importados, que a menudo alcanza el nivel de cientos de megabytes o incluso gigabytes por segundo.
El tercer procesamiento de datos principal: estadística/análisis
El análisis estadístico utiliza principalmente bases de datos distribuidas o grupos informáticos distribuidos para analizar y clasificar los datos masivos almacenados en ellas para satisfacer las necesidades de análisis más comunes. En este sentido, algunos requisitos en tiempo real utilizarán GreenPlum de EMC, Exadata de Oracle e Infobright basado en MySQL. Algunos requisitos de procesamiento por lotes o datos semiestructurados pueden utilizar Hadoop.
La principal característica y desafío de las estadísticas y el análisis es que el análisis involucra una gran cantidad de datos y ocupará una gran cantidad de recursos del sistema, especialmente E/S.
El cuarto procesamiento de datos principal: la minería
A diferencia de los procesos de análisis y estadísticas anteriores, la minería de datos generalmente no tiene un tema preestablecido y se basa principalmente en varios algoritmos para calcular los datos existentes. , logrando así el efecto de predicción y cumpliendo algunos requisitos de análisis de datos de alto nivel. Los algoritmos típicos incluyen Kmeans para agrupación, SVM para aprendizaje estadístico y NaiveBayes para clasificación. La principal herramienta utilizada es Mahout de Hadoop. Las características y desafíos de este proceso son que los algoritmos utilizados para la minería son muy complejos y la cantidad de datos y cálculos involucrados es muy grande. Los algoritmos de minería de datos más utilizados son principalmente de un solo subproceso.
Todo el proceso general de procesamiento de big data debe cumplir al menos estos cuatro pasos para ser considerado un procesamiento de big data relativamente completo.
& gt& gt& gt& gt& gtAplicación de big data y análisis de casos
La condición clave y necesaria para la aplicación de big data es la integración de "TI" y "operación". Por supuesto, la connotación de operaciones aquí puede ser muy amplia, desde la operación de una tienda minorista hasta la operación de una ciudad. Los siguientes son los casos de aplicación de big data que he recopilado en diversas industrias y organizaciones. Por la presente declaramos que los siguientes casos son todos de Internet. Este artículo es solo de referencia y lo clasificaré brevemente en función de esto.
Casos de aplicación de big data: industria médica
[1] Seton Healthcare es el primer cliente que utiliza la última tecnología Watson de IBM para analizar y predecir contenido sanitario. Esta tecnología permite a las empresas encontrar una gran cantidad de información médica clínica relacionada con los pacientes y analizar mejor la información de los pacientes mediante el procesamiento de big data.
[2] En un hospital de Toronto, Canadá, los bebés prematuros tenían más de 3.000 lecturas de datos por segundo. Al analizar estos datos, los hospitales pueden saber de antemano qué bebés prematuros tienen problemas y tomar medidas específicas para prevenir la muerte de bebés prematuros.
[3] Facilita que más emprendedores desarrollen productos, como aplicaciones de salud que recopilan datos a través de redes sociales. Quizás en los próximos años los datos que recopilen hagan que su diagnóstico sea más preciso. Por ejemplo, en lugar de tomar una tableta tres veces al día para adultos, cuando detecta que el medicamento en la sangre ha sido metabolizado, automáticamente le recordará que debe volver a tomar el medicamento.
Uno de los casos de aplicación de big data: la industria energética
[1] La red inteligente ha implementado terminales en Europa, los llamados contadores inteligentes. En Alemania, para fomentar el uso de la energía solar, se instalan paneles solares en los hogares. Además de venderle electricidad, también puede recomprar el exceso de electricidad de su energía solar. Los datos se recopilan a través de la red eléctrica cada cinco o diez minutos. Los datos recopilados se pueden utilizar para predecir los hábitos de consumo de electricidad de los clientes y así inferir cuánta electricidad necesitará toda la red en los próximos 2 o 3 meses. Con esta previsión se podrá adquirir una determinada cantidad de electricidad a la empresa generadora o suministradora de energía. Debido a que la electricidad es un poco como los futuros, será más barata si la compras por adelantado, pero será más cara si la compras al contado. Con este tipo de previsión, se pueden reducir los costes de adquisición.
[2] Vestas Wind System se basa en el software BigInsights y las supercomputadoras IBM, que luego analizan los datos meteorológicos para encontrar la mejor ubicación para instalar las turbinas eólicas y todo el parque eólico. Utilizando big data, los análisis que antes llevaban semanas ahora se pueden completar en menos de una hora.
Uno de los casos de aplicación de big data: industria de las comunicaciones
[1] XO Communications ha reducido su tasa de abandono de clientes a casi la mitad mediante el uso del software de análisis predictivo IBM SPSS. XO ahora puede predecir el comportamiento de los clientes, descubrir tendencias de comportamiento e identificar enlaces defectuosos, ayudando así a las empresas a tomar medidas oportunas para retener a los clientes.
Además, el acelerador de análisis de red Netezza recientemente lanzado por IBM ayudará a las empresas de comunicaciones a tomar decisiones más científicas y razonables al proporcionar una plataforma escalable con una única vista de análisis de clientes, servicios y redes de extremo a extremo.
[2] Los operadores de telecomunicaciones pueden analizar una variedad de comportamientos y tendencias de los usuarios a través de decenas de millones de datos de clientes y venderlos a empresas que los necesitan. Esta es una nueva economía de la información.
[3] China Mobile utiliza análisis de big data para llevar a cabo monitoreo específico, alerta temprana y seguimiento de todo el negocio de las operaciones empresariales. El sistema captura automáticamente los cambios del mercado lo antes posible y luego los envía a la persona responsable designada de la manera más rápida, permitiéndole comprender las condiciones del mercado en el menor tiempo.
【4】NTT DoCoMo combina la información de ubicación de los teléfonos móviles con información en Internet para proporcionar a los clientes información sobre restaurantes cercanos y proporciona servicios de información del último tren cuando se acerca la hora del último tren.
Uno de los casos de aplicación de big data: industria minorista
[1] “Uno de nuestros clientes es un minorista líder en moda especializada que utiliza grandes almacenes locales, Internet y su correo. El negocio de catálogo de pedidos ofrece servicios a los clientes. ¿Cómo posicionar la diferenciación de la empresa? Al recopilar información social de Twitter y Facebook, obtuvieron una comprensión más profunda del modelo de marketing de cosméticos. Los que gastan y tienen mucha influencia espero que al recibir servicios de maquillaje gratuitos, los usuarios puedan generar promoción de boca en boca, que es la combinación perfecta de datos de transacciones y datos de interacción para proporcionar "La tecnología de Informatica ayuda a los minoristas a enriquecer los datos maestros de los clientes con datos sobre. plataformas sociales para hacer que sus servicios comerciales sean más específicos.
[2] Las empresas minoristas también monitorean los movimientos de los clientes en la tienda y las interacciones con la mercancía. Combinan estos datos con registros de transacciones para brindar opiniones sobre qué artículos vender, cómo colocarlos y cuándo ajustar los precios de venta. Este enfoque ha ayudado a una empresa minorista líder a reducir el inventario en un 65 438 + 07 %, al tiempo que aumenta la proporción de mercancías de marca privada de alto margen y mantiene su participación de mercado.