Malentendido sobre big data: estadísticas ≠ big data
Malentendidos sobre big data: Las estadísticas son cosas que ya han sucedido, mientras que los big data se suelen utilizar para predecir o recomendar cosas que aún no han sucedido. Los dos no pueden equipararse. Sin embargo, ya sean estadísticas o big data, todos tienen como objetivo hacer que el trabajo sea más eficaz y tomar decisiones más racionales y precisas.
Los big data están de moda y se utilizan ampliamente en todos los ámbitos de la vida. Hay signos evidentes de sobrecalentamiento en los últimos tiempos. ¿Big data es un término de marketing o una metodología? El autor de este artículo, Lao Li, es un alto empleado de un proveedor de servicios de big data. Sus proyectos son análisis de big data para diferentes industrias. Él cree que primero se deben tener conocimientos básicos de big data, es decir, "muchos datos no son necesariamente valiosos". Además, las estadísticas de datos no son lo mismo que big data. en inteligencia artificial.
En los últimos dos años, los "grandes datos" se han utilizado ampliamente en todos los ámbitos de la vida y hay signos evidentes de sobrecalentamiento en los últimos tiempos. Desde las imágenes de CCTV de personas migrando durante el Festival de Primavera hasta el lamento de Chen Yao sobre los datos de Weibo, desde los grandes datos de las Dos Sesiones durante las Dos Sesiones hasta los suéteres de cuello alto y bajo en "The Star", se han impulsado los "grandes datos"; a alturas sin precedentes, y también se ha convertido en un término de marketing familiar.
No estoy calificado para representar, y mucho menos a la academia, juzgar quién tiene razón y quién está equivocado. En mi opinión, solo puedo hablar de big data según mi propia experiencia laboral:
¿Qué es big data?
La definición de big data de la Enciclopedia Baidu es: Big data, o datos enormes, se refiere a la cantidad de datos involucrados que es tan grande que no puede ser capturado, administrado y procesado en un tiempo razonable por la corriente principal actual. herramientas de software y organizar la información para ayudar a las empresas a tomar decisiones comerciales más proactivas.
La definición dada por Gartner es que "big data" es un activo de información masivo, de alto crecimiento y diversificado que requiere nuevos modelos de procesamiento para tener capacidades más sólidas de toma de decisiones, conocimiento y optimización de procesos.
Personalmente, creo que la definición de Gartner es más apropiada. "Nuevo modelo de procesamiento" es una palabra clave, que también es una de las características más importantes que, según entiendo, diferencia el "big data" del análisis estadístico tradicional. Este llamado "nuevo modelo de procesamiento" tiene dos significados:
1. Debido a la enorme cantidad de datos y la necesidad de una tecnología de almacenamiento y procesamiento más eficiente, Hadoop se ha convertido en un símbolo de la era del big data;
p>
2. Si crees que big data es igual a Hadoop, estás totalmente equivocado. Hadoop es sólo una condición necesaria en la era del big data. Otro signo evidente del big data es la estrecha integración de la minería de datos y la inteligencia artificial. Ésta es también una de las diferencias más obvias entre mi comprensión de los "grandes datos" y muchos de los llamados proyectos de "grandes datos" actuales. Ampliaré esto para usted en un caso futuro.
Además de las diferencias anteriores del "nuevo modelo de procesamiento", personalmente creo que hay otra diferencia importante: el análisis estadístico de datos se basa en la clasificación vertical de los datos existentes, mientras que big data se basa en el análisis. de datos masivos existentes para realizar predicciones y recomendaciones sobre datos que aún no se han generado. Las estadísticas son cosas que ya han sucedido y los big data se utilizan a menudo para predecir o recomendar cosas que aún no han sucedido.
¿Cómo predecir y recomendar?
Los principales algoritmos de recomendación actuales se pueden dividir aproximadamente en dos categorías. Uno se basa en el comportamiento y el otro en el contenido. Por supuesto, existen más de diez algoritmos para diferentes campos, diferentes predicciones y diferentes objetos de recomendación. De esto no se trata este artículo.
El análisis basado en el comportamiento, como su nombre indica, es el análisis de las "huellas" que dejan los usuarios en Internet e Internet móvil, es decir, navegación, clics, cobros, compras y compras secundarias. para determinar las tendencias de compra futuras. Predecir y recomendar resultados. El análisis basado en el comportamiento pertenece a la inteligencia grupal y utiliza de manera integral las preferencias de comportamiento de los usuarios del grupo. Habrá interacciones entre usuarios, lo que es más consistente con el comportamiento del usuario en el mundo real.
Análisis basado en contenido, incluido el análisis de texto, imágenes, audio, vídeo y otra información, para sacar conclusiones de predicción y recomendación. El "gen" del contenido coincide con las preferencias del usuario. El más representativo es el proyecto de recomendación musical de Pandora. Más de 400 expertos anotan todas las canciones en la biblioteca de música y luego establecen una conexión personal con la música para completar el proyecto. . El análisis de contenidos es sólo para particulares y no tiene nada que ver con la relación entre usuarios.
¿Qué puede hacer el big data?
Hablar ahora de este tema puede que a todos les haga reír.
Parece que todo el mundo sabe que el big data puede hacer esto y aquello, e incluso al final nos parece ridículo. Los big data no han sido "demonizados", sino "entretenidos". Los big data parecen ser algo tan lejano y tan cercano a nosotros que se vuelve irreal.
Bien, déjame hablar sobre qué problemas "resuelve" el big data según mi experiencia laboral: en resumen, el big data puede ayudarnos a resolver problemas de toma de decisiones y selección.
La previsión meteorológica es la forma de previsión más antigua y famosa. Puedes decidir en función de la previsión qué ropa ponerte mañana, si llevar paraguas, etc.;
En los últimos dos años, el big data se ha aplicado a la industria de producción de cine y televisión. Con base en el análisis de las preferencias de la audiencia, es posible predecir y diseñar historias que le gusten, encontrar actores que le gusten para desempeñar papeles relevantes e incluso predecir la taquilla. Todas estas predicciones se basan en datos y, después de algún procesamiento del modelo, se acercan a las conclusiones reales. Hasta cierto punto, proporciona a los responsables de la toma de decisiones una base para la toma de decisiones, como en "House of Cards" y "Stars".
Los macrodatos también desempeñan un papel importante a la hora de resolver los problemas de "elección" de las personas. No se ría, no importa su edad, género o educación, actualmente las personas se enfrentan a decisiones sin precedentes. Académicamente hablando, este es un problema causado por el "efecto de cola larga"; para decirlo más claramente, se debe a la contradicción entre el creciente número de objetos disponibles y nuestras propias capacidades de procesamiento.
El avance de la tecnología ha hecho que las personas sean más perezosas, lo que significa que nuestras propias capacidades de procesamiento se han visto reducidas, ya sean subjetivas u objetivas. Pero las opciones crecen día a día. Desde productos complejos (comercio electrónico) hasta música en bibliotecas musicales masivas; desde novios en sitios web de citas hasta semáforos.
Big data basado en inteligencia artificial es una forma de volver "perezosa" a la gente. Basándonos en su comportamiento histórico, podemos determinar sus posibles preferencias e incluso necesidades y recomendarle los mejores resultados. Estos son grandes datos. Ella es tu ama de llaves cariñosa y tu mejor amiga.
Uno de los casos más clásicos es la encuesta sobre "cerveza" y "pañales" realizada por Wal-Mart. En su investigación, Walmart descubrió que existe un tipo de cliente que no sólo compra pañales, sino que también compra frecuentemente cerveza. Los pañales y la cerveza son productos naturalmente no relacionados. Desde mi experiencia personal, no puedo pensar en ninguna conexión entre ellos. Posteriormente se descubrió que esto se debía a un fenómeno social. Hay muchas parejas jóvenes en Estados Unidos. Nos quedamos sin pañales, la anfitriona se hizo cargo de los niños en casa y el hombre fue al supermercado a comprar pañales. Después de comprar pañales, el hombre suele llevárselos a comprar cerveza.
Los ejemplos anteriores ilustran que los datos a menudo pueden permitirle descubrir fenómenos que parecen irracionales e ilógicos, pero que existen y ocurren con frecuencia.
Como otro ejemplo, todo el mundo conoce la congestión del tráfico en Beijing. Especialmente en las horas pico de la mañana y de la tarde, no es necesario hacer predicciones. Sin embargo, si el mejor sistema de gestión de semáforos de Beijing se calcula basándose en datos históricos de tráfico y modelos matemáticos, entra en la categoría de big data.
En mi opinión, esta es también la mayor diferencia entre big data y el análisis estadístico de datos ordinarios: las estadísticas pueden ayudarlo a descubrir enfermedades, pero big data no solo puede ayudarlo a descubrirlas, sino también a tratarlas.
Big data no es en absoluto un "truco". En el proyecto de recomendación de lectura que ayuda al operador a leer una base, se han mejorado enormemente varios indicadores. ¡Y esta mejora no es de decenas de por ciento, sino de varias veces! (El tráfico per cápita se multiplicó por 4 y la capacidad de activación silenciosa de usuarios aumentó 6,5 veces). Éste es el encanto del big data.
El big data no lo es todo.
Obviamente, los big data no lo son todo. Entonces ella es real. En algunos campos, por diversas razones, el valor aportado por big data no es tan alto como se imagina. Hay dos problemas principales que conducen a este fenómeno. Una es que la calidad o cantidad de los datos en sí es insuficiente; la otra es que el algoritmo no es adecuado.
No creas que los datos masivos serán valiosos. En nuestro trabajo anterior, a menudo encontramos que entre el 80% y el 90% de los datos de las fuentes de datos del Partido A eran inútiles. Sólo entre el 10% y el 20% de los datos producirán cierto valor. Esto me recuerda la metáfora de Marry Meeker: "Trabajar con big data es como encontrar una aguja en un montón de paja".
Es más, la mayoría de los campos se encuentran en las primeras etapas de inicio de un negocio y los datos que tienen son muy pobres. El arranque en frío y la escasez son desafíos que enfrenta el big data en muchos campos.
Por otro lado, para diferentes campos y proyectos, no existe un algoritmo único que sirva para todos y debe ser analizado y resuelto en base a problemas específicos.
En el trabajo real, encontramos que no solo diferentes campos (como recomendación de artículos, recomendación de productos), sino también diferentes unidades en el mismo campo (todos pertenecen al comercio electrónico pero a diferentes tipos de comercio electrónico, como materno e infantil, ropa o artículos de lujo) también son diferentes.
Utilización cruzada de datos
Los dos mayores problemas mencionados anteriormente en la aplicación práctica de big data, la falta de datos durante el arranque en frío y la escasez de datos en la etapa inicial del negocio. , no están exentos de esperanza. La solución a estos dos problemas es analizar los datos que la industria ha estado discutiendo.
Para algunos campos emergentes, la falta de datos es inevitable. Por otro lado, debido a la falta de soporte de datos, existe una mayor necesidad de un poderoso sistema de soporte de decisiones que oriente y respalde su negocio, a fin de evitar desvíos y maximizar los beneficios.
Resultan especialmente representativos los proyectos en el ámbito de Internet móvil. Aunque Internet móvil se ha desarrollado rápidamente en los últimos dos o tres años, después de todo, la acumulación en varios aspectos no se puede comparar con Internet. Especialmente antes de que las personas formen hábitos de uso estables, los datos ya no tienen valor ni significado.
Pero si los datos de Internet y los datos de Internet móvil pueden vincularse, entonces se puede captar información sobre las preferencias de la persona y otros aspectos, proporcionando así orientación y ayuda más efectivas para los negocios de Internet móvil.
Por supuesto, el acceso a los datos no se limita a Internet e Internet móvil. Los datos de cada fuente de datos suelen describir diferentes aspectos de una persona. Como describe el profesor Barabbasi en su libro "Brote", si los datos son suficientes, el 93% del comportamiento humano es predecible y regular.
Solo reorganizando estos datos de diferentes fuentes se puede extraer información más significativa.
Hoy en día, muchas personas en la industria están haciendo big data bajo el lema de "análisis y estadísticas de datos", lo que hace que muchos profanos caigan en un malentendido: las estadísticas de datos no son iguales a big data. Ya sean estadísticas o big data, en realidad es para hacer que nuestro trabajo sea más eficaz y tomar decisiones más racionales y precisas. Prestar atención a los datos en sí es señal de una empresa madura.
El rápido auge de Internet móvil ha hecho que los datos sean más diversos y abundantes. Su movilidad, fragmentación, privacidad y puntualidad compensan los datos una vez que el usuario abandona la computadora de escritorio, por lo que, junto con los datos originales de Internet, bien pueden delinear la vida diaria de un internauta.
Con el mayor enriquecimiento y mejora de los datos, y con la apertura y utilización cruzada de datos de diferentes canales, la imaginación del big data definitivamente se volverá más amplia.
Los anteriores son los malentendidos sobre big data compartidos por el editor: estadísticas de datos ≠ contenido relacionado con big data. Para obtener más información, puede seguir a Global Ivy para compartir más información detallada.