Red de conocimiento de recetas - Recetas gastronómicas - En la era del big data, ¿siguen siendo útiles las estadísticas?

En la era del big data, ¿siguen siendo útiles las estadísticas?

En la era del big data, ¿siguen siendo útiles las estadísticas? Examen de analista de datos

En la era de la "explosión" de los datos, el big data a menudo se pone en grandes esperanzas. Después de todo, ¿qué tipo de datos se consideran big data? ¿Cómo podemos hacer un buen uso de los big data? ¿Existe todavía un lugar para las estadísticas tradicionales? El Centro de Investigación Estadística de la Universidad de Tsinghua se estableció no hace mucho, con Liu Jun, un famoso estadístico y profesor titular de la Universidad de Harvard, como director. Recientemente, Liu Jun fue invitado al "Foro Cultural" del People's Daily y del People's Daily Online para compartir sus pensamientos.

Lo que diferencia al big data de los datos es su acumulación masiva, su alta tasa de crecimiento y su diversidad.

¿Qué son los datos? Datos significa "conocido" en latín, y una explicación en inglés es "una colección de hechos a partir de los cuales se pueden analizar conclusiones". En términos generales, se puede llamar datos a todo lo que está registrado en algún tipo de soporte y puede reflejar cierta información sobre la naturaleza y la sociedad humana. Los antiguos "anudaban cuerdas para registrar eventos", y las cuerdas anudadas eran datos. En la sociedad moderna, los tipos y cantidades de información son cada vez más abundantes y cada vez hay más portadores. Los números son datos, el texto es datos, las imágenes, el audio, el video, etc. son todos datos.

¿Qué es el big data? El aumento del volumen es la primera comprensión que tiene la gente de los big data. Con el desarrollo de la ciencia y la tecnología, la cantidad de datos en diversos campos está creciendo rápidamente. Los estudios han encontrado que en los últimos años, la cantidad de datos digitales se ha duplicado cada tres años.

El big data se diferencia de los datos en la diversidad de datos. Como señala el informe de investigación de Gartner Consulting, la explosión de datos es tridimensional y tridimensional. El llamado tridimensional se refiere no solo al rápido aumento en la cantidad de datos, sino también a la aceleración del crecimiento de los datos y la diversidad de los datos, es decir, las fuentes y tipos de datos aumentan constantemente.

Del dato al big data no es sólo una acumulación de cantidad, sino también un salto cualitativo. Se pueden integrar y analizar fácilmente cantidades masivas de datos de diferentes fuentes, en diferentes formas y que contienen diferente información, y los datos originalmente aislados se interconectan. Esto permite a las personas descubrir nuevos conocimientos que son difíciles de encontrar en la era de los datos pequeños a través del análisis de datos y crear nuevo valor.

Estudiar patrones y descubrir patrones a través de datos recorre el desarrollo de la sociedad humana. Muchos avances en la historia de las ciencias humanas están directamente relacionados con la recopilación y el análisis de datos, como el comienzo de la epidemiología médica moderna. En 1854 se produjo en Londres un brote de cólera a gran escala y fue imposible controlarlo durante mucho tiempo. Un médico utilizó el método del mapa de puntos para estudiar la relación entre la distribución de los pozos de agua locales y la distribución de los pacientes de cólera. Descubrió que la prevalencia del cólera era significativamente mayor alrededor de un pozo y, por tanto, encontró la causa del brote de cólera: una. bien contaminado. Después del cierre del pozo, la incidencia del cólera disminuyó significativamente. Este método demuestra plenamente el poder de los datos.

En esencia, muchas actividades científicas son minería de datos, no parten de teorías o principios preestablecidos y estudian problemas mediante deducción, sino que parten de los datos mismos y resumen las reglas mediante inducción. En los tiempos modernos, a medida que los problemas que enfrentamos se han vuelto cada vez más complejos, a menudo se ha vuelto difícil estudiarlos deductivamente. Esto hace que el método de resumen de datos se vuelva cada vez más importante y la importancia de los datos se vuelve cada vez más prominente.

Los macrodatos son un recurso no competitivo, que resulta útil para la toma de decisiones científicas por parte de los gobiernos y el marketing preciso por parte de las empresas.

En la era del big data, el importante papel de Los datos se han vuelto más prominentes. Muchos países han elevado el big data a la altura de la estrategia nacional.

Si el gobierno hace un uso razonable de big data, su toma de decisiones se basará en hechos empíricos y el gobierno será más predecible, responsable y abierto. El antiguo gobierno chino ya tuvo la idea de valorar los datos. Por ejemplo, Shang Yang propuso: "Para fortalecer un país, conoces los trece números... Si quieres fortalecer el país, no lo haces. Conozca los trece números del país, aunque la tierra es favorable y la gente es numerosa, el país se debilitará e incluso se debilitará ". En la era del big data, gobernar el país basándose en "números" será más eficaz. En la era de los datos pequeños, el gobierno depende más de la experiencia y los datos locales para tomar decisiones, y es inevitable tratar los dolores de cabeza y los dolores. Por ejemplo, si hay un atasco, construya más carreteras. En la era del big data, la toma de decisiones gubernamentales puede pasar de una toma de decisiones extensiva a una toma de decisiones intensiva.

Si la carretera está bloqueada, puede utilizar el análisis de big data para saber cuándo y qué área es más probable que esté bloqueada. Puede construir más carreteras cerca de esta área o proporcionar alertas tempranas para guiar a los residentes a organizar sus viajes de manera adecuada para lograr lo mejor. asignación del flujo y control del tráfico, mejorando el tráfico.

Para los comerciantes, el big data hace posible el marketing de precisión. Una historia interesante es el fenómeno de la "cerveza y los pañales" en los supermercados Wal-Mart. Cuando Wal-Mart Supermarket analizó los datos de ventas, descubrió que el producto que aparecía con mayor frecuencia junto con los pañales en las órdenes de compra de los clientes resultó ser la cerveza. Después de una investigación de seguimiento, descubrimos que muchos padres jóvenes compraban cerveza para beber cuando compraban pañales. Después de que Wal-Mart descubriera este patrón, promocionó la cerveza y los pañales, y sus ventas aumentaron significativamente. En la era del big data, todo el mundo proporcionará datos "espontáneamente". Nuestros diversos comportamientos, como hacer clic en páginas web, usar teléfonos móviles, usar tarjetas de crédito para realizar compras, mirar televisión, viajar en metro y conducir automóviles, generarán datos y quedarán registrados. Nuestro género, ocupación, preferencias, poder adquisitivo y. Los comerciantes recopilarán otra información. Excavela para analizar oportunidades comerciales.

El big data también beneficiará a los particulares. Desde una perspectiva biológica y médica, en el pasado los biólogos sólo observaban el impacto en los organismos manipulando uno o varios genes, y era difícil encontrar una correlación general. Hoy en día, debido al desarrollo de la tecnología, se pueden analizar muchas cosas, como información genética, información de expresión de todos los genes, información del árbol genealógico de proteínas, información de metilación del genoma completo, información epigenética, etc. También hay datos sobre indicadores de salud personal, registros médicos, reacciones a medicamentos y más. Si se puede lograr la integración orgánica de datos biológicos multidimensionales y multidireccionales, se podrá describir completamente a los individuos, logrando así el objetivo de la medicina de precisión.

En la era del big data, existen formas más efectivas de verificar la autenticidad de los datos. Una de las características del big data es la diversidad. Existe un cierto grado de correlación entre datos de diferentes fuentes y diferentes dimensiones, que pueden validarse de forma cruzada. Por ejemplo, el valor de la producción industrial de un determinado lugar se duplicó falsamente, pero el consumo de electricidad y energía no alcanzó la escala correspondiente. Se trata de una anomalía en los datos, que el sistema identifica fácilmente. Una vez que se descubre una anomalía, los departamentos pertinentes llevarán a cabo una revisión para prevenir y combatir el fraude de datos de una manera más específica.

Los datos son un recurso, pero son diferentes de los recursos físicos como el carbón y el petróleo. Los recursos materiales no son renovables, si uno usa más, otros usarán menos, por lo que es difícil disfrutarlos plenamente. Los datos se pueden reutilizar y generar continuamente nuevo valor. El uso de recursos de big data no es una competencia feroz y puede crear una situación beneficiosa para todos bajo la premisa de compartir. Desde otra perspectiva, si los datos no están integrados y conectados, no se les puede llamar big data.

Los big data no se pueden utilizar directamente, las estadísticas siguen siendo el alma del análisis de datos

Existe un dicho popular en la sociedad que dice que en la era del big data, "muestra = todo". Lo que la gente obtiene no son datos de muestreo sino datos completos, por lo que pueden sacar conclusiones simplemente contando, y ya no se necesitan métodos estadísticos complejos.

En mi opinión, esta visión es muy errónea. En primer lugar, los macrodatos informan pero no explican la información. Por ejemplo, big data es "petróleo crudo" en lugar de "gasolina" y no se puede utilizar directamente. Al igual que el mercado de valores, incluso si se publican todos los datos, las personas que no entienden todavía no conocen la información representada por los datos. En la era del big data, las estadísticas siguen siendo el alma del análisis de datos. Como señaló el profesor Michael Jordan de la Universidad de California, Berkeley, “la investigación de big data sin una ciencia de datos sistemática como guía es como construir puentes sin utilizar el conocimiento de la ciencia de la ingeniería. Muchos puentes pueden colapsar, con graves consecuencias”. p>

En segundo lugar, el concepto de datos completos en sí mismo es difícil de soportar un escrutinio. Los datos completos, como sugiere el nombre, son todos datos. De hecho, esto es posible en determinadas situaciones y para determinados problemas. Por ejemplo, si desea comparar la capacidad matemática general de los estudiantes de la Universidad de Tsinghua y la Universidad de Pekín, puede recopilar las puntuaciones de matemáticas de los estudiantes de las dos escuelas en el examen de ingreso a la universidad como objeto de datos de investigación. En cierto sentido, estos son datos totales. Sin embargo, esto no quita que podamos responder bien a la pregunta con estos datos completos.

Por un lado, aunque estos datos son completos, todavía son inciertos.

Los puntajes de matemáticas al ingresar a la escuela no necesariamente representan completamente la capacidad matemática de un estudiante. Si a todos los estudiantes se les pidiera que volvieran a tomar el examen de ingreso a la universidad, casi todos obtendrían una nueva puntuación. Si estos dos conjuntos de datos completos se utilizan para el análisis, la conclusión puede cambiar. Por otro lado, las cosas se desarrollan y cambian constantemente, y las calificaciones de los estudiantes cuando ingresan a la escuela no pueden representar sus habilidades actuales. Los datos de puntuación del examen de ingreso a la universidad para todos los estudiantes son datos completos solo para ese examen. "Omni" tiene un límite. Más allá del límite, ya no es omnisciente ni omnipotente. El desarrollo de las cosas está lleno de incertidumbres, y la estadística no sólo estudia cómo extraer información y patrones de los datos y encontrar la solución óptima, sino que también estudia cómo cuantificar la incertidumbre en los datos.

Así pues, en la era del big data, muchas cuestiones fundamentales del análisis de datos no son esencialmente diferentes de las de la era del big data. Por supuesto, las características del big data plantean nuevos desafíos al análisis de datos. Por ejemplo, cuando se aplican muchos métodos estadísticos tradicionales a big data, la enorme cantidad de cálculo y almacenamiento a menudo lo hace insoportable para datos con estructura compleja y diversas fuentes, y cómo establecer modelos estadísticos efectivos también requiere nuevas exploraciones e intentos. Para la ciencia de datos en la nueva era, estos desafíos también significan enormes oportunidades, que pueden conducir a nuevas ideas, métodos y tecnologías.

Lo anterior es el contenido relevante compartido por el editor sobre si las estadísticas siguen siendo útiles en la era del big data. Para obtener más información, puede seguir a Global Ivy para compartir más información útil.