Red de conocimiento de recetas - Recetas gastronómicas - Big data explora si las leyes cognitivas del lenguaje humano son de naturaleza inductiva.

Big data explora si las leyes cognitivas del lenguaje humano son de naturaleza inductiva.

1El auge del big data marca que la era de la información ha entrado en una nueva etapa.

1.1 Mirar el big data desde una perspectiva histórica.

En comparación con la era agrícola e industrial, la era de la información es un período relativamente largo. Existen diferencias obvias en los factores de producción y la dinámica del desarrollo social en diferentes períodos. Los inventos tecnológicos icónicos de la era de la información son las computadoras digitales, los circuitos integrados, las comunicaciones por fibra óptica e Internet (World Wide Web). Aunque hay muchos chistes en los medios sobre la era del big data, las nuevas tecnologías como el big data y la computación en la nube aún no han logrado avances tecnológicos comparables a los inventos tecnológicos que hicieron época antes mencionados, y es difícil formar una nueva era más allá de la era de la información. La era de la información se puede dividir en varias etapas. La aplicación de nuevas tecnologías como el big data indica que la sociedad de la información entrará en una nueva etapa.

Al examinar y analizar la larga historia de más de 100 años, podemos encontrar que existen muchas similitudes entre los patrones de desarrollo de la era de la información y la era industrial. El proceso de aumento de la productividad en la era de la electrificación es sorprendentemente similar al de la era de la información. Sólo después de 20 a 30 años de reservas de difusión el aumento se vuelve más evidente. Las líneas divisorias son 1915 y 1995 respectivamente. Supongo que después de décadas de difusión de la tecnología de la información, los primeros 30 años del siglo XXI pueden ser una época dorada para que la tecnología de la información mejore la productividad.

1.2 Entendiendo el territorio de Big Data desde la perspectiva del territorio en la nueva etapa de la era de la información

China ha entrado en la era de la información, pero las mentes de muchas personas todavía están atrapadas en la era industrial. . Muchos problemas del trabajo económico y científico tienen su origen en una falta de comprensión de los tiempos. China se quedó atrás en los siglos XVIII y XIX porque los gobiernos manchú y Qing no se dieron cuenta de que los tiempos han cambiado y que no podemos repetir los errores de la historia.

Después de que el gobierno central propuso que China entrara en una nueva normalidad económica, hubo muchas discusiones en los medios, pero la mayoría de ellas fueron explicaciones de la desaceleración del crecimiento económico. Pocos artículos discutieron la nueva normalidad desde la misma. perspectiva de los nuevos tiempos. El autor cree que la nueva normalidad económica significa que nuestro país ha entrado en una nueva etapa de promoción de una nueva industrialización, urbanización y modernización agrícola a través de la informatización. Se trata de un salto en la gestión económica y social, no de una medida provisional ni de una regresión.

La arquitectura TI compuesta por tecnologías de la información de nueva generación como big data, Internet móvil, redes sociales, computación en la nube e Internet de las cosas es una señal de que la sociedad de la información ha entrado en una nueva etapa y juega un papel importante. papel protagonista e impulsor de la transformación de toda la economía. Internet, los creadores, la segunda revolución de las máquinas y la Industria 4.0 que aparecen a menudo en los medios están todos relacionados con el big data y la computación en la nube. Big data y la computación en la nube son nuevas palancas para mejorar la productividad en la nueva normalidad. El llamado desarrollo impulsado por la innovación se basa principalmente en la tecnología de la información para mejorar la productividad.

1.3 Los macrodatos pueden suponer un gran avance para la industria de la información de China, desde el seguimiento hasta el liderazgo.

Las empresas chinas de big data ya tienen una base bastante buena. China representa cuatro de las diez principales empresas de servicios de Internet del mundo (Alibaba, Tencent, Baidu, JD.com), y las otras seis principales empresas de servicios de Internet son todas empresas estadounidenses. Ninguna empresa de Internet de Europa o Japón se encuentra entre las 10 primeras. Esto demuestra que las empresas chinas ya están a la vanguardia mundial en términos de servicios de Internet basados ​​en big data. En el desarrollo de la tecnología de big data, China puede cambiar la situación en la que la tecnología estaba controlada por otros en los últimos 30 años, y China puede desempeñar un papel de liderazgo en la aplicación de big data en el mundo.

Sin embargo, sólo porque las empresas estén a la vanguardia mundial no significa que China sea líder en tecnología de big data. De hecho, ninguna de las principales tecnologías de big data actualmente populares en el mundo fue pionera en China. Las comunidades de código abierto y el crowdsourcing son formas importantes de desarrollar la tecnología y la industria de big data, pero nuestra contribución a la comunidad de código abierto es muy pequeña. Entre los casi 10.000 voluntarios comunitarios centrales en todo el mundo, puede haber menos de 200 en China. Es necesario aprender de las lecciones pasadas de tecnologías centrales insuficientes proporcionadas por la investigación básica para las empresas, fortalecer la investigación básica sobre big data y la investigación tecnológica con visión de futuro, y esforzarse por conquistar las tecnologías centrales y clave de big data.

2 Entender el big data requiere elevarse al nivel de la cultura y la epistemología.

2.1 La cultura del dato es una cultura avanzada.

La esencia de la cultura del dato es respetar el mundo objetivo y buscar la verdad en los hechos. Prestar atención a los datos significa enfatizar el espíritu científico de hablar con hechos y pensar racionalmente. El hábito tradicional del pueblo chino es el pensamiento cualitativo más que el cuantitativo. En la actualidad, muchas ciudades están realizando el trabajo de apertura de datos gubernamentales, pero se descubre que la mayoría de la gente no está interesada en los datos que el gobierno quiere abrir. Para encaminar los macrodatos hacia un desarrollo saludable, primero debemos promover vigorosamente la cultura de los datos.

La cultura de datos mencionada en este artículo no se refiere solo a los grandes datos utilizados por industrias culturales como la literatura, el arte y las publicaciones, sino que también se refiere a la conciencia de datos de todo el pueblo. Toda la sociedad debe darse cuenta de que el núcleo de la informatización son los datos. Sólo cuando el gobierno y el público presten atención a los datos se podrá comprender verdaderamente la esencia de la informatización: los datos son un nuevo factor de producción, y la aplicación de big data puede cambiar la situación; el papel de factores tradicionales como el capital y la tierra en la economía.

Algunas personas ridiculizarán que Dios y los datos sean una de las características de la cultura estadounidense, diciendo que los estadounidenses tienen tanto sinceridad hacia Dios como la racionalidad para buscar la verdad a través de los datos. Estados Unidos ha completado la transformación de la cultura de los datos de la Edad Dorada a la Era Progresista. Después de la Guerra Civil, los métodos censales se aplicaron a muchos campos, formando un modelo de pensamiento para la predicción y el análisis de datos. En el siglo pasado, la modernización de Estados Unidos y los países occidentales ha estado estrechamente relacionada con la difusión y penetración de la cultura de los datos. Para lograr la modernización, China también debe enfatizar la cultura de los datos.

La clave para aumentar la conciencia sobre los datos es comprender la importancia estratégica del big data. Los datos son un recurso estratégico tan importante como el material y la energía. La recopilación y el análisis de datos involucran a todas las industrias y son una tecnología general y estratégica. La transformación de tecnología dura a tecnología blanda es una tendencia de desarrollo tecnológico global, y la tecnología para descubrir valor a partir de datos es la tecnología blanda más dinámica. El atraso de la tecnología y la industria de los datos retrasará una era como si se desaprovechara la oportunidad de la revolución industrial.

2.2 Entender el big data requiere una epistemología correcta.

Históricamente, la investigación científica comenzó con la deducción lógica, y todos los teoremas de la geometría euclidiana pueden derivarse de varios axiomas. Desde Galileo y Newton, la investigación científica ha prestado más atención a la observación natural y a la observación experimental, y a partir de la observación se han extraído teorías científicas mediante métodos inductivos, haciendo que la ciencia pase de la observación a la corriente principal de la investigación científica y la epistemología. Tanto el empirismo como el racionalismo han hecho grandes contribuciones al desarrollo de la ciencia, pero también han expuesto problemas obvios e incluso han llegado a extremos. El racionalismo llegó al extremo y se convirtió en el dogmatismo criticado por Kant, mientras que el empirismo llegó al extremo y se convirtió en escepticismo y agnosticismo.

En la década de 1930, el filósofo alemán Popper propuso una perspectiva epistemológica que las generaciones posteriores llamaron "el lugar donde se juega el falsacionismo". Creía que las teorías científicas no pueden ser probadas por inducción y sólo pueden ser objeto de burla con contraejemplos descubiertos a través de experimentos, por lo que negó que la ciencia comience a partir de la observación y propuso la famosa visión burlona de que la ciencia comienza donde ocurre el problema [3]. El falsacionismo tiene sus límites. Si se respeta estrictamente la ley de falsación, teorías importantes como la ley de la gravitación universal y la teoría atómica pueden ser destruidas por los primeros llamados contraejemplos. Sin embargo, la idea de que la ciencia comienza con el problema tiene una importancia rectora para el desarrollo de la tecnología de big data.

El auge del big data ha desencadenado un nuevo modelo de investigación científica: la ciencia comienza en la tierra de los datos. Desde un punto de vista epistemológico, los métodos de análisis de big data están cerca del empirismo que burla a la ciencia desde la perspectiva de la observación, pero debemos tener en cuenta las lecciones de la historia y evitar caer en el pozo del empirismo que niega el papel de la teoría. Al enfatizar la relevancia del ridículo, no duden de la existencia de causalidad del ridículo; al declarar la objetividad y neutralidad del big data, no olviden que no importa el tamaño de los datos, el big data siempre estará sujeto a sus propias limitaciones y humanas; sesgos. No crea en tales predicciones. Si utiliza la minería de big data, no necesita hacer ninguna pregunta sobre los datos, los datos generarán conocimiento automáticamente. Frente al enorme mar de datos, la mayor confusión para los científicos y técnicos dedicados a la minería de datos es qué debemos pescar en este mar para ver si hay algún truco. En otras palabras, necesitamos saber dónde radica el problema. En este sentido, es necesario combinar orgánicamente provocar a la ciencia a partir de datos y provocar a la ciencia a partir de preguntas.

La búsqueda de lugares divertidos es el eterno motor del desarrollo científico. Sin embargo, las razones son infinitas y es imposible para los humanos encontrar la verdad última en un tiempo limitado. En el camino de la exploración científica, la gente a menudo explica el mundo objetivamente mediante el ridículo y no pregunta inmediatamente por qué existen leyes tan objetivas. En otras palabras, la ciencia tradicional no sólo persigue relaciones causales, sino que también extrae conclusiones de leyes objetivas. Los resultados de la investigación de big data son en su mayoría nuevos conocimientos o nuevos modelos, que también pueden usarse para predecir el futuro y pueden considerarse una ley objetiva local. Hay muchos ejemplos en la historia de la ciencia de descubrimiento de leyes universales a través de modelos de datos pequeños, como las leyes del movimiento celeste inducidas por Kepler, los modelos de datos grandes descubren en su mayoría algunas leyes especiales; Las leyes de la física son generalmente inevitables, pero los modelos de big data no son necesariamente inevitables ni necesariamente deductivos.

Los objetos de investigación del big data suelen ser la psicología humana y la sociedad, que se encuentran en un nivel superior en la escala del conocimiento. Sus límites naturales son borrosos, pero tiene características más prácticas. Los investigadores de big data prestan más atención a la integración del conocimiento y la acción y creen en la práctica. La epistemología de big data tiene muchas características que son diferentes de la epistemología tradicional. No se puede negar la naturaleza científica de los métodos de big data solo porque sus características son diferentes. La investigación de big data desafía la preferencia de la epistemología tradicional por las relaciones causales, complementa leyes causales únicas con leyes de datos y logra la unificación del racionalismo y el empirismo en los datos. Una nueva epistemología de big data está tomando forma.

3 Comprender correctamente el valor y los beneficios del big data

3.1 El valor del big data se refleja principalmente en su efecto impulsor.

La gente siempre espera descubrir un valor enorme e inesperado a partir del big data. De hecho, el valor de los big data se refleja principalmente en su efecto impulsor, es decir, impulsa la investigación científica y el desarrollo industrial relevantes, y mejora la capacidad de todos los ámbitos de la vida para resolver problemas y agregar valor a través del análisis de datos. La contribución de los big data a la economía no se refleja enteramente en los ingresos directos de las empresas de big data. También debe considerarse la contribución a la eficiencia y la mejora de la calidad de otras industrias. Big data es una tecnología típica de uso general. Para comprender la tecnología general, debemos utilizar el modelo de las abejas divertidas: el principal beneficio de las abejas no es su propia miel, sino la contribución de la polinización de las abejas a la agricultura.

Von Neumann, uno de los fundadores de las computadoras electrónicas, señaló una vez que en toda ciencia, cuando estudiamos problemas que son bastante simples en comparación con el objetivo final, desarrollamos algunas soluciones que pueden promoverse continuamente. método, el tema ha logrado enormes avances. Naturalmente, no hay necesidad de esperar milagros cada día. Hacer cosas más simples. El progreso real reside en esfuerzos sólidos. A los medios les gusta promover algunas historias de éxito sorprendentes sobre big data, y debemos mantener la cabeza clara sobre estos casos. Según Wu Gansha, ingeniero jefe del Instituto de Investigación Intel China, en un informe, el llamado caso clásico de minería de datos de burlarse de la cerveza y los pañales fue en realidad una historia divertida inventada por un gerente de Teradata Company, lo que nunca ha sucedido. en la historia [4]. Incluso si se da este caso, no significa que haya nada mágico en el análisis de big data en sí. Dos cosas aparentemente no relacionadas aparecen en cualquier parte del big data al mismo tiempo o una tras otra. La clave es que el razonamiento analítico humano consiste en descubrir por qué dos cosas aparecen al mismo tiempo o una tras otra. Encontrar la razón correcta es un conocimiento nuevo o una ley recién descubierta. La correlación en sí tiene poco valor.

Existe una fábula muy conocida que puede ilustrar el valor del big data desde una perspectiva: antes de morir, un anciano granjero les dijo a sus tres hijos que había enterrado una olla de oro en el suelo de su casa. , pero no dijo dónde ser enterrado.

Sus hijos cavaron toda la tierra de su familia y no encontraron oro, pero como cavaron profundamente, las cosechas fueron particularmente buenas a partir de entonces. Las capacidades de recopilación y análisis de datos han mejorado. Incluso si no se descubren reglas universales ni conocimientos nuevos completamente inesperados, el valor del big data ha ido surgiendo gradualmente.

3.2 El poder del big data proviene de la creación de gran sabiduría.

Cada fuente de datos tiene ciertas limitaciones y unilateralidad. Sólo fusionando e integrando todos los aspectos de los datos originales se podrá reflejar la imagen completa de las cosas. La esencia y las leyes de las cosas están ocultas en la correlación de diversos datos en bruto. Diferentes datos pueden describir la misma entidad desde diferentes perspectivas. Para el mismo problema, diferentes datos pueden proporcionar información complementaria y proporcionar una comprensión más profunda del problema. Por lo tanto, en el análisis de big data, la clave es recopilar datos de tantas fuentes como sea posible.

La ciencia de datos es una ciencia que combina las matemáticas (estadística, álgebra, topología, etc.). ), informática, ciencias básicas y diversas ciencias aplicadas, similar a lo que propuso el Sr. Qian Xuesen [5]. El Sr. Qian señaló: El ridículo puede ser de gran ayuda y ganar sabiduría. La clave de la inteligencia de big data radica en la integración e integración de múltiples fuentes de datos. La IEEE Computer Society publicó recientemente un informe de pronóstico de tendencias de desarrollo de tecnología informática para 2014, centrado en la inteligencia perfecta. El objetivo del desarrollo de big data es obtener un lugar inteligente y fluido para la colaboración y la integración. Depender de una sola fuente de datos, incluso si los datos son grandes, puede ser tan unilateral como burlarse de una persona ciega. El intercambio abierto de datos no es la guinda del pastel, sino un requisito previo necesario que determina el éxito o el fracaso del big data.

La investigación y aplicación de big data debe cambiar el pensamiento tradicional del pasado que cada departamento y disciplina desarrollaba de forma independiente. La atención se centra no en apoyar el desarrollo de tecnologías y métodos individuales, sino más bien en la colaboración entre diferentes sectores y disciplinas.

La ciencia de datos no es una chimenea vertical, sino una ciencia horizontal integrada como la ciencia ambiental y energética.

3.3 El big data tiene un futuro brillante, pero no podemos esperar demasiado en el futuro próximo.

Cuando apareció el aire acondicionado, se utilizaba principalmente para iluminación. Es inimaginable que hoy en día se utilice en todas partes. Lo mismo ocurre con la tecnología de big data, que producirá muchas aplicaciones inesperadas en el futuro. No tenemos que preocuparnos por el futuro del big data, pero tenemos que trabajar de manera muy pragmática en el futuro cercano. La gente tiende a sobreestimar el desarrollo a corto plazo y a subestimar el desarrollo a largo plazo. Gartner predice que la tecnología de big data se convertirá en una tecnología convencional en 5 a 10 años, por lo que debemos tener suficiente paciencia al desarrollar tecnología de big data.

Al igual que otras tecnologías de la información, el big data sigue la ley del desarrollo exponencial durante un período de tiempo. La característica del desarrollo exponencial es que, medido a partir de un período histórico (al menos 30 años), el desarrollo inicial es relativamente lento. Después de un largo período de acumulación (que puede durar más de 20 años), habrá un punto de inflexión. y entonces habrá un crecimiento explosivo. Pero ninguna tecnología mantendrá un crecimiento exponencial para siempre. En términos generales, el desarrollo de alta tecnología sigue la curva de madurez tecnológica descrita por Gartner y eventualmente puede entrar en un estado estable de desarrollo saludable o desaparecer.

Los problemas que la tecnología big data necesita resolver suelen ser muy complejos, como la informática social, las ciencias de la vida, las ciencias del cerebro, etc. Estos problemas no pueden resolverse con los esfuerzos de varias generaciones. El universo evolucionó durante miles de millones de años antes de que aparecieran los seres vivos y los humanos. Su complejidad e ingenio son incomparables. No esperen que quede completamente desmitificado en manos de nuestra generación. Mirando hacia el futuro dentro de millones de años o incluso más, la tecnología de big data es sólo una ola en el largo río del desarrollo científico y tecnológico no podemos hacernos ilusiones poco realistas sobre los resultados científicos que la investigación de big data puede lograr en 10 a 20 años.

4 Desde la perspectiva de la complejidad, los desafíos que enfrenta la investigación y aplicación del big data.

La tecnología big data está estrechamente relacionada con los esfuerzos humanos por explorar la complejidad. En la década de 1970, el surgimiento de tres nuevas teorías (teoría de la estructura disipativa, teoría de la sinergia y teoría de la catástrofe) desafió el reduccionismo que ha persistido a lo largo de cientos de años de investigación científica y tecnológica. De 1943 a 1984, Gell-Mann y otros tres premios Nobel establecieron el Instituto Santa Fe, que se centró en estudiar la complejidad. Propusieron el lema de trascender el reduccionismo y desencadenaron una revolución científica de la complejidad en el mundo científico y tecnológico. Aunque el trueno fue fuerte, no logró los resultados esperados en treinta años. Una razón puede ser que la compleja tecnología aún no se había resuelto.

El desarrollo de los circuitos integrados, las computadoras y las tecnologías de la comunicación ha mejorado enormemente la capacidad de los seres humanos para estudiar y abordar problemas complejos. La tecnología de big data impulsará nuevas ideas en la ciencia de la complejidad y puede hacer que la ciencia de la complejidad se haga realidad. La ciencia de la complejidad es la base científica de la tecnología de big data, y los métodos de big data pueden considerarse como la realización técnica de la ciencia de la complejidad. Los métodos de big data proporcionan formas técnicas de lograr la unidad dialéctica del reduccionismo y el holismo. La investigación de big data debe extraer nutrientes de la investigación compleja. Los académicos que participan en la investigación de la ciencia de datos no solo deben comprender las tres principales teorías de la innovación en el siglo XX, sino también aprender conocimientos relacionados, como el hiperbucle, el caos, los fractales y los autómatas celulares, para ampliar sus horizontes y profundizar su comprensión de la ciencia de los datos. Mecanismos del big data.

La tecnología big data aún no está madura. Frente a datos masivos, heterogéneos y que cambian dinámicamente, las tecnologías tradicionales de procesamiento y análisis de datos son difíciles de manejar. Los sistemas de procesamiento de datos existentes tienen baja eficiencia, alto costo, alto consumo de energía y son difíciles de expandir. La mayoría de estos desafíos provienen de la complejidad de los datos mismos, la complejidad de los cálculos y la complejidad de los sistemas de información.

4.1 Desafíos que plantea la complejidad de los datos

El análisis de datos, como la recuperación de gráficos, el descubrimiento de temas, el análisis semántico y el análisis de sentimientos, son muy difíciles porque los big data implican tipos complejos, estructuras complejas, esquemas complejos, los datos en sí son muy complejos. En la actualidad, la gente no comprende el significado físico detrás de los grandes datos, las reglas de correlación entre los datos y la conexión intrínseca entre la complejidad de los grandes datos y la complejidad computacional. La falta de conocimiento del dominio limita el descubrimiento de modelos de big data y el diseño de métodos informáticos eficientes. La descripción formal o cuantitativa de las características esenciales y los indicadores de medición de la complejidad de los big data requiere un estudio en profundidad del mecanismo intrínseco de la complejidad de los datos. La complejidad del cerebro humano se refleja principalmente en las conexiones entre billones de dendritas y axones, y la complejidad de los grandes datos también se refleja principalmente en la correlación entre datos. Comprender el misterio de la correlación entre los datos puede ser un gran avance para revelar las leyes de emergencia micro y macro.

La investigación sobre las leyes de complejidad de big data ayuda a comprender las características esenciales y los mecanismos de generación de patrones complejos de big data, simplificando así la representación de big data y obteniendo una mejor abstracción del conocimiento. Por lo tanto, es necesario establecer una teoría y un modelo de distribución de datos bajo correlación multimodal, aclarar la relación intrínseca entre la complejidad de los datos y la complejidad computacional y sentar una base teórica para la computación de big data.

4.2 Desafíos que plantea la complejidad computacional

La informática de big data no puede realizar análisis estadísticos y cálculos iterativos de datos globales como pequeños conjuntos de datos de muestra. Al analizar big data, es necesario reexaminar y estudiar su computabilidad, complejidad computacional y algoritmos de solución. El tamaño de la muestra de big data es enorme, las correlaciones internas son estrechas y complejas y la distribución de la densidad de valor es extremadamente desigual. Estas características plantean desafíos para el establecimiento de paradigmas de computación de big data. Para datos a nivel de petabytes, incluso los cálculos de complejidad lineal son difíciles de lograr y, debido a la escasez de distribución de datos, es posible que se realicen muchos cálculos no válidos.

La complejidad computacional tradicional se refiere a la relación funcional entre el tiempo y el espacio necesarios para resolver un problema y el tamaño del problema. El llamado algoritmo de complejidad polinomial significa que cuando aumenta la escala del problema, la tasa de crecimiento del tiempo y el espacio de cálculo está dentro de un rango tolerable. La informática científica tradicional se centra en cómo resolver rápidamente problemas de una escala determinada. En las aplicaciones de big data, especialmente en la informática de flujo, a menudo existen límites claros en cuanto al tiempo y el espacio para el procesamiento y análisis de datos. Por ejemplo, si el tiempo de respuesta de un servicio de red excede unos pocos segundos o incluso unos pocos milisegundos, muchos usuarios se perderán. La aplicación de big data es esencialmente cómo hacer mucha diversión dentro de determinadas limitaciones de tiempo y espacio. Del cálculo rápido al cálculo múltiple, la lógica de pensamiento al considerar la complejidad del cálculo ha cambiado enormemente. El llamado cálculo divertido no significa que cuanto mayor sea la cantidad de datos, mejor. Es necesario explorar métodos de reducción bajo demanda de datos suficientes a solo buenos datos y luego a datos valiosos.

Una forma de resolver problemas difíciles basados ​​en big data es abandonar las soluciones generales y encontrar soluciones a problemas específicos basados ​​en restricciones especiales. Los problemas cognitivos humanos son generalmente NP-difíciles, pero siempre que haya suficientes datos, se pueden encontrar soluciones muy satisfactorias en condiciones limitadas. El enorme avance de los coches autónomos en los últimos años es un buen ejemplo de ello. Para reducir la cantidad de cálculo, es necesario estudiar métodos locales de cálculo y aproximación basados ​​en bootstrap y muestreo, proponer nuevas teorías algorítmicas que no dependan de los datos totales y estudiar algoritmos no deterministas adaptados a big data.

4.3 Desafíos planteados por la complejidad del sistema

Big data impone requisitos estrictos sobre la eficiencia operativa y el consumo de energía de los sistemas informáticos. Evaluar y optimizar la eficiencia de los sistemas de procesamiento de big data es un desafío, no solo es necesario aclarar la relación entre la complejidad computacional de los big data y la eficiencia del sistema y el consumo de energía, sino también medir de manera integral el rendimiento, las capacidades de procesamiento paralelo y el cálculo del trabajo. precisión y unidades de trabajo del sistema. Consumo de energía y otros factores de eficiencia. En vista de los valores escasos y la débil localidad de acceso de big data, es necesario estudiar la arquitectura de procesamiento y almacenamiento distribuido de big data.

La aplicación del big data involucra a casi todos los campos. La ventaja del big data es que puede encontrar un valor escaso y valioso en aplicaciones de cola larga. Sin embargo, una estructura de sistema informático optimizada es difícil de satisfacer diversas necesidades y las aplicaciones fragmentadas aumentan en gran medida la complejidad del sistema de información. ¿Cómo es posible que aplicaciones de big data y de IoT tan numerosas como los insectos (más de 5 millones de especies) formen un mercado enorme como el de los teléfonos móviles? Ésta es la llamada paradoja de los insectos [6]. Para resolver la complejidad de los sistemas informáticos, es necesario estudiar sistemas informáticos heterogéneos y tecnología informática plástica.

En la aplicación de big data, la carga de los sistemas informáticos ha sufrido cambios sustanciales y la estructura de los sistemas informáticos necesita una reconstrucción revolucionaria. Los sistemas de información deben pasar de los datos alrededor del procesador a las capacidades de procesamiento de datos. El enfoque no está en el procesamiento de datos, sino en el procesamiento de datos, el punto de partida del diseño de la estructura del sistema debe pasar de centrarse en el tiempo de finalización de una sola tarea a mejorar el tiempo de ejecución de una sola tarea. Rendimiento y capacidad de procesamiento paralelo del sistema, la escala de ejecución concurrente debe aumentarse a más de 654,38 mil millones. La idea básica de construir un sistema informático centrado en datos es eliminar fundamentalmente los flujos de datos innecesarios, y el procesamiento de datos necesario debe pasar de divertidos elefantes a divertidas hormigas moviendo campos de arroz.

Cinco malentendidos que deben evitarse en el desarrollo de big data

5.1 No perseguir ni ridiculizar ciegamente la escala de datos.

La principal dificultad del big data no es la gran cantidad de datos, sino la diversidad de tipos de datos, los requisitos de respuesta oportuna y la dificultad para distinguir los datos originales de los datos reales.

El software de base de datos existente no puede manejar datos no estructurados, por lo que se debe prestar atención a la fusión de datos, la estandarización del formato de datos y la interoperabilidad de los datos. La calidad de los datos recopilados suele ser baja, que es una de las características del big data, pero aún así vale la pena prestar atención a mejorar la calidad de los datos originales tanto como sea posible. El mayor problema en la investigación de las ciencias del cerebro es la poca confiabilidad de los datos recopilados. Es difícil analizar resultados valiosos basados ​​en datos poco confiables.

La búsqueda ciega de datos a gran escala no sólo provocará desperdicio, sino que además puede no ser muy eficaz. La integración de pequeños datos de múltiples fuentes puede generar un enorme valor que no se puede obtener de grandes datos de una sola fuente. Deberíamos prestar más atención a la tecnología de fusión de datos y a la apertura y disfrute de los datos. Los llamados datos a gran escala están estrechamente relacionados con el campo de aplicación. En algunas áreas, unos pocos petabytes de datos pueden no ser grandes, mientras que en otras, decenas de terabytes de datos pueden ser grandes.

El desarrollo de big data no puede ser la búsqueda interminable de hacerse más grande, más y más rápido. Es necesario reducir costos, reducir el consumo de energía, beneficiar al público y mantener la justicia y el estado de derecho. Al igual que el actual control de la contaminación ambiental, debemos prestar atención temprana a las diversas desventajas que pueden traer los big data, como la contaminación del suelo, la invasión de la privacidad, etc.

5.2 No te metas con los controladores tecnológicos, métete primero con las aplicaciones.

Nuevas tecnologías de la información están surgiendo una tras otra, y constantemente surgen nuevos conceptos y términos en el campo de la información. Se estima que después de provocar big data, provocar nuevas tecnologías como la computación cognitiva, los dispositivos portátiles y los robots alcanzará la cima de la exageración. Estamos acostumbrados a seguir modas extranjeras y, a menudo, seguimos inconscientemente las tendencias tecnológicas. Es más fácil tomar el camino de ridiculizar la tecnología impulsada por la tecnología. De hecho, el propósito del desarrollo de la tecnología de la información es servir a la gente, y el único criterio para probar todas las tecnologías es su aplicación. Para desarrollar la industria de big data en China, debemos adherirnos a la estrategia de desarrollo de clasificar primero las aplicaciones y la ruta técnica impulsada por las aplicaciones. Tecnología limitada y aplicaciones ilimitadas. Para desarrollar la computación en la nube y los big data en varios lugares, se deben adoptar políticas y diversas medidas para movilizar el entusiasmo de los departamentos de aplicaciones y las empresas innovadoras, explorar nuevas aplicaciones a través de la innovación combinada transfronteriza y encontrar una salida a las aplicaciones.

5.3 No abandonar el método de burlarse del pequeño dato.

La definición popular de big data es: conjuntos de datos que las herramientas de software actuales no pueden recopilar, almacenar y procesar en un tiempo razonable. Ésta es una forma técnicamente incompetente de definir el problema y puede dar lugar a malentendidos. Según esta definición, las personas sólo pueden centrarse en problemas que actualmente no tienen solución, como un peatón que quiere pisar la sombra que tiene delante. De hecho, la mayor parte del procesamiento de datos que se encuentra actualmente en todos los ámbitos de la vida sigue siendo un problema de ridiculizar los datos pequeños. Ya sean big data o pequeños datos, debemos prestar atención a cuestiones prácticas.

Los estadísticos han pasado más de 200 años resumiendo varios obstáculos en el proceso de comprensión de los datos, y estos obstáculos no se solucionarán automáticamente a medida que aumente la cantidad de datos. Hay muchos problemas de datos pequeños en big data, y la recopilación de big data también producirá el mismo sesgo estadístico que la recopilación de datos pequeños. Las predicciones de Google sobre la gripe han fracasado en los últimos dos años debido a la intervención humana, como las recomendaciones de búsqueda.

Existe una opinión popular en la comunidad de big data: los big data no requieren análisis de relaciones causales, muestreo ni datos precisos. Este concepto no puede ser absoluto. En el trabajo real, es necesario combinar la deducción e inducción lógicas, la investigación de caja blanca y de caja negra, métodos de big data y métodos de small data.

5.4 Preste mucha atención al coste de construcción de una plataforma de big data.

Actualmente se están construyendo grandes centros de datos en todo el país y Luliang Mountain ha establecido un centro de procesamiento de datos con una capacidad de más de 2 PB. Muchos departamentos de seguridad pública de las ciudades exigen que los vídeos de vigilancia de alta definición se almacenen durante más de tres meses. Estos sistemas son muy caros. El valor de la minería de datos proviene del costo, y los sistemas de big data no se pueden construir a ciegas, independientemente del costo. Los datos que deben guardarse y durante cuánto tiempo deben conservarse deben determinarse en función del valor posible y el costo requerido. La tecnología de los sistemas de big data todavía está en investigación. El sistema de supercomputación a exaescala de Estados Unidos requiere que el consumo de energía se reduzca 1.000 veces y no está previsto que se desarrolle hasta 2024. Los enormes sistemas construidos con la tecnología actual consumen cantidades extremadamente altas de energía.

No deberíamos comparar la escala de los sistemas de big data, sino consumir menos recursos y energía para lograr lo mismo que el efecto de la aplicación real. Primero, aprovechar las aplicaciones de big data que más necesitan las personas y desarrollar big data de acuerdo con las condiciones locales. El desarrollo del big data y la estrategia de la informatización son los mismos: el objetivo debe ser ambicioso, el comienzo debe ser preciso y el desarrollo debe ser rápido.