Red de conocimiento de recetas - Recetas gastronómicas - ¿Cómo aprender big data? ¿Puedo estudiar solo?

¿Cómo aprender big data? ¿Puedo estudiar solo?

Si desea aprender big data por su cuenta, existen ventajas para quienes saben cómo empezar. ¡Este artículo es un plan de estudio especialmente preparado para ti! ¡La organización de estos conocimientos técnicos, su definición, relación y función será de gran ayuda para tus estudios futuros!

La esencia del big data también son los datos, pero tienen nuevas características, que incluyen amplias fuentes de datos, diversos formatos de datos (datos estructurados, datos no estructurados, archivos Excel, archivos de texto, etc.) y volumen de datos. Grandes (al menos nivel TB, incluso nivel PB), el crecimiento de datos es rápido.

En vista de las cuatro características principales del big data, debemos considerar las siguientes preguntas:

Hay muchas fuentes de datos, ¿cómo recopilarlas y resumirlas? , correspondiente al surgimiento de herramientas como Sqoop, Cammel y Datax.

Después de la recopilación de datos, ¿cómo almacenarlos? , correspondiente a la aparición de sistemas de almacenamiento de archivos distribuidos como GFS, HDFS y TFS.

Debido al rápido crecimiento de los datos, el almacenamiento de datos debe poder escalarse horizontalmente.

Una vez almacenados los datos, ¿cómo convertirlos rápidamente a un formato coherente mediante operaciones y cómo calcular rápidamente los resultados deseados?

Los marcos informáticos distribuidos correspondientes, como MapReduce, resuelven este problema; sin embargo, escribir MapReduce requiere una gran cantidad de código Java, por lo que aparecieron motores de análisis como Hive y Pig para convertir SQL en MapReduce.

MapReduce ordinario solo puede procesar datos en lotes y el retraso es demasiado largo. Para lograr los resultados de cada entrada de datos, han surgido marcos informáticos de flujo de baja latencia como Storm/JStorm.

Pero si se requieren procesamiento por lotes y procesamiento de secuencias al mismo tiempo, los dos grupos de Hadoop (incluido HDFS + MapReduce + Yarn) y Storm son difíciles de administrar, por lo que la informática integral como Spark Apareció un marco que se puede utilizar tanto para el procesamiento por lotes como por secuencias (esencialmente procesamiento por microlotes).

La aparición de la arquitectura Lambda y la arquitectura Kappa proporciona una arquitectura común para el procesamiento empresarial.

Para mejorar la eficiencia en el trabajo y agilizar el transporte han aparecido algunas herramientas auxiliares:

Azkaban: Herramienta para tareas programadas.

Hue, Zepplin: herramientas gráficas para la gestión de la ejecución de tareas y visualización de resultados.

Lenguaje Scala: El mejor lenguaje para escribir programas Spark, por supuesto también puedes elegir Python.

Lenguaje Python: se utiliza al escribir algunos scripts.

Allluxio, Kylin, etc. :Herramientas que aceleran las operaciones preprocesando los datos almacenados.

Lo anterior enumera aproximadamente los problemas resueltos por las herramientas utilizadas en todo el ecosistema de big data. Saber por qué aparecen o qué problemas parecen resolver puede ser un objetivo al aprender.