Cursos de formación de introducción a big data, qué aprender en los cursos de aprendizaje de big data
1. La primera etapa: conceptos básicos de páginas web estáticas (HTML CSS)
1. Dificultad: una estrella
2. Tiempo (capacidad integral de las tareas del proyecto en la etapa de puntos de conocimiento técnico)
p>
3. Las principales tecnologías incluyen: etiquetas HTML comunes, diseño CSS común, estilos, posicionamiento, etc., diseño de páginas estáticas y métodos de producción.
4. La descripción es la siguiente:
Desde una perspectiva técnica, el código técnico utilizado en esta etapa es simple, fácil de aprender y fácil de entender. Desde la perspectiva del nivel posterior del curso, porque nos centramos en big data, pero en la etapa inicial, necesitamos ejercitar las habilidades y el pensamiento de programación. Después de muchos años de desarrollo y análisis de enseñanza por parte de nuestros gerentes de proyectos, para satisfacer estos dos puntos, la mejor tecnología del mercado para comprender y dominar es J2EE, pero J2EE es inseparable de la tecnología de páginas. Entonces nuestro enfoque en la primera etapa es la tecnología de páginas. Adopte el HTML CSS convencional del mercado.
2. La segunda etapa: JavaSE JavaWeb
1. Dificultad: dos estrellas
2. Consumo de tiempo (capacidad integral de las tareas del proyecto en el punto de conocimiento técnico). stage)
3. Las principales tecnologías incluyen: sintaxis básica JAVA, orientada a objetos JAVA (clases, objetos, encapsulación, herencia, polimorfismo, clases abstractas, interfaces, clases comunes, clases internas, modificadores comunes, etc. Excepciones, colecciones, archivos, IO, MYSQL (operaciones básicas de declaraciones SQL, consultas de múltiples tablas, subconsultas, procedimientos almacenados, transacciones, transacciones distribuidas), JDBC, subprocesos, reflexión, programación de sockets, enumeración, generalización, patrones de diseño. >
4. La descripción es la siguiente:
La llamada base Java se refiere a los puntos técnicos de lo más superficial a lo más profundo, el análisis de módulos de proyectos comerciales reales y el diseño de varios tipos de almacenamiento. métodos
e implementación. Esta etapa es la más importante entre las primeras cuatro etapas, porque todas las etapas posteriores se basan en esta etapa, y también es la etapa con mayor grado de rigor en el aprendizaje de big data. Esta etapa será la primera vez que entrará en contacto con un equipo de desarrollo y producción. Un proyecto real con front-end y back-end (aplicación integral de la tecnología de la primera etapa y la tecnología de la segunda etapa). >
3. La tercera etapa: marco front-end
1. Dificultad del curso: 2. Calificación con estrellas
2. Cantidad de tiempo (capacidad integral de las tareas del proyecto en el etapa de conocimiento técnico): 64 horas
3. Las tecnologías principales incluyen:
1: Java, Jquery, uso junto con reflexión de anotaciones, análisis XML y XML, análisis dom4j, jxab jdk8. 0 nuevas características, SVN, Maven, easyui
4. La descripción específica es la siguiente:
Las dos primeras etapas Sobre la base de convertir lo estático en dinámico, podemos darnos cuenta de que nuestro El contenido de la página web será más rico, por supuesto, desde la perspectiva del personal del mercado, si hay diseñadores front-end profesionales, nuestro objetivo en esta etapa del diseño es esperar que la tecnología front-end pueda ejercitar el pensamiento y el diseño de las personas de manera más intuitiva. Al mismo tiempo, también integramos las funciones avanzadas de la segunda etapa en esta etapa
Cuarto: Marco de desarrollo a nivel empresarial
1. /p>
2. Cantidad de tiempo (capacidad integral de las tareas del proyecto en la etapa de conocimiento técnico)
3. Las tecnologías principales incluyen: Hibernate, Spring, SpringMVC, integración log4j slf4j. siguiente:
Si se compara todo el curso de JAVA con una pastelería, entonces las primeras tres etapas pueden ser una tienda de bollos de Wudalang (porque es puramente artesanal, demasiado problemático), y si aprendes bien el marco , puedes abrir un Starbucks (equipo de alta tecnología que ahorra tiempo y esfuerzo).
Los ingenieros de desarrollo J2EE deben dominar todo, desde los requisitos laborales, el uso del escenario hasta la tecnología, y los cursos que impartimos son más altos que los del mercado (los tres marcos principales en el mercado, enseñamos siete tecnologías de marco) y están impulsados por proyectos comerciales reales. Se explicará la documentación de requisitos, el diseño general, el diseño detallado, las pruebas del código fuente, la implementación y los manuales de instalación.
V. La quinta etapa: comprensión de big data
1. Nivel de dificultad: tres estrellas
2. Cantidad de tiempo (etapa de conocimiento técnico, capacidad integral de tareas del proyecto)
3. Las principales tecnologías incluyen:
1: Big data (qué es big data, escenarios de aplicación, cómo aprender grandes bases de datos, el concepto y la instalación de máquinas virtuales , etc.), Comandos de uso común de Linux (administración de archivos, administración de sistemas) (administración de archivos, administración de sistemas, administración de discos), programación de Shell de Linux (variables SHELL, control de bucle, aplicaciones), introducción de Hadoop (composición de Hadoop, entorno independiente , estructura de directorios, interfaz HDFS, interfaz MR, SHELL simple, acceso a Java hadoop), uso de herramientas de desarrollo HDFS (introducción, SHELL, IDEA), construcción de clúster totalmente distribuida), las instrucciones son las siguientes:
Esto La etapa está diseñada para permitir que los recién llegados comprendan big data. ¿Cómo comparamos conceptos relativamente grandes? Después de estudiar JAVA en los cursos anteriores, podrás comprender cómo se ejecuta el programa en una sola máquina. Ahora bien, ¿qué pasa con el big data? Big data significa ejecutar programas en grupos de máquinas a gran escala para su procesamiento. Por supuesto, big data se trata de procesar datos, por lo que el almacenamiento de datos ha cambiado una vez más del almacenamiento en una sola máquina al almacenamiento en clústeres a gran escala de varias máquinas.
(Preguntas, ¿qué es un racimo? Bueno, tengo una olla grande de arroz que puedo terminar yo sola, pero lleva mucho tiempo y ahora llamo a alguien para que se lo coma. Cuando están solos Si hay demasiadas personas, ¿qué pasa cuando hay demasiadas personas? ¿No es eso lo que llamamos demasiadas personas?
Entonces, big data se puede dividir a grandes rasgos en: almacenamiento de big data y Procesamiento de big data Entonces, en esta etapa, nuestro curso Diseño Big Data Standard: HADOOP Big Data Operation No está en WINDOWS 7 o W10 de uso común, sino en el sistema más utilizado ahora:
Lección 6: Base de datos Big Data
Lección 6: Base de datos Big Data
Lección 6: Base de datos Big Data
Lección 6: Base de datos Big Data
Lección 6: Base de datos de Big Data Almacenamiento de datos y base de datos de procesamiento de big data
1. Nivel de dificultad: cuatro estrellas
2. etapa)
3. Las tecnologías principales incluyen:
1: Introducción a Hive (introducción a Hive, escenarios de uso de Hive, entorno, arquitectura, mecanismo de trabajo), programación de Hive Shell (tabla). construcción, declaraciones de consulta, particiones y depósitos, administración de índices y vistas), aplicaciones avanzadas de Hive (implementación DISTINCT, agrupación, unión, principios de conversión de SQL, programación, configuración y optimización de Java), introducción de Hbase, programación de Hbase SHELL (DDL, DML, Java operaciones para creación de tablas, consultas, compresión, filtros), explicación detallada de los módulos de Hbase (REGION, HREGION SERVER, HMASTER, introducción a ZOOKEEPER, configuración de ZOOKEEPER, integración de Hbase y Zookeeper), funciones avanzadas de HBASE (procesos de lectura y escritura, modelos de datos, esquema diseñar puntos de acceso de lectura y escritura, optimización y configuración)
4. La descripción es la siguiente:
Esta etapa está diseñada para permitirle comprender cómo big data maneja datos a gran escala en el mismo tiempo. Simplifica el tiempo que dedicamos a escribir programas mientras aumentas la velocidad de lectura.
¿Cómo simplificar? En la primera etapa, si necesita realizar una correlación comercial compleja y extracción de datos, escribir programas de MR usted mismo es muy engorroso. Por lo tanto, en esta etapa presentamos HIVE, un almacén de datos en big data.
Aquí hay una palabra clave: almacén de datos. Sé que me vas a preguntar, así que primero déjame decirte que el almacén de datos se utiliza para la extracción y el análisis de datos. Por lo general, es un gran centro de datos. Los datos se almacenan en grandes bases de datos como ORACLE y DB2. Normalmente se utiliza para hacer negocios en línea en tiempo real.
En resumen, la velocidad de análisis de datos basada en el almacén de datos es relativamente lenta. Pero la conveniencia es que siempre que esté familiarizado con SQL, es relativamente fácil de aprender, y HIVE es una herramienta de este tipo, una herramienta de consulta SQL basada en big data. En esta etapa, también incluye HBASE, que es adecuado para. bases de datos en big data. Narcissa, ¿has oído hablar de un "almacén" de datos llamado HIVE? HIVE se basa en MR, por lo que la consulta es relativamente lenta y HBASE puede realizar consultas de datos en tiempo real basadas en big data. Uno es principalmente para análisis, el otro es principalmente para consultas
7 Etapa 7: recopilación de datos en tiempo real
1. Dificultad del programa: cuatro estrellas
2. Cantidad de tiempo (capacidad integral de las tareas del proyecto en la etapa de conocimiento técnico)
3 Las tecnologías principales incluyen: recopilación de registros de canales, introducción a KAFKA (mensaje). cola, escenarios de aplicaciones, construcción de clústeres), explicación detallada de KAFKA (particiones, temas, receptores, remitentes, integración con ZOOKEEPER, desarrollo de Shell, depuración de Shell), uso avanzado de KAFKA (desarrollo de Java, configuración principal, proyectos de optimización), visualización de datos (introducción a gráficos, clasificación de herramientas GRÁFICOS, gráficos de barras y gráficos circulares, gráficos y mapas 3D), introducción a STORM (diseño), STORM (diseño), STORM (diseño), STORM (diseño), STORM (diseño), STORM (diseño) , STORM (diseño), STORM (diseño), STORM (diseño), STORM (diseño), ideas STORM (diseño, escenarios de aplicación, procesamiento, instalación de clústeres), desarrollo STROM (desarrollo STROM MVN, escritura de programas locales STORM), STORM avanzado (desarrollo de Java, configuración principal, proyectos de optimización), envío asíncrono KAFKA y sincronización de envío por lotes, clasificación global de mensajes KAFKA, optimización multiconcurrencia STORM
4.
La fuente de datos de la etapa anterior se basa en los conjuntos de datos a gran escala existentes. Los resultados del procesamiento y análisis de datos tienen un cierto retraso en el pasado. Por lo general, los datos procesados son los datos del día anterior.
Escenarios de ejemplo: prevención de enlaces directos a sitios web, anomalías en las cuentas de los clientes e informes crediticios en tiempo real. Cuando nos encontramos con estos escenarios, ¿qué sucede después de analizar los datos del día anterior? ¿No es demasiado tarde? Entonces, en esta etapa introdujimos la recopilación y el análisis de datos en tiempo real. Incluye principalmente la recopilación de datos en tiempo real FLUME, que admite una amplia gama de fuentes de recopilación, la recepción y transmisión de datos KAFKA, el procesamiento de datos en tiempo real STORM y el procesamiento de datos en segundos.
Etapa 8: SPARK. análisis de datos
1. análisis de datos SPARK. Dificultad del curso: Cinco estrellas
2. Horas de clase (tareas del proyecto en la etapa de conocimiento técnico)
3. Capacidad integral)
3.
1: Introducción a SCALA (tipos de datos, operadores, declaraciones de control, funciones básicas), SCALA avanzado (estructuras de datos, clases, objetos, rasgos, coincidencia de patrones, expresiones regulares), uso avanzado de SCALA (avanzado Funciones de primer orden, funciones de Cory, funciones parciales, iteración de cola, funciones de orden superior que se explican por sí mismas, etc.), Introducción a SPARK (estructuras de datos, clases, objetos, rasgos, coincidencia de patrones, expresiones regulares), SPARK avanzado (datos estructuras, clases, objetos), rasgos, coincidencia de patrones, expresiones regulares).
SPARK entrada (entorno) construcción, infraestructura, modo operativo), conjunto de datos Spark y modelo de programación, SPARK SQL, SPARK avanzado (marco de datos, conjunto de datos, principio SPARK STREAMING, fuente de soporte SPARK STREAMING, integración de KAFKA y SOCKET, modelo de programación) , programación avanzada SPARK (Spark-GraphX, aprendizaje automático Spark-Mllib), aplicaciones avanzadas SPARK (arquitectura del sistema, configuración principal y optimización del rendimiento, recuperación de fallas y etapas), algoritmo SPARK ML KMEANS, funciones avanzadas de conversión implícita SCALA
4. La explicación es la siguiente:
También partimos de las etapas anteriores, principalmente la primera etapa. HADOOP es relativamente lento a la hora de analizar conjuntos de datos a gran escala basados en RM (incluido el aprendizaje automático, la inteligencia artificial, etc.). SPARK se utiliza como producto alternativo al analizar MR. ¿Cómo reemplazarlo? El primero es su mecanismo operativo. HADOOP se basa en el análisis de almacenamiento en disco, mientras que SPARK se basa en el análisis de memoria. Puede que no entiendas lo que digo. Para ser más descriptivo, es como si estuvieras tomando un tren de Beijing a Shanghai. MR es un tren verde y SPARK es un tren de alta velocidad o maglev. SPARK está desarrollado en base al lenguaje SCALA. Por supuesto, tiene el mejor soporte para SCALA, por lo que el curso aprende primero el lenguaje de desarrollo SCALA.
En el diseño del curso de big data en HKUST, se cubren básicamente los requisitos laborales para la tecnología del mercado. Y no se trata sólo de cubrir los requisitos laborales, sino que el curso en sí es un proceso completo de proyecto de big data de principio a fin, enlace por enlace.
Por ejemplo, desde el almacenamiento y análisis de datos históricos (HADOOP, HIVE, HBASE) hasta el almacenamiento y análisis de datos en tiempo real (FLUME, KAFKA) (STORM, SPARK), estos son proyectos reales que tienen una existencia interdependiente. .