¿Cuánto dura la formación en big data? ¿Es difícil aprender?
Se necesita más tiempo para aprender los conceptos básicos del desarrollo de big data. Generalmente, se necesitan al menos 6 meses para alcanzar el nivel de ingeniero junior en desarrollo de big data. Cada etapa de los ingenieros de Big Data sin conceptos básicos es fácil de entender y tiene una introducción simple, para que todos puedan comprender mejor el curso de aprendizaje de Big Data. El marco del curso es el curso de ingeniería de big data de base cero de Keda Data.
1. La primera etapa: conceptos básicos de páginas web estáticas (HTML+CSS)
1. Nivel de dificultad: una estrella
2. Puntos de conocimiento técnico + tareas del proyecto en etapa + capacidades integrales)
3. Las tecnologías principales incluyen: etiquetas HTML comunes, diseños CSS comunes, estilos, posicionamiento, etc., diseño de páginas estáticas y métodos de producción, etc. p>
4. La descripción es la siguiente:
Desde una perspectiva técnica, el código técnico utilizado en esta etapa es muy simple, fácil de aprender y fácil de entender. Desde la perspectiva del nivel posterior del curso, porque nuestro enfoque está en big data, pero en la etapa inicial, es necesario ejercitar las habilidades y el pensamiento de programación. Después del análisis realizado por nuestros gerentes de proyectos que han desarrollado y enseñado durante muchos años, se descubre que la tecnología que satisface estos dos puntos y que mejor se comprende y domina en el mercado es J2EE, pero J2EE es inseparable de la tecnología de páginas. Entonces nuestro enfoque en la primera etapa es la tecnología de páginas. Utilice el HTMl+CSS convencional del mercado.
2. La segunda etapa: JavaSE+JavaWeb
1. Nivel de dificultad: dos estrellas
2. Cantidad de horas de clase (puntos de conocimiento técnico + proyectos de etapa). Tarea + capacidad integral)
3. Las tecnologías principales incluyen: sintaxis básica de Java, orientada a objetos de Java (clase, objeto, encapsulación, herencia, polimorfismo, clase abstracta, interfaz, clase común, clase interna, modificación común). símbolos, etc.), excepciones, colecciones, archivos, IO, MYSQL (operaciones básicas de declaraciones SQL, consultas de múltiples tablas, subconsultas, procedimientos almacenados, transacciones, transacciones distribuidas) JDBC, subprocesos, reflexión, programación de sockets, enumeraciones, genéricos, diseño patrón
4. La descripción es la siguiente:
Se llama conceptos básicos de Java, desde puntos técnicos superficiales a profundos, análisis de módulos de proyectos comerciales reales y diseño de múltiples métodos de almacenamiento. /p>
con implementación. Esta etapa es la etapa más importante de las primeras cuatro etapas, porque todas las etapas posteriores se basan en esta etapa, y también es la etapa con mayor densidad de aprendizaje de big data. Esta etapa será la primera vez que el equipo desarrolle y produzca proyectos reales con front y backend (tecnología de primera etapa + aplicación integral de tecnología de segunda etapa).
3. La tercera etapa: framework front-end
1. Dificultad y procedimientos sencillos: dos estrellas
2. + Tareas del proyecto en etapa + Capacidad integral): 64 horas de clase
3. Las tecnologías principales incluyen: Java, Jquery, reflexión de anotaciones utilizadas juntas, análisis XML y XML, análisis de nuevas funciones dom4j, jxab, jdk8.0, SVN, Maven, easyui
4. La descripción es la siguiente:
Basándonos en las dos primeras etapas, convertir lo estático en dinámico puede enriquecer el contenido de nuestras páginas web. Desde la perspectiva del personal del mercado, existen diseñadores front-end profesionales. Nuestro objetivo en esta etapa del diseño es que la tecnología front-end pueda ejercitar de manera más intuitiva las capacidades de pensamiento y diseño de las personas. Al mismo tiempo, también integramos las funciones avanzadas de la segunda etapa en esta etapa. Llevando a los estudiantes al siguiente nivel.
4. La cuarta etapa: marco de desarrollo a nivel empresarial
1. Procedimientos difíciles y sencillos: tres estrellas
2. puntos + etapas Tareas del proyecto + capacidades integrales)
3. Las tecnologías principales incluyen: Hibernate, Spring, SpringMVC, integración log4j slf4j, myBatis, struts2, Shiro, redis, actividad del motor de procesos, tecnología de rastreo nutch, lucene, webServiceCXF, Tomcat Cluster y hot standby, separación de lectura y escritura de MySQL
4. La descripción es la siguiente:
Si se compara todo el curso JAVA con una pastelería, entonces el primero. tres etapas pueden hacer un Wudalang Shaobing (porque es puramente manual, demasiado problemático), y el marco de aprendizaje puede abrir un Starbucks (equipo de alta tecnología, ahorra tiempo y esfuerzo).
A partir de los requisitos laborales de los ingenieros de desarrollo J2EE, se deben dominar las tecnologías utilizadas en esta etapa, y los cursos que impartimos son más altos que los del mercado (los tres marcos principales en el mercado, enseñamos siete tecnologías de marco) y tienen experiencia en la vida real. impulsado por proyectos empresariales. Se explicará la documentación de requisitos, el diseño general, el diseño detallado, las pruebas del código fuente, la implementación, el manual de instalación, etc.
5. La quinta etapa: Primera introducción al big data
1. Nivel de dificultad: tres estrellas
2. etapas Tareas del proyecto + capacidades integrales)
3. Las tecnologías principales incluyen: Big Data Parte 1 (Qué es Big Data, escenarios de aplicación, cómo aprender grandes bases de datos, conceptos e instalación de máquinas virtuales, etc.), Linux comandos comunes (administración de archivos, administración de sistemas, administración de discos), programación de Shell de Linux (variables de SHELL, control de bucle, aplicaciones), introducción a Hadoop (composición de Hadoop, entorno independiente, estructura de directorios, interfaz HDFS, interfaz MR, SHELL simple , acceso a Java hadoop), HDFS (introducción, uso de SHELL, herramientas de desarrollo IDEA, construcción de clústeres totalmente distribuidos), aplicación MapReduce (proceso de cálculo intermedio, operación Java MapReduce, ejecución de programas, monitoreo de registros), aplicación avanzada Hadoop (introducción al marco YARN, elementos de configuración y optimización, introducción a CDH, configuración del entorno), expansión (optimización del lado MAP, cómo usar COMBINER, ver TOP K, exportación SQOOP, instantáneas de otras máquinas virtuales VM, comandos de administración de permisos, comandos AWK y SED)
4. La descripción es la siguiente:
Esta etapa está diseñada para permitir a los recién llegados tener un concepto relativamente amplio de big data. Después de aprender JAVA en el curso de requisitos previos. pueden entender cómo se ejecuta el programa en una computadora independiente. Ahora bien, ¿qué pasa con los big data? Los big data se procesan ejecutando programas en un grupo de máquinas a gran escala. Por supuesto, big data requiere procesamiento de datos, por lo que, de manera similar, el almacenamiento de datos cambia del almacenamiento en una sola máquina al almacenamiento en clústeres a gran escala en varias máquinas.
(¿Me preguntas qué es un racimo? Bueno, tengo una olla grande de arroz. Puedo terminarlo yo solo, pero tardaré mucho. Ahora les pido a todos que coman juntos. ¿Cuándo? Estoy solo, le pido a la gente que coma. Cuando hay más gente, ¿se llama multitud?)
Entonces los big data se pueden dividir a grandes rasgos en: almacenamiento de big data y procesamiento de big data. En esta etapa, nuestro curso ha diseñado el estándar de big data: HADOOP big data. Los datos no se ejecutan en WINDOWS 7 o W10 que usamos a menudo, sino en el sistema más utilizado ahora: LINUX.
6. La sexta etapa: base de datos de big data
1. Nivel de dificultad: cuatro estrellas
2. Cantidad de horas de clase (puntos de conocimiento técnico + proyectos de etapa). Tarea + capacidad integral)
3. Las tecnologías principales incluyen: introducción de Hive (introducción de Hive, escenarios de uso de Hive, construcción del entorno, descripción de la arquitectura, mecanismo de trabajo), programación de Hive Shell (creación de tablas, declaraciones de consulta, partición y Bucketing, administración de índices y vistas), aplicaciones avanzadas de Hive (implementación DISTINCT, groupby, join, principio de conversión de SQL, programación, configuración y optimización de Java), entrada de hbase, programación de Hbase SHELL (DDL, DML, creación de tablas de operaciones de Java, consulta, compresión , filtro), descripción detallada del módulo Hbase (REGION, HREGION SERVER, HMASTER, introducción a ZOOKEEPER, configuración de ZOOKEEPER, integración de Hbase y Zookeeper), funciones avanzadas de HBASE (proceso de lectura y escritura, modelo de datos, puntos de acceso de lectura y escritura de diseño de esquema, optimización y configuración)
4. La descripción es la siguiente:
Esta etapa está diseñada para permitir que todos comprendan cómo big data maneja datos a gran escala. Simplifica nuestro tiempo de programación y aumenta la velocidad de lectura.
¿Cómo simplificarlo? En la primera etapa, si se requieren correlaciones comerciales complejas y extracción de datos, es muy complicado escribir programas de MR usted mismo. Entonces, en esta etapa presentamos HIVE, un almacén de datos en big data. Aquí hay una palabra clave: almacén de datos.
Sé que me vas a preguntar, así que primero déjame decirte que el almacén de datos se utiliza para la extracción y el análisis de datos. Por lo general, es un centro de datos muy grande. Los datos se almacenan en grandes bases de datos como ORACLE y DB2. Generalmente se utilizan como negocios en línea en tiempo real.
En resumen, es relativamente lento analizar datos basados en el almacén de datos. Pero la conveniencia es que siempre que esté familiarizado con SQL, es relativamente fácil de aprender, y HIVE es una herramienta de este tipo, una herramienta de consulta SQL basada en big data. Esta etapa también incluye HBASE, que es una base de datos en big data. . Estoy confundido, ¿no conoces un "almacén" de datos llamado HIVE? HIVE se basa en MR, por lo que la consulta es bastante lenta, mientras que HBASE puede realizar consultas de datos en tiempo real basadas en big data. Uno es principalmente para análisis, el otro es principalmente para consultas
7 Etapa 7: recopilación de datos en tiempo real
1 Procedimientos difíciles y sencillos: cuatro estrellas
2. Cantidad de horas de clase (puntos de conocimiento técnico + tareas del proyecto de etapa + capacidades integrales)
3 Las tecnologías principales incluyen: recopilación de registros de Flume, introducción a KAFKA (cola de mensajes, escenarios de aplicación, construcción de clústeres), KAFKA. explicación detallada (particiones, temas, receptor, remitente, integración con ZOOKEEPER, desarrollo de Shell, depuración de Shell), uso avanzado de KAFKA (desarrollo de Java, configuración principal, proyecto de optimización), visualización de datos (introducción a gráficos y tablas, clasificación de herramientas CHARTS, gráficos de barras y gráficos circulares, diagramas y mapas 3D), introducción a STORM (ideas de diseño, escenarios de aplicación, procedimientos de procesamiento, instalación de clústeres), desarrollo de STROM (desarrollo de STROM MVN, escritura de programas locales de STORM), desarrollo de STORM avanzado (desarrollo de Java, configuración principal, proyectos de optimización), KAFKA asincrónico Oportunidad de envío y envío por lotes, ordenamiento global de mensajes KAFKA, optimización multiconcurrencia STORM
4. La etapa anterior se basa en el conjunto de datos a gran escala existente. Hay un cierto retraso en los resultados después del procesamiento y análisis de los datos. Por lo general, los datos procesados son los datos del día anterior.
Escenarios de ejemplo: anti-hotlinking de sitios web, anomalías en las cuentas de los clientes, informes crediticios en tiempo real. ¿Qué pasa si estos escenarios se analizan en función de los datos del día anterior? Entonces, en esta etapa introdujimos la recopilación y el análisis de datos en tiempo real. Incluye principalmente: recopilación de datos en tiempo real FLUME, que admite una amplia gama de fuentes de recopilación, recepción y transmisión de datos KAFKA, procesamiento de datos en tiempo real STORM y procesamiento de datos de segundo nivel
8. etapa: análisis de datos SPARK
p>1. Nivel de dificultad: cinco estrellas
2. Cantidad de horas de clase (puntos de conocimiento técnico + tareas del proyecto de etapa + habilidades integrales)
3. Las tecnologías principales incluyen: Introducción a SCALA (tipos de datos, operadores, declaraciones de control, funciones básicas), SCALA avanzado (estructuras de datos, clases, objetos, rasgos, coincidencia de patrones, expresiones regulares), uso avanzado de SCALA (superior). -funciones de orden, funciones de Corey, funciones parciales, iteraciones de cola, funciones integradas de orden superior, etc.), introducción a SPARK (construcción del entorno, infraestructura, modo operativo), conjunto de datos de Spark y modelo de programación, SPARK SQL, SPARK avanzado (DATA FRAME, DATASET, principio SPARK STREAMING, SPARK STREAMING admite fuente, KAFKA y SOCKET integrados, modelo de programación), programación avanzada SPARK (aprendizaje automático Spark-GraphX, Spark-Mllib), aplicación avanzada SPARK (arquitectura del sistema, configuración principal y rendimiento optimización, recuperación de fallas y etapas), algoritmo SPARK ML KMEANS, funciones avanzadas de conversión implícita SCALA
4. La descripción es la siguiente:
De manera similar, hablemos de las etapas anteriores, principalmente. la primera etapa. HADOOP es relativamente lento a la hora de analizar conjuntos de datos a gran escala basados en MR, incluido el aprendizaje automático, la inteligencia artificial, etc. Y no es adecuado para cálculos iterativos. SPARK se analiza como sustituto de MR. ¿Cómo reemplazarlo? Hablemos primero de su mecanismo operativo. HADOOP se basa en el análisis de almacenamiento en disco, mientras que SPARK se basa en el análisis de memoria.
Puede que no entiendas lo que digo, pero para ser más descriptivo, es como si quisieras tomar un tren de Beijing a Shanghai, MR es un tren verde y SPARK es un tren de alta velocidad o maglev. SPARK está desarrollado en base al lenguaje SCALA. Por supuesto, tiene el mejor soporte para SCALA, por lo que primero aprendemos el lenguaje de desarrollo SCALA en el curso.
En cuanto al diseño de cursos de big data en Kota Kinabalu, se cubren básicamente los requisitos técnicos para los puestos en el mercado. Y no se trata simplemente de cubrir los requisitos laborales, sino que el curso en sí es un proceso completo de proyecto de big data de principio a fin, enlace por enlace.
Por ejemplo, desde el almacenamiento y análisis de datos históricos (HADOOP, HIVE, HBASE) hasta el almacenamiento y análisis de datos en tiempo real (FLUME, KAFKA) (STORM, SPARK), todos estos son interdependientes en proyectos reales. Dependiente de la existencia.