Red de conocimiento de recetas - Recetas gastronómicas - ¿Qué es exactamente la minería de big data y se puede regular de manera efectiva?

¿Qué es exactamente la minería de big data y se puede regular de manera efectiva?

¿Qué es exactamente la minería de big data y se puede regular de manera efectiva?

En los años posteriores a que el libro "Big Data Era" se convirtiera en un éxito de ventas, el big data no lo ha sido tanto. Popular, pero no ha retrocedido, su desarrollo continuo se ha convertido en una de las bases para la realización de la inteligencia artificial. Entonces, ¿qué tipo de tecnología es la minería de big data? Desde su nacimiento hasta la actualidad, ¿qué habilidades han desarrollado en él aquellos esforzados técnicos? Ante el problema de la difícil gestión del big data, ¿existen medios técnicos para controlarlo?

Retratos de usuarios: las máquinas etiquetan a los humanos

“La creación de retratos de usuarios mediante el etiquetado es una tecnología comúnmente utilizada en la minería de datos Instituto de Información Multimedia de Ciencias de la Computación y Tecnología, Profesor Peng Yuxin”. El director de la Oficina de Investigación de Procesamiento explicó que establecer retratos de usuarios consiste en utilizar información de las redes sociales para abstraer un modelo de usuario etiquetado basado en los atributos sociales, hábitos de vida, comportamiento de consumo y otra información del usuario. lograr una apariencia humana La capacidad de "ver el rostro de una persona". Los datos de las redes sociales son la base para lograr este objetivo. El "primer encuentro" de una máquina con una persona se deriva principalmente de la extracción de datos de las redes sociales.

Las etiquetas suelen ser identificadores de características muy refinados que se obtienen al analizar la información del usuario, lo que facilita a las máquinas la extracción de información, el análisis de agregación y otros procesamientos. Las etiquetas en sí no necesitan realizar demasiado análisis de texto ni otros trabajos de procesamiento, lo que facilita el uso de máquinas para extraer información estandarizada.

“Con las etiquetas, las computadoras pueden procesar automáticamente información relacionada con las personas y pueden 'comprender' gradualmente a las personas a través de algoritmos y modelos". Peng Yuxin introdujo que varias etiquetas pueden completar el retrato al mismo tiempo, y el Todo el proceso se puede dividir en tres pasos: el primero es recopilar datos, es decir, capturar información basada en texto, coloquialmente llamado "rastreo de datos" y el segundo es modelar el comportamiento del usuario y utilizar tecnología de aprendizaje automático para formar un modelo de algoritmo; para determinar algunos posibles comportamientos de los usuarios; el tercero es la pantalla visual, que muestra los resultados calculados por la máquina de una manera que los humanos puedan entender. Estos tres pasos se ajustan en múltiples rondas. En aplicaciones reales, se pueden realizar modelos secundarios y otros ajustes en función de la retroalimentación de los resultados y las necesidades comerciales.

Los parámetros que influyen en todo el proceso son relativamente diversos y los diferentes tipos de comportamiento tienen diferentes efectos en el peso de la información de la etiqueta. Tomemos como ejemplo el marketing de productos más utilizado, como las ventas en línea de vino tinto. Si el peso de "compra" se cuenta como 5 y solo "navegar" se cuenta como 1, más el intervalo de navegación, el tiempo de permanencia y los hábitos de vida. , etc., a través de algoritmos complejos, el final Presenta el peso de una etiqueta y luego forma un retrato.

Basándose en la tecnología de creación de perfiles de usuario, la minería de big data realiza análisis como el cálculo de reglas de clasificación y asociación: por ejemplo, a cuántos usuarios les gusta el vino tinto, cuál es la proporción de hombres y mujeres entre las personas a las que les gusta el vino tinto. , y ¿cuál es la media de personas a las que les gusta el vino tinto? ¿Qué marcas deportivas te gustan, etc.?

Reconocimiento inteligente entre medios: equipar a las computadoras con ojos inteligentes

“En el pasado, la información de texto era la corriente principal, pero ahora las imágenes, los vídeos y otros datos multimedia son abrumadores”. Yuxin dijo que este último ocupa actualmente más del 80% del big data.

Los enormes cambios en los tipos de datos han dificultado aún más la tarea de la identificación inteligente. Los problemas de "fuera de control" y "uso inadecuado" se han vuelto cada vez más prominentes. "Las máquinas sólo pueden entender su propio idioma", dijo Peng Yuxin, antes de que pudieran ser reconocidos, todos los idiomas del mundo humano deben convertirse en idiomas entendidos por las máquinas. para procesar solo texto, pero ahora se deben agregar imágenes complejas, videos, etc.

“Por ejemplo, hay miles de especies de aves en el mundo, y las diferencias entre muchas especies son tan sutiles que es difícil, incluso para los humanos con conocimientos profesionales, identificarlas con precisión, e incluso es Es más difícil para las computadoras identificarlos automáticamente ". Peng Yuxin dijo que la dificultad para comprender el contenido de imágenes y videos radica en cómo reconocer automáticamente la semántica. Este es también uno de los temas en los que su equipo ha estado trabajando durante muchos años. Al final, el equipo inventó un método de reconocimiento basado en modelos de atención y aprendizaje incremental profundo.

El modelo de atención, como sugiere el nombre, permite que la computadora ubique automáticamente las áreas destacadas de la imagen para mejorar la precisión de la detección. El aprendizaje incremental profundo significa que la computadora puede usar el conocimiento que ha aprendido para acelerar el proceso; aprendizaje de nuevos conocimientos, y al mismo tiempo apoyar la detección de nuevos conceptos a través de una expansión dinámica.

El desarrollo de nuevos modelos y nuevos algoritmos ayuda a las máquinas a identificar rápidamente información semántica en imágenes y vídeos. En los últimos años, el equipo de Peng Yuxin ha participado seis veces en el concurso de búsqueda de muestras de vídeo de la evaluación autorizada internacional TRECVID y ganó el primer lugar, y ganó el concurso con equipos participantes de la Universidad Carnegie Mellon, la Universidad de Oxford, el Centro de Investigación IBM Watson, etc. Una de las preguntas era encontrar de forma rápida y precisa todas las señales del metro de Londres en 464 horas de vídeo. El equipo de Peng Yuxin ganó con éxito en menos de 1 segundo y obtuvo el primer lugar.

Además del análisis y reconocimiento de información de un solo medio, ¿cómo permitir que las máquinas vean y comprendan como los humanos?

Para lograr la fusión e integración de la información entre medios análisis y reconocimiento, Propósito, el equipo del proyecto primero distribuye automáticamente los datos a los módulos de análisis e identificación correspondientes de acuerdo con diferentes tipos de medios. Por ejemplo, las tomas de video se segmentan, se extraen fotogramas clave y luego se distribuyen en módulos como recuperación de tomas, recuperación de segmentos y reconocimiento de subtítulos de video. El análisis de asociación semántica entre medios se realiza en resultados de análisis de un solo medio para lograr la colaboración semántica. información entre medios. "Un método común es crear un espacio de terceros para la asociación entre medios", dijo Peng Yuxin: "La computadora extrae representaciones de imágenes, videos, textos y audios basándose en los modelos que le enseñamos, y luego las proyecta simultáneamente". en un espacio de terceros En el espacio tripartito, la información de diferentes medios puede comunicarse "

El "desprendimiento" de la tecnología permite que la información en imágenes y videos sea tan transparente como el texto. "Estamos apuntando a aplicaciones. La precisión y la velocidad de procesamiento se han optimizado durante muchos años y están listas para aplicaciones prácticas". Peng Yuxin explicó que esta tecnología no sólo ayuda a los medios de comunicación y otras industrias con la gestión y recuperación de datos, sino que también ayuda a Internet. los departamentos de gestión analizan y monitorizan big data