Cómo la máquina de guerra de minería de datos “ve lo que usted cree”
¿Cómo familiarizarse con big data? ¿Privacidad por conveniencia? La minería de big data, que alguna vez estuvo de moda, recientemente ha pasado a la vanguardia de la opinión pública: algunas empresas utilizan tecnología de minería de big data para "matar gente", lo que ha sido confirmado por los internautas Robin Li, presidente y director ejecutivo de Baidu; dijo: "Los chinos están muy preocupados por las cuestiones de privacidad. No son sensibles", lo que empeora aún más la situación de Baidu. La tecnología de minería de big data es como una estrella con noticias negativas. Su brillo se apaga instantáneamente, como si se hubiera convertido en un ladrón que roba la privacidad de las personas.
Unos años después del libro más vendido "La era del Big Data", aunque el big data ya no es tan popular, no se ha retirado y su desarrollo sostenible se ha convertido en una de las bases para su realización. de inteligencia artificial.
Entonces, ¿qué tipo de tecnología es la minería de big data? Desde su nacimiento hasta la actualidad, ¿qué habilidades tienen esos esforzados técnicos para hacerlo crecer? Ante el problema de la difícil gestión del big data, ¿existen medios técnicos para controlarlo?
Retratos de usuarios: Las máquinas etiquetan a los humanos.
"La creación de retratos de usuarios a través de etiquetas es una tecnología común en la minería de datos". El profesor Peng Yuxin, director de la Oficina de Investigación de Procesamiento de Información Multimedia del Instituto de Ciencia y Tecnología Informática de la Universidad de Pekín, explicó que crear usuarios. retratos es utilizar las redes sociales. La información de la red abstrae un modelo de usuario etiquetado basado en los atributos sociales, hábitos de vida, comportamiento de consumo y otra información del usuario, con el objetivo de permitir que la máquina alcance una capacidad similar a la humana para "leer letras como caras". ". Los datos de las redes sociales son la base para lograr este objetivo. La mayoría de los "primeros encuentros" entre máquinas y personas provienen de la extracción de datos de las redes sociales.
Las etiquetas suelen ser etiquetas de características muy refinadas que se obtienen analizando la información del usuario, lo que facilita el procesamiento de la máquina, como la extracción de información y el análisis de agregación. La etiqueta en sí no requiere mucho análisis de texto ni otros trabajos de procesamiento, lo que facilita el uso de máquinas para extraer información estandarizada.
“Con las etiquetas, las computadoras pueden procesar automáticamente información relacionada con las personas y gradualmente “comprenderlas” a través de algoritmos y modelos”, Peng Yuxin explicó que todo el proceso se puede dividir en tres pasos: primero, recopilar datos. El segundo es el modelado del comportamiento del usuario, que utiliza tecnología de aprendizaje automático para formar un modelo de algoritmo para determinar algunos posibles comportamientos del usuario. pantalla, que calcula los resultados de la máquina. Los resultados se muestran de una manera que los humanos puedan entender. Estos tres pasos son múltiples rondas de ajustes. En aplicaciones reales, se pueden realizar modelos secundarios y otros ajustes en función de la retroalimentación de los resultados y las necesidades comerciales.
Los parámetros que influyen en todo el proceso son relativamente diversos y los diferentes tipos de comportamiento tienen diferentes efectos en el peso de la información de la etiqueta. Tomemos como ejemplo el marketing de productos más utilizado, como la venta de vino tinto online. Si el peso de "compra" es 5, entonces sólo el peso de "navegación" es 1, más el intervalo de navegación, el tiempo de permanencia, los hábitos de vida, etc. , mediante complejos algoritmos, finalmente se presenta el peso de una etiqueta y luego se forma un retrato.
La minería de big data se basa en la tecnología de retratos de usuarios para realizar análisis como el cálculo de reglas de clasificación y asociación: por ejemplo, a cuántos usuarios les gusta el vino tinto, cuál es la proporción de hombres y mujeres entre las personas a las que les gusta el vino tinto. vino, y qué marcas deportivas de vino tinto le gustan a la gente, etc.
Reconocimiento inteligente entre medios: centrado en las computadoras
"En el pasado, la información de texto dominaba, pero ahora las imágenes, los vídeos y otros datos multimedia son abrumadores". Este último representa actualmente el 80% del big data mencionado anteriormente.
Los enormes cambios en los tipos de datos dificultan la tarea del reconocimiento inteligente. Los problemas de lo "incontrolable" y lo "ineficaz" se han vuelto cada vez más prominentes. "Esta máquina sólo puede leer su propio idioma", dijo Peng Yuyan, todos los idiomas del mundo humano deben convertirse a idiomas que las máquinas comprendan antes de que puedan ser reconocidos. En el pasado, era relativamente sencillo procesar solo texto, pero ahora es necesario agregar datos complejos como imágenes y videos.
“Por ejemplo, hay miles de especies de aves en el mundo, y las diferencias entre muchas especies son muy sutiles, incluso los humanos con conocimientos profesionales son difíciles de identificar con precisión, y el reconocimiento automático por computadora lo es aún más. Es difícil ". Peng Yuxin dijo que la dificultad para comprender el contenido de imágenes y videos es cómo reconocer automáticamente la semántica, que también es uno de los temas en los que su equipo ha estado trabajando durante muchos años. Para ello, el equipo inventó un método de reconocimiento basado en modelos de atención y aprendizaje incremental profundo.
El modelo de atención, como sugiere el nombre, permite que la computadora ubique automáticamente las áreas destacadas de la imagen, mejorando así la precisión de la detección. El aprendizaje incremental profundo significa que la computadora puede usar el conocimiento que ha aprendido para acelerar; el aprendizaje de nuevos conocimientos y, al mismo tiempo, utilizar soporte dinámico extendido para la detección de nuevos conceptos.
Los nuevos modelos y nuevos algoritmos ayudan a las máquinas a identificar rápidamente información semántica en imágenes y vídeos. En los últimos años, el equipo de Peng Yuxin ganó seis veces el primer lugar en el concurso internacional de búsqueda de muestras de videos de evaluación autorizada TRECVID y ganó el concurso con equipos de la Universidad Carnegie Mellon, la Universidad de Oxford, el Centro de Investigación IBM Watson y otros equipos. Una de las tareas era encontrar de forma rápida y precisa todas las señales del metro de Londres en 464 horas de vídeo. El equipo de Peng Yuxin ganó el primer lugar en menos de 1 segundo.
Basado en el análisis y el reconocimiento de la información de los medios individuales, ¿cómo hacer que las máquinas se parezcan más a los humanos y los comprendan?
Para lograr los objetivos de fusión de información entre medios y análisis e identificación integrales, el equipo del proyecto primero distribuyó automáticamente los datos a los módulos de análisis e identificación correspondientes según los diferentes tipos de medios. Por ejemplo, las tomas de vídeo se segmentan, se extraen fotogramas clave y luego se distribuyen en módulos como recuperación de tomas, recuperación de segmentos y reconocimiento de subtítulos de vídeo. , realice un análisis de correlación semántica entre medios sobre los resultados del análisis de un solo medio para lograr la colaboración semántica de información entre medios. "Un método común es establecer un espacio de terceros para la asociación entre medios", dijo Peng Yuxin, "la computadora extrae y expresa imágenes, videos, textos y audios de acuerdo con el modelo que le enseñamos, y luego los proyecta". el espacio de terceros, lo que permite que la información en diferentes medios pueda dialogar”.
La tecnología “diaosi” hace que la información en imágenes y videos sea tan precisa y transparente como el texto. "Nuestro objetivo es la aplicación. La precisión y la velocidad de procesamiento se han optimizado durante muchos años y se pueden utilizar en la práctica". Peng Yuxin explicó que esta tecnología no sólo puede ayudar a industrias como los medios de comunicación a gestionar y recuperar datos, sino también a la gestión de Internet. Los departamentos monitorean datos a gran escala. Los datos son analizados y monitoreados.
Lectura adicional
Procesamiento anónimo: contramedidas predecibles de protección de la privacidad
Romper el control de la información es casi imposible, pero existe un enfoque de protección de la privacidad muy conveniente. Hay una vívida metáfora en "Una breve historia de la seguridad", escrita por el profesor Yang Yixian de la Universidad de Correos y Telecomunicaciones de Beijing. Si se filtran datos en línea, el método de seguridad más conveniente es "cubrirse la cara" para no ser rastreado. Este es el llamado "mecanismo de procesamiento de anonimato".
“Las regulaciones relevantes sobre la protección de la privacidad del usuario exigen que las empresas de datos anonimicen los datos cuando los venden”. Sin embargo, para orientar e impulsar con precisión los servicios, se puede ignorar la anonimización. "La precisión significa que la identificación del grupo de clientes objetivo apunta a él, no al grupo. Por lo tanto, el procesamiento personalizado y anónimo entran en conflicto entre sí en la tecnología actual".
En respuesta a la contradicción anterior , los pioneros de la industria propusieron soluciones Blockchain. "Yo lo llamo identificación", dijo Liu Weitai, investigador de Beijing Lode Technology Company: "La esencia del big data es la investigación en grupo, pero la granularidad del grupo puede ser más fina. Además, la tecnología blockchain puede otorgar autorización al usuario". /p >
No es difícil imaginar que con la innovación continua de nuevas tecnologías, habrá más avances tecnológicos para la seguridad de la información, no solo la extracción de big data, sino también el equilibrio de los "derechos de control de la información".