Varios métodos comunes de incrustación de gráficos
El método de incrustación más común es word2vec, que calcula la cantidad de incrustación de cada palabra en función de la relación * * * de las palabras en el corpus. Hay dos modelos de word2vec de uso común: cbow y skip-gram. cbow predice la palabra central según el contexto y skip-gram predice el contexto según la palabra central (consulte los principios matemáticos en word2vec para obtener más detalles). Por lo tanto, dado que las palabras en el lenguaje natural se pueden incrustar a través de * * * relaciones de existencia, también podemos incrustar a través de * * * relaciones de existencia comparando el gráfico con todo el corpus y comparando los nodos del gráfico con las palabras. la gráfica? Para word2vec, cada oración del corpus puede describir la relación * * * entre palabras. Para el gráfico, ¿cómo describir esta * * * relación? A continuación, ampliaremos varios métodos de incrustación de gráficos.
La idea central de la incrustación de gráficos es encontrar una función de mapeo para convertir cada nodo de la red en una representación potencial de baja dimensión. Es fácil de calcular y almacenar y no requiere extracción manual de características (adaptatividad). La siguiente figura muestra varias clasificaciones comunes de incrustaciones de gráficos:
DeepWalk cierra la brecha entre las incrustaciones de red y las incrustaciones de palabras al tratar los nodos como palabras y generar recorridos aleatorios cortos en oraciones. Luego se pueden aplicar modelos neurolingüísticos como Skip-gram a estos paseos aleatorios para obtener integraciones de red. Sus ventajas son: en primer lugar, se pueden generar paseos aleatorios bajo demanda. Debido a que el modelo Skip-gram también está optimizado para cada muestra, la combinación de caminata aleatoria y Skip-gram convierte a DeepWalk en un algoritmo en línea. En segundo lugar, DeepWalk es escalable y el proceso de generar paseos aleatorios y optimizar los modelos Skip-gram es eficiente y trivialmente paralelizable. Lo más importante es que DeepWalk presenta el paradigma de los gráficos de aprendizaje profundo.
El método SkipGram se utiliza para aprender la representación de los nodos en la red. Entonces según la idea de SkipGram, lo más importante es definir el contexto, es decir, el barrio. ? En PNL, la vecindad son las palabras que rodean a la palabra actual. Este artículo utiliza paseos aleatorios para obtener las vecindades de nodos en un gráfico o red.
(1) La caminata aleatoria selecciona aleatoria y uniformemente nodos de red para generar una secuencia de caminata aleatoria de longitud fija. Compare esta secuencia con una oración en lenguaje natural (secuencia de nodos = oración, nodos en la secuencia = palabras en la oración) y use el modelo de salto de gramo para aprender la representación distribuida de los nodos.
(2) Premisa: si los nodos de una red obedecen a la distribución de la ley de potencia, entonces el número de apariciones de nodos en la secuencia de paseo aleatorio también obedece a la distribución de la ley de potencia. Se encuentra que la palabra frecuencia. en PNL también obedece a la ley de distribución de potencias.
Nodo de contexto de predicción) -Salida: Demostración
Node2vec define una secuencia de generación de estrategias aleatoria basada en DW y todavía usa skip gram para el entrenamiento.
Este artículo analiza BFS y DFS, y la información de la estructura de red retenida es diferente. En DeepWalk, se realiza una caminata aleatoria en función del peso del borde y node2vec agrega un parámetro de ajuste de peso α: T es el último nodo, V es el último nodo y X es el siguiente nodo candidato. D(t,x) es el número mínimo de saltos desde t al nodo candidato. Al configurar diferentes parámetros P y Q, se puede guardar información diferente. Cuando p y q son ambos 1.0, es equivalente a DeepWalk.
Utiliza el método SkipGram para extraer la representación de la red.
Entonces, naturalmente, según el pensamiento de SkipGram, lo más importante es definir este contexto o vecindario. ? Desde el punto de vista textual, esta vecindad son, por supuesto, las palabras que rodean a la palabra actual, y esta definición es natural. Pero para gráficos o redes no es tan fácil.
(1) Primero distinga dos conceptos:
Similitud de primer orden: nodos directamente conectados, como 6 y 7.
La probabilidad conjunta entre los nodos vi y vj se define como
v representa el nodo y u representa la incrustación del nodo. El significado de la fórmula anterior es que cuanto más similares sean los dos nodos, mayor será el producto interno y mayor será el valor después del mapeo en forma de S, es decir, mayor será el peso de la conexión entre los dos nodos, es decir, ¿Cuanto mayor es el peso de la conexión entre los dos nodos, mayor es la probabilidad? .
Similitud de segundo orden: entre nodos conectados por otros nodos intermedios, como el 5 y el 6.
Usar probabilidad condicional
(2) El objetivo es mantener sin cambios la similitud de los nodos antes y después de NRL, es decir, si los dos primeros nodos después del aprendizaje son similares, entonces los dos nodos después de la incrustación también deberían tener vectores de representación similares. Este artículo utiliza la divergencia -KL para medir la distancia entre dos distribuciones de probabilidad.
Tome como ejemplo garantizar su similitud de primer orden:
Antes de incrustar; la probabilidad conjunta empírica entre los nodos vi y vj es
Por lo tanto, intente reducirla. :
Se han mencionado muchos modelos GE anteriormente, desde métodos clásicos hasta modelos que solo consideran la estructura, pasando por modelos que consideran información adicional sobre nodos y variables, hasta modelos profundos. Es posible que todo el mundo esté confundido y no sepa qué modelo debería utilizarse realmente.
Me gustaría mencionar aquí que el modelo que elija debe estar relacionado con su problema real:
1. Por ejemplo, su problema presta más atención a la similitud de contenido (similitud del vecindario local). ), luego puedes elegir node2vec, LINE, GraRep, etc.
2. Si tu problema se centra más en la similitud estructural, puedes elegir struct2vec. Aquí podemos hablar brevemente sobre por qué struc2vec es una mejora cualitativa con respecto a node2vec en el modelo de control de riesgos de Ant Financial. Esto se debe a que en el campo del control de riesgos, su confiabilidad no significa que sus vecinos sean confiables (algunos nodos "grandes en V" tienen muchos vecinos. Una sensación intuitiva es que si dos personas están en posiciones similares en el gráfico (por ejemplo). , dos (una "V grande")
3. Además, si su modelo necesita considerar información adicional sobre nodos y bordes, puede elegir Kane, CENE, red cruzada, etc.
4. Si desea procesar gráficos de variables a gran escala, puede usar Graphage o usar otros métodos ge primero y luego usar Graphage para el aprendizaje inductivo.
Si lo desea; para ajustar el modelo, puede elegir GraphGAN;
Incluso puede elegir muchos métodos de GE para agregar vectores de incrustación, como concat.
Como uno de los métodos clásicos de gráficos de conocimiento, la incrustación de gráficos se utiliza ampliamente. Hoy en día, las empresas de motores de búsqueda de Internet nacionales y extranjeros se han dado cuenta de la importancia estratégica de los mapas de conocimiento y han creado mapas de conocimiento, como Google Knowledge Map, Baidu Zhixin, Sogou Knowledge Cube, etc., para mejorar la calidad de la búsqueda. Los mapas de conocimiento tienen un impacto cada vez más importante en la forma de los motores de búsqueda.
Para obtener más información sobre los gráficos de conocimiento y la incrustación de gráficos, asista a la clase abierta a las 14:00 p. m. el jueves 20 de agosto.