Diagramas de relaciones y segmentación de palabras en análisis de texto
La biblioteca Jieba es una importante biblioteca de funciones de segmentación de palabras chinas de terceros en Python, que puede dividir un texto chino en secuencias de palabras chinas.
El principio de segmentación de palabras de Jiebaku es comparar el contenido de la segmentación de palabras con la base de datos de palabras chinas de segmentación de palabras y encontrar la frase con la mayor probabilidad a través de la estructura gráfica y la programación dinámica.
Admite cuatro modos de segmentación de palabras:
Ejemplos de cuatro modos de separación:
Resultados:
De lo anterior, podemos encontrar Separar el medio ambiente ecológico, el tratamiento de aguas residuales y las sociedades anónimas. El modelo exacto y el modelo de pala no están separados. Aunque el modelo general y el modelo del motor de búsqueda están separados, también contienen frases no segmentadas. Entonces aquí podemos usar un diccionario personalizado y usar load_userdict(). Pero preste atención a la frecuencia de palabras de la palabra personalizada; de lo contrario, el diccionario personalizado no funcionará, porque cuando la frecuencia de palabras de la palabra personalizada es menor que la frecuencia de palabras del diccionario predeterminado, todavía usa la segmentación de palabras predeterminada, por lo que cuando Si la frecuencia de palabras es mayor que la frecuencia de palabras predeterminada, usaremos Personalizar la segmentación de palabras del diccionario.
No existe una fórmula específica sobre cómo configurar la frecuencia de palabras de un diccionario personalizado. Cuanto mayor sea la probabilidad, mayor será la probabilidad, siempre que exceda el diccionario predeterminado, pero no demasiado grande. Diccionario predeterminado
Diccionario personalizado
User_dict se define de la siguiente manera:
La introducción y el uso de jieba están aquí, y la teoría y el uso más profundos se pueden encontrar en esta dirección Comprenda: referencia jieba-github.
En teoría de grafos, el coeficiente de agrupamiento (también llamado coeficiente de agregación, coeficiente de agrupamiento) es un coeficiente que se utiliza para describir el grado de agregación entre los vértices del gráfico. En concreto, es el grado de interconexión entre puntos adyacentes de un punto. Por ejemplo, en la red social de la vida, el grado en que sus amigos se entienden entre sí se basa en el progreso de la investigación de la estructura de la red metabólica basada en la teoría de redes complejas. Hay evidencia de que en varias estructuras de red que reflejan el mundo real, especialmente las estructuras de redes sociales, los nodos tienden a formar grupos de redes de densidad relativamente alta, como la transitividad en los modelos de estructuras de grupos pequeños y los colectivos en las dinámicas de los "mundos pequeños". Es decir, el coeficiente de agrupamiento de una red del mundo real es mayor que el de una red obtenida conectando aleatoriamente dos nodos.
Suponiendo que algunos puntos del gráfico están conectados en pares, puedes encontrar muchos "triángulos" cuyos tres puntos correspondientes están conectados en pares, lo que se denomina grupo cerrado de tres puntos. También hay tres grupos de puntos, es decir, hay dos lados entre tres puntos (un triángulo al que le falta un lado).
Existen dos definiciones de coeficiente de agrupamiento; global y local.
Algoritmo global:
Algoritmo local:
Coeficiente promedio:
El siguiente es un análisis de su solución de coeficiente:
A continuación utilizamos un ejemplo para analizar la aplicación del coeficiente de agrupamiento. La herramienta que utilizamos aquí es Gephi y los datos que utilizamos son sus datos integrados.
En el análisis anterior, mencionamos que el tamaño del nodo representa su propio peso, pero a veces algunos nodos que necesitan ser identificados son difíciles de analizar debido a nuestro rango de nodos. En este momento, puedes considerar comenzar con el color, es decir, juzgar el peso cambiando el color de pequeño a grande. Por supuesto, también puedes usar gradientes para juzgar el mismo color. Aquí utilizo tres gamas de colores para el análisis. Seleccione y muestre de la siguiente manera:
En la imagen de arriba, hemos seleccionado los cambios secuenciales de los colores rojo, amarillo y azul. En la imagen de la derecha, es más conveniente para nosotros juzgar el peso del nodo sumando el tamaño y el color del nodo, es decir, cuantas más veces aparecimos, más cercano estará el color al azul, y viceversa.
Se puede ver en los cambios en las dos últimas imágenes que su diseño y distribución son los mismos, entonces, ¿cuál es el motivo de esto?
Como se muestra en la figura, la estructura se puede analizar para formar grupos agregados. Estos grupos se atraen fuertemente entre sí a través de resortes, lo que significa que la relación es relativamente estrecha.
En los datos, nuestro gráfico se compone de nodos y bordes. El procesamiento de los nodos se analizó brevemente anteriormente, pero ¿cómo analizar los bordes? De hecho, la relación entre dos palabras se puede juzgar por el grosor de las líneas en el gráfico lateral, es decir, el número de apariciones. Como se muestra en la siguiente figura:
Debido a que el rango de frecuencia es demasiado amplio, los convertimos en un rango de 0-1. El peso más alto es 1 y otros datos se convierten en base a esto.
Es decir, la proporción convertida, cada valor de peso y el valor de peso máximo.
Referencia de Jieba-github
Coeficiente de agrupamiento
ForceAtlas2, un algoritmo de diseño de gráficos continuos que facilita la visualización de redes