Red de conocimiento de recetas - Servicios de restauración - ¿Alguien usa un recolector de peces octogonal?

¿Alguien usa un recolector de peces octogonal?

Paso 1: Abra la página web

Inicie sesión en el recopilador Octopus 7.0 → haga clic en el icono "+" en la esquina superior izquierda → seleccione la colección personalizada (también puede hacer clic en "Usar ahora" debajo de la colección personalizada en la página página de inicio) para ingresar a la página de configuración de tareas. Luego ingrese la URL → guarde la URL. El sistema ingresa a la página de diseño del proceso y abre automáticamente la URL ingresada anteriormente.

Una vez abierta la página web, podemos modificar el nombre de la tarea. Si no lo modificamos, recibirá el nombre del título de la página de forma predeterminada. Puede cambiar el nombre de la tarea en cualquier momento antes de ejecutar la colección.

Extraer datos

En la página web, simplemente seleccione los datos que desea extraer y aparecerá el mensaje correspondiente en la esquina superior derecha de la ventana. En este tutorial, utilizamos titulares de noticias, fechas y texto como ejemplo. Úselo de manera flexible y obtenga lo que necesita.

Después de configurar los datos extraídos, puede hacer clic en Guardar y comenzar a ejecutar la colección. Pero los nombres de los campos en este momento los genera automáticamente el sistema. Para satisfacer mejor sus necesidades, puede hacer clic en "Procesar" en la esquina superior derecha para ingresar a la página del proceso y modificar los nombres de los campos. Primero, seleccione el nombre del campo chino que desea modificar. En este momento, habrá nombres de campos alternativos en el cuadro desplegable, que se pueden seleccionar y usar directamente. Si no hay lo que desea, ingrese un nuevo nombre de campo. Después de modificar el nombre del campo, haga clic en Aceptar para guardar. Después de guardar, puede ejecutar la colección.

Todas las versiones pueden ejecutar la recopilación local. La edición Ultimate y superiores pueden ejecutar la recopilación en la nube y configurar la recopilación en la nube programada. Sin embargo, antes de ejecutar la recopilación en la nube, ejecute la recopilación local para realizar pruebas. Una vez completada la recopilación de tareas, la base de datos se puede exportar o importar a Excel, CSV, HTML y otros formatos. Una vez exportados los datos, puede hacer clic en el enlace para ingresar a la carpeta de almacenamiento de datos y ver los datos. De forma predeterminada, el archivo lleva el nombre del nombre de la tarea.

1. Principio de recopilación de datos de Octopus

El lenguaje de desarrollo utilizado por el cliente de recopilación de datos web Octopus es C# y se ejecuta en sistemas Windows. El programa principal del cliente es responsable de la configuración y gestión de tareas, el control de la recopilación de tareas en la nube y la gestión de datos integrados en la nube (exportación, limpieza y liberación). El exportador de datos es responsable de exportar Excel, SQL, TXT, MYSQL y otros datos. Admite la exportación de millones de datos a la vez. El programa de recopilación local es responsable de abrir, rastrear y recopilar datos de páginas web de acuerdo con el flujo de trabajo, y obtiene rápidamente datos de páginas web mediante expresiones regulares y principios XPath. Todo el proceso de recopilación se basa en el navegador del kernel de Firefox y extrae automáticamente el contenido de la página web simulando el pensamiento y las operaciones humanas (como abrir una página web y hacer clic en un botón en la página web). El sistema permite una visualización completa de las operaciones del proceso y permite una fácil recopilación de datos sin necesidad de conocimientos especializados. Al localizar con precisión la ruta XPath de cada dato en el código fuente de la página web, Octopus puede recopilar con precisión los datos que los usuarios necesitan en lotes.

2. Funciones implementadas por Octopus

El sistema de recopilación de datos web Octopus se basa en una plataforma de computación en la nube distribuida de desarrollo propio, que puede recopilar datos fácilmente de varios sitios web o páginas web en Adquiera una gran cantidad de datos estandarizados en poco tiempo, ayude a cualquier cliente que necesite obtener información de páginas web a recopilar, editar y estandarizar datos automáticamente, deshacerse de la dependencia de la búsqueda manual y la recopilación de datos, reduciendo así el costo de obtener información. y mejorar la eficiencia. Involucrando a muchas industrias y campos como gobiernos, universidades, empresas, bancos, comercio electrónico, investigación científica, automóviles, bienes raíces y medios de comunicación.

Como recopilador de datos web general, Octopus no recopila datos de un sitio web o de una industria, pero puede recopilar casi toda la información de texto que se puede ver en una página web o en el código fuente de una web. Está disponible en el mercado. El 98% de las páginas web de Internet pueden ser recopiladas por Octopus.

Al utilizar la recopilación local (recopilación independiente), no solo se pueden capturar la mayoría de los datos web, sino que también se pueden limpiar preliminarmente durante el proceso de recopilación. Por ejemplo, si usa la herramienta de regularización que viene con su programa, puede usar expresiones regulares para formatear sus datos. En la fuente de datos se pueden implementar varias operaciones, como eliminar espacios y filtrar fechas. En segundo lugar, Octopus también proporciona una función de juicio de rama, que puede juzgar lógicamente si la información de la página web es verdadera y satisfacer las necesidades de detección del usuario.

Además de todas las funciones de recopilación local (recolección independiente), la recopilación en la nube también puede realizar recopilación programada, monitoreo en tiempo real, deduplicación y almacenamiento automáticos, recopilación incremental, identificación automática de códigos de verificación, e interfaces API diversificadas Exportación de datos, modificación de parámetros y otras funciones.

Al mismo tiempo, varios nodos en la nube funcionan al mismo tiempo y la velocidad de recopilación será mucho más rápida que la recopilación local (la conmutación automática de varias IP cuando se inicia una tarea también puede evitar el bloqueo de IP del sitio web y maximizar los datos). recopilación.