Conceptos básicos de tecnología de Big Data, segunda edición Cómo utilizar la herramienta Octopus para recopilar y preprocesar datos sobre vivienda
2. En la configuración, establezca el intervalo del rastreador, la simultaneidad y la configuración del navegador. Después de configurarlo, puede comenzar a escribir el rastreador.
3. Al escribir un rastreador, primero utilice la función de extracción de enlaces para extraer el enlace a la página de detalles de la propiedad que debe recopilarse. Estos enlaces se pueden encontrar en las páginas de listados o en las páginas de resultados de búsqueda. Después de la extracción, guarde el enlace en un archivo de texto o envíelo directamente al módulo de procesamiento de datos para su preprocesamiento.
4. Para cada página de detalles de la lista, puede utilizar la extracción regular o la función de extracción XPath para obtener la información de lista requerida. Por ejemplo, puedes extraer el precio, dirección, zona, tipo de apartamento y otra información de la casa.
5. En el módulo de procesamiento de datos, preprocesar los datos recopilados por el rastreador. Puede realizar limpieza de datos, deduplicación, fusión de datos y otras operaciones. Finalmente, los datos preprocesados se pueden guardar en un archivo CSV o Excel, o importarse a una base de datos.