Cómo empezar a utilizar el rastreador de Python
1. Aprenda a usar funciones de análisis de páginas web, como:
¿Importar? urllib.request
¿Y si? __nombre__? ==?__main__ ':
¿URL? =?"..."
¿Datos? =?urllib.request.urlopen(url). leer()? # urllib.request.urlope (URL a analizar)
¿Datos? =?data.decode('unicode_escape','ignorar')? #Decodificar en modo Unicode_escape
Imprimir (datos)
2. Aprenda expresiones regulares:
El significado simbólico de las expresiones regulares es el siguiente, la expresión regular es Filtre la información en los datos anteriores, por ejemplo:
def get_all(data):
reg = r '(search.+)(" )(mars_sead= ".+ title= ")(.+)(" data-id= ")"
todos = recompilar(reg);
alllist = re.findall(todos, datos) p >
Devolver todas las listas
3. Insertar los resultados en la matriz:
Si? __nombre__? ==?__main__ ':
Información = []
info.append(get_all(data))
4. Escribe el array para excel: p>
Importar xlsxwriter
¿Y si? __nombre__? ==?__main__ ':
Información = []
info.append(get_all(data))
libro de trabajo = xlsxwriter libro de trabajo(' C:\. \Usuarios\\Administrador\\Escritorio\\¿Cuál es el nombre del archivo.xlsx')? #Crear un archivo Excel
¿Hoja de trabajo = workbook.add_worksheet()? #Crear un objeto de hoja de cálculo
Para I(0, len(info)) en el rango:
Worksheet.write (fila, columna, información[i], fuente)# Escribir info[i] línea por línea.
Workbook.close()#Cerrar excel
He hecho rastreadores simples, pero no he enseñado rastreadores avanzados. Aún no has estado expuesto a él, por lo que no puedes entenderlo.