Red de conocimiento de recetas - Se unen a la olla caliente - Cómo empezar a utilizar el rastreador de Python

Cómo empezar a utilizar el rastreador de Python

He estado expuesto a reptiles durante un mes. Desde un novato en Python hasta descifrar varios mecanismos anti-rastreo, le diré mi dirección:

1. Aprenda a usar funciones de análisis de páginas web, como:

¿Importar? urllib.request

¿Y si? __nombre__? ==?__main__ ':

¿URL? =?"..."

¿Datos? =?urllib.request.urlopen(url). leer()? # urllib.request.urlope (URL a analizar)

¿Datos? =?data.decode('unicode_escape','ignorar')? #Decodificar en modo Unicode_escape

Imprimir (datos)

2. Aprenda expresiones regulares:

El significado simbólico de las expresiones regulares es el siguiente, la expresión regular es Filtre la información en los datos anteriores, por ejemplo:

def get_all(data):

reg = r '(search.+)(" )(mars_sead= ".+ title= ")(.+)(" data-id= ")"

todos = recompilar(reg);

alllist = re.findall(todos, datos)

Devolver todas las listas

3. Insertar los resultados en la matriz:

Si? __nombre__? ==?__main__ ':

Información = []

info.append(get_all(data))

4. Escribe el array para excel:

Importar xlsxwriter

¿Y si? __nombre__? ==?__main__ ':

Información = []

info.append(get_all(data))

libro de trabajo = xlsxwriter libro de trabajo(' C:\. \Usuarios\\Administrador\\Escritorio\\¿Cuál es el nombre del archivo.xlsx')? #Crear un archivo Excel

¿Hoja de trabajo = workbook.add_worksheet()? #Crear un objeto de hoja de cálculo

Para I(0, len(info)) en el rango:

Worksheet.write (fila, columna, información[i], fuente)# Escribir info[i] línea por línea.

Workbook.close()#Cerrar excel

He hecho rastreadores simples, pero no he enseñado rastreadores avanzados. Aún no has estado expuesto a él, por lo que no puedes entenderlo.