Cómo hacer un robot web

Los motores de búsqueda, como Google o Yahoo!, introducen páginas web en sus resultados de búsqueda mediante el uso de bots web (a veces también llamados arañas o rastreadores), que son programas que escanean Internet e indexan sitios web en una base de datos. Los bots web se pueden crear con la mayoría de los lenguajes de programación, incluidos C, Perl, Python y PHP, todos los cuales permiten a los ingenieros de software escribir scripts que realizan tareas de procedimiento, como escaneo e indexación web.

Paso 1

Abra una aplicación de edición de texto sin formato, como el Bloc de notas, que se incluye con Microsoft Windows, o TextEdit de Mac OS X, donde creará una aplicación de bot Web de Python.

Paso 2

Inicie el script de Python incluyendo las siguientes líneas de código y reemplazando la URL de ejemplo con la URL del sitio web que desea escanear y el nombre de la base de datos de ejemplo con la base de datos que almacenará los resultados:

import urllib2, re, string enter_point ='http://www.exampleurl.com' db_name ='example.sql'

Paso 3

Incluya las siguientes líneas de código para definir la secuencia de operaciones que seguirá el bot web:

def uniq(seg):conjunto ={} mapa(conjunto.setitem , seq, []) devuelve set.keys()

Paso 4

Obtenga las URL en la estructura del sitio web utilizando las siguientes líneas de código:

def geturls(url):items =[] request =urllib2.Request(url) request.add.header('User', 'Bot_name;)') content =urllib2.urlopen(request).read() items =re. findall('href="http://.?"', contenido) urls =[] devolver urls

Paso 5

Defina la base de datos que utilizará el bot web y especifique qué información debe almacenar para completar la creación del bot web:

db =open(db_name, 'a') allurls =uniq(geturls(enter_point))

Paso 6

Guarde el documento de texto y cárguelo en un servidor o computadora con conexión a Internet donde puede ejecutar el script y comenzar a escanear páginas web.