Extracción de Datos – Web Scraping

Extracción automática de datos desde sitios web – Web Scraping

En Internet existen sitios web que poseen información de consulta que es importante para nuestros intereses como por ejemplo información financiera que se actualiza constantemente, datos de precios de la competencia, información técnica, noticias, etc.

Algunas páginas web poseen maneras fáciles de extraer y capturar esta información (webservices, descarga de planillas tipo Excel, etc.), pero la gran mayoría no dispone de estas herramientas de extracción de datos. Por lo tanto debemos extraer estos datos de manera manual lo que requiere de una gran cantidad de tiempo y recursos en una tarea repetitiva y muchas veces tediosa.

LookData.cl posee las herramientas necesarias para extraer, capturar y almacenar estos datos y información de sitios dinámicos de forma automática y ajustada a sus necesidades específicas de extracción, utilizando técnicas de captura por web scraping.

Software de extracción de datos desde páginas web (Arañas o Bots que navegan la web)

Creamos según sus necesidades de extracción de datos, software automatizado que navega el sitio web solicitado. A este tipo de software se le conoce como arañas o bots (web crawlers).

Las ventajas de las arañas es que pueden navegar un sitio web las 24 horas del día y detectar cambios en el mismo, los que luego le pueden ser reportados a Ud. de distintas maneras (ver Integración con Datos Web Scraping).

Con esto se olvida de tener que aplicar copy-paste sobre datos sitios web para poder obtener información de ellos, con lo cual libera a su fuerza de trabajo de esta tarea repetitiva y tediosa.

Alternativas de ejecución de las Arañas

Una vez que las arañas han sido desarrolladas hay dos alternativas de ejecución:

Cliente

Araña se ejecuta en PC del Cliente
Hosteada

Araña se ejecuta en nuestros servidores
Monitoreo en tiempo real
Actualizar código Arañas
Múltiples Arañas
Pedir Cotización Pedir Cotización

Precio

El precio de la aplicación que extraerá los datos de la web mediante web scraping, variará según los siguientes conceptos:

  • Complejidad del Sitio Web
  • Cantidad de registros a extraer
  • Número total de páginas a revisar

Notas:

1.- Cliente: Araña se ejecuta en los servidores/PC del cliente.

Hosteada: Araña se ejecuta en nuestra nube de servidores

2.- La solución hosteada es recomendado en el caso que sus necesidades de extracción de datos sean masivas, necesite rapidez de procesamiento ó el sitio web a scrapear cambie seguido y por lo tanto haya que estar actualizando la araña constantemente.

Como por ejemplo la solución hosteada es ideal para obtener todo el listado de precios desde un sitio de ecommerce en un tiempo reducido, o tener que navegar de forma diaria un sitio grande en busca de información relevante. En estos casos ofrecemos soluciones de múltiples arañas que pueden correr en paralelo en nuestro clúster de servidores, con lo cual reducimos considerablemente el tiempo de procesamiento en la obtención de la información, entre otras ventajas.

Gracias a nuestro clúster de servidores podrá incrementar notablemente la rapidez de extracción de datos (navegación de páginas por segundo / o items descargados por segundo)

3.- Los sitios web varían debido a cambios del diseño HTML o cambio de tecnología web. Para estos casos también es recomendable la solución hosteada ya que nos aseguramos que siempre la araña estará operativa para extraer la información.

4.- En el caso de la solución "Cliente" en que las arañas funcionaran en el servidor del cliente, el pago se realiza una sola vez y el cliente es propietario del software (no así del código fuente).
En el caso de la solución "Hosteada" el cliente debe hacer pagos permanentes (ya sean mensuales o anuales) para que el servicio se mantenga activo.