Buscar
Social
IntelliJ IDEA

Contenido de otras web
« Google pide 4 millones de dólares a Oracle por el juicio de Android | Main | 5000 seguidores en nuestra cuenta de Twitter »
domingo
jul082012

jARVEST, framework para web harvesting/scraping

jARVEST (Java web harvesting library) es un framework libre para web scraping 100% Java. Incluye una DSL basada en JRuby para implementar de forma fácil robots sencillos o complejos.

Las características principales son:

  • 100% Java.
  • Soporte para consultas XPath. El HTML se limpia y convierte a XHTML antes de hacer la búsqueda.
  • Soporte para POST y cookie tracking, lo que permite hacer, por ejemplo, login en los sitios accedidos.
  • Ensamblaje de robots complejos. Los robots en jARVEST son un composite de piezas primitivas que se pueden combinar en serie o paralelo.
  • Bucles. Permite la creación fácil de robots que iteran a través de resultados de páginas.
  • Software libre (licencia LGPL).
  • Interfaz en línea de comandos (útil para scripts bash) y API.

 Nota: noticia enviada por lipido

PrintView Printer Friendly Version

EmailEmail Article to Friend

Reader Comments

There are no comments for this journal entry. To create a new comment, use the form below.

PostPost a New Comment

Enter your information below to add a new comment.

My response is on my own website »
Author Email (optional):
Author URL (optional):
Post:
 
Some HTML allowed: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>