Open Source Week - Scraper
Jonas Abreu em 25/02/2011O Terceiro lançamento é o Scraper.
O Scraper é uma ferramenta para facilitar Html Scrapping, ou seja, extrair dados de páginas html.
Existem diversas formas de extrair dados de páginas Html. Você pode usar RegEx, XPath, DOM traversal, entre outros.
O problema da maior parte dessas técnicas é que elas são write-only. Escreva uma vez e nunca mais entenda o que está lá.
O scraper foi desenvolvido como parte do ProcurandoCursos. Hoje, já é necessário analizar algumas centenas de sites para construir o índice de busca. E esse número não vai parar de crescer. Imaginem dar manutenção em algumas centenas de RegEx ou XPaths. Impossível.
Por isso mudamos completamente a estratégia. O que informamos ao scraper é a estrutura do html onde está a informação que queremos. O scraper faz o resto.
Algo como:
<h1>${capture}</h1>
Maiores informações na página oficial.
Ah, infelizmente ainda não disponível em um repositório maven (vou resolver isso nas próximas semanas), mas você pode baixá-lo no github da AdaptIdeas.