Fazer "scrap" de um site

CDiniz

Membro
Boas,

Ando a procura de alguma ideia de como fazer um "scrap" de um web site, ou seja tirar a informaçao presente no mesmo e guardar lo numa bd.
Por exemplo tenho um website de um centro comercial(feito em php) e quero retirar toda a informaçao referente as suas lojas.

Ja me falaram de ferramentas tipo o Feed43, oppen dapper da yahoo mas nao parecem estar a funcionar para o site em questao.

Tambem ja equacionei um programa para sacar todo o site, mas nao é esse o meu obejctivo, eu quero é tirar a informacao que me fosse mostrada ao visualizar o site.


Alguma sujestao?
 
Há uns tempos fiz uma coisa desse genero, usando Excel e Integration Services. Basicamente o excel consegue ler uma URL e eu queria tirar uma inforação de um site. Coloquei essa url no excel. uma macro para afzer refresh de x em x segundos um processo feito ccom o integration services que lia o excel ia às celulas que me interessava e colocava isso numa tabela. Depois fazia um tratamento dos dados dessa tabela. Mas pra mim funcionou e foi coisa relativamente rápida de fazer.


Abr
 
obg pela resposta

como disse no primeiro post o objectivo nao é fazer download do site, mas sim extrair apenas a informacao que quero que é mostrada no browser


possivelmente este topico estara melhor no "web development"
 
Não sendo a melhor opção nem a mais rápida o que eu normalmente uso é: http://seleniumhq.org/
Permite-te emular e automatizar a visita do site e no teu caso guardar informação que precises. Não é uma ferramente que seja para esse fim mas permite fazer o que pretendes (se eu entendi bem).
 
Back
Topo