1. Este site usa cookies. Ao continuar a usar este site está a concordar com o nosso uso de cookies. Saber Mais.

Fazer "scrap" de um site

Discussão em 'Programação' iniciada por CDiniz, 20 de Julho de 2012. (Respostas: 5; Visualizações: 860)

  1. Boas,

    Ando a procura de alguma ideia de como fazer um "scrap" de um web site, ou seja tirar a informaçao presente no mesmo e guardar lo numa bd.
    Por exemplo tenho um website de um centro comercial(feito em php) e quero retirar toda a informaçao referente as suas lojas.

    Ja me falaram de ferramentas tipo o Feed43, oppen dapper da yahoo mas nao parecem estar a funcionar para o site em questao.

    Tambem ja equacionei um programa para sacar todo o site, mas nao é esse o meu obejctivo, eu quero é tirar a informacao que me fosse mostrada ao visualizar o site.


    Alguma sujestao?
     
  2. coldfire

    coldfire Power Member

    Há uns tempos fiz uma coisa desse genero, usando Excel e Integration Services. Basicamente o excel consegue ler uma URL e eu queria tirar uma inforação de um site. Coloquei essa url no excel. uma macro para afzer refresh de x em x segundos um processo feito ccom o integration services que lia o excel ia às celulas que me interessava e colocava isso numa tabela. Depois fazia um tratamento dos dados dessa tabela. Mas pra mim funcionou e foi coisa relativamente rápida de fazer.


    Abr
     
  3. obrigado pela resposta.

    ja tinha visto algo parecido feito atraves do google script, mas estava a apontar para fazer algo em javascript.

    o site tem elementos que estao escondidos e so sao carregados apos se clicar nos butoes o que dificulta um pouco mais a tarefa.

    é um site da infarmed:

    http://www.infarmed.pt/prontuario/frameprimeiracapitulos.html

    se alguem tiver mais alguma ideia, agradeço
     
  4. Macarroni

    Macarroni Banido

  5. obg pela resposta

    como disse no primeiro post o objectivo nao é fazer download do site, mas sim extrair apenas a informacao que quero que é mostrada no browser


    possivelmente este topico estara melhor no "web development"
     
  6. Não sendo a melhor opção nem a mais rápida o que eu normalmente uso é: http://seleniumhq.org/
    Permite-te emular e automatizar a visita do site e no teu caso guardar informação que precises. Não é uma ferramente que seja para esse fim mas permite fazer o que pretendes (se eu entendi bem).
     

Partilhar esta Página