Httrack

En deux mots

  • Httrack est un aspirateur de sites puissant, gratuit et pas toujours facile à manipuler.
  • Faire attention à l’ordre des règles.
  • En cas d’échec, voir le log (se méfier du robot.txt)

Aspirer sans jamais sortir du domaine www.mondomaine.com

Utiliser un filtre. Mais attention, on ne récupère pas les éléments extérieurs parfois utiles (javascript, images, css, etc.) ni les pages liées. Ce n’est pas la copie totale du site.

Mémo

  1. Aspirer http://artflx.uchicago.edu/cgi-bin/philologic/navigate.pl?bleue0411.8
    • adresse à viser : http://artflx.uchicago.edu/cgi-bin/philologic/navigate.pl?bleue0411.8
    • filtre :
      -*
      +*.jpg
      +http://artflx.uchicago.edu/cgi-bin/philologic/*bleue0411
      +http://artflx.uchicago.edu/images/bibl_web/bbl_000000899_0_006007_0_z_*
    • ne pas suivre le robot.txt