jeudi 10 novembre 2011

Tableau de lien avec pages aspirées

J'ai complété le script précédent pour faire apparaitre :

- à côté du n° de tableau le nom du fichier d'URLs utilisé de telle sorte qu'on sache de quelle langue il s'agit. Pour ne pas faire apparaître l'extension qui n'est pas nécessaire, j'ai utilisé la commande : $(basename $fic .txt). J'ai utilisé $(...) pour que la commande soit effectuée même si elle se trouve dans un echo (voir script).

- une colonne comprenant un lien vers les pages aspirées se trouvant localement sur ma machine. J'ai utilisé la commande curl qui permet de récupérer le contenu d'une page sur un fichier local de son ordinateur. J'ai d'abord dû installer cette commande en tapant dans mon terminal sudo apt-get install curl.

- une dernière colonne comprenant le retour d'éventuelles erreurs de la commande curl. Dans le script, il s'agit de la commande retourcurl=$?

Script effectué (j'ai supprimé tous les anciens commentaires, ils sont encore visibles dans le screen du script précédent) :


Page html générée :

Un exemple de page aspirée :

Cependant, j'ai l'impression que cela n'a pas fonctionné pour certaines pages alors qu'aucune erreur n'a été mentionnée dans la colonne retourcurl. La page aspirée qui a été enregistré dans mon dossier est identique à la page présente sur la toile :


Cela s'est produit sur plusieurs pages aspirées, et je ne comprends pas d'où peut venir ce problème ?

Aucun commentaire:

Enregistrer un commentaire