lundi 21 novembre 2011

Tableau de lien avec dump-text (commande lynx)

Exercice :

- Faire dans le tableau une nouvelle colonne avec le dump-text des pages aspirées grâce à la commande lynx.
- afficher avec la commande file (option -i pour plus de lisibilité) le charset
- Déterminer si le mot recherché (ici le mot vacances) est toujours présent dans le dump-text. Cela permet d'écarter des URLS dont on ne peut pas aspirer la page.

Voilà le script utilisé :


La commande lynx fonctionne très bien, file également.
J'ai essayé la structure conditionnelle suivante pour déterminer si "vacances" se trouvait toujours dans le dump-text :

mot="vacances"
dump=../DUMP-TEXT/$j/$i.txt
case $mot in
`cat $dump`) echo "<td align=\"center\" width=\"50\">OK</td></tr>" ;;
esac

Donc je demande au script de regarder dans le contenu de chaque fichier dump-text (cat $dump) si le mot vacances est présent. Cependant, cela ne fonctionne pas. Je crois que c'est parce qu'il ne faut pas qu'il y a d'espace dans la partie entre in et ) et j'en mets un entre le cat et la variable.

J'ai donc essayé la solution suivante avec un alias, sans résultat non plus :


(cf la partie sur les alias ici)

Le tableau suivant a donc été créé :


Pour le dump-text j'ai juste eu un problème. Même si il est en UTF-8, mon navigateur lit les pages en ISO par défaut et j'ai ce type de page qui apparait :


En changeant manuellement l'affichage, les caractères spéciaux s'affichent normalement comme ceci :


Je n'ai pas réussi à trouver comment forcer firefox à lire les pages en UTF-8.

1 commentaire:

  1. Mmmm...
    on verra mercredi comment réordonnancer vos traitements de détection d'encodage : ils doivent se faire avant le lynx en fait...
    Des pistes ici :
    http://www.tal.univ-paris3.fr/cours/PROJET-MOT-SUR-LE-WEB/
    rubrique : Troisième script : un tableau de liens avec 3 colonnes (URL, fichier aspiré, dump)
    voir le point : "2. le script amélioré (intégrant des éléments complémentaires...). Les résultats de ce script sont lisibles ici..."

    SF

    RépondreSupprimer