Projet encadré, Uta Hosokawa et Marine Cotereau: Tableau de lien avec dump-text (commande lynx)

Exercice :

- Faire dans le tableau une nouvelle colonne avec le dump-text des pages aspirées grâce à la commande lynx.
- afficher avec la commande file (option -i pour plus de lisibilité) le charset
- Déterminer si le mot recherché (ici le mot vacances) est toujours présent dans le dump-text. Cela permet d'écarter des URLS dont on ne peut pas aspirer la page.

Voilà le script utilisé :

La commande lynx fonctionne très bien, file également.
J'ai essayé la structure conditionnelle suivante pour déterminer si "vacances" se trouvait toujours dans le dump-text :

mot="vacances"
dump=../DUMP-TEXT/$j/$i.txt
case $mot in
`cat $dump`) echo "<td align=\"center\" width=\"50\">OK</td></tr>" ;;
esac

Donc je demande au script de regarder dans le contenu de chaque fichier dump-text (cat $dump) si le mot vacances est présent. Cependant, cela ne fonctionne pas. Je crois que c'est parce qu'il ne faut pas qu'il y a d'espace dans la partie entre in et ) et j'en mets un entre le cat et la variable.

J'ai donc essayé la solution suivante avec un alias, sans résultat non plus :

(cf la partie sur les alias ici)

Le tableau suivant a donc été créé :

Pour le dump-text j'ai juste eu un problème. Même si il est en UTF-8, mon navigateur lit les pages en ISO par défaut et j'ai ce type de page qui apparait :

En changeant manuellement l'affichage, les caractères spéciaux s'affichent normalement comme ceci :

Je n'ai pas réussi à trouver comment forcer firefox à lire les pages en UTF-8.

1 commentaire:

SFgg21 novembre 2011 à 19:35
Mmmm...
on verra mercredi comment réordonnancer vos traitements de détection d'encodage : ils doivent se faire avant le lynx en fait...
Des pistes ici :
http://www.tal.univ-paris3.fr/cours/PROJET-MOT-SUR-LE-WEB/
rubrique : Troisième script : un tableau de liens avec 3 colonnes (URL, fichier aspiré, dump)
voir le point : "2. le script amélioré (intégrant des éléments complémentaires...). Les résultats de ce script sont lisibles ici..."

SF
RépondreSupprimer
Réponses

Ajouter un commentaire

lundi 21 novembre 2011

Tableau de lien avec dump-text (commande lynx)

1 commentaire: