samedi 3 décembre 2011

Curl : Bad Request, 404 not found...rejet des pages aspirées

Bonsoir,

Ce billet exposera le script utilisé pour rejeter les URLs dont les pages n'ont pas pu être aspirées. On utilise la commande egrep pour savoir si des segments comme "Bad request" ou bien "404 not found" sont présents dans la page.

Script utilisé :


-> Avant de faire tout le "bloc" lynx, on pose une condition : si (if) ce que contient $controlcurl n'est pas vide (= si la commande egrep a trouvé un des segments désignant une erreur) alors on ne fait pas le dump-text/la conversion. Sinon (else) on rentre dans les boucles permettant de faire le dump-text et la conversion en UTF-8.

/!\ Ne pas oublier de fermer le if/else à la fin du bloc lynx (fi).  Il se trouvera après tous les fi du lynx mais avant le let et le done.

J'ai introduit dans mon fichier d'URLs des liens ayant un segment désignant une erreur pour illustrer le script, n'ayant pas d'URLs françaises qui en produisent.
Résultat :



Problème concernant les URLS japonaises : j'ai essayé de repérer moi-même les messages d'erreur en japonais (sans trop de problème) mais lorsque j'intègre ces messages d'erreurs (en kanjis) au script (donc à la suite de Bad Request|Service Unavailable...) cela ne fonctionne pas. Je pense que le script ne gère pas bien les kanjis, je n'ai donc pour le moment pas de solution.

jeudi 1 décembre 2011

Tableau de lien avec conversion des dump (commande iconv)

Bonjour,

Le billet d'aujourd'hui présentera le script qui nous a permis de créer un tableau contenant les colonnes supplémentaires suivantes : dump-text initial, avec un lien redirigeant vers un .txt contenant le dump-text dans l'encodage initial si il n'est pas en utf-8 ; dump-text utf-8, avec un lien redirigeant vers un .txt contenant le dump-text convertit en utf-8.

À partir de maintenant, Uta et moi travaillerons uniquement sur mon ordinateur (qui est sous ubuntu) puisque la commande lynx ne fonctionne pas sous mac.

Script permettant de générer le tableau : (début et fin du script voir images précédentes)

(Pour afficher le script lisiblement : cliquer sur l'image, une fois qu'elle apparait clic-droit dessus puis "afficher l'image". Elle s'ouvre dans un autre onglet et vous pouvez zoomer dessus.)

Nous avons donc le tableau suivant qui apparait en ouvrant le .html :


Merci beaucoup à Ilaine pour ses précieuses informations qui nous ont beaucoup aidées :)
La prochaine étape : déterminer si l'aspiration d'une page a échoué (en vérifiant si elle contient des choses du type "Bad Request" ou "404 not found") et déterminer le contexte dans lequel notre mot est utilisé grâce à egrep.