samedi 3 décembre 2011

Curl : Bad Request, 404 not found...rejet des pages aspirées

Bonsoir,

Ce billet exposera le script utilisé pour rejeter les URLs dont les pages n'ont pas pu être aspirées. On utilise la commande egrep pour savoir si des segments comme "Bad request" ou bien "404 not found" sont présents dans la page.

Script utilisé :


-> Avant de faire tout le "bloc" lynx, on pose une condition : si (if) ce que contient $controlcurl n'est pas vide (= si la commande egrep a trouvé un des segments désignant une erreur) alors on ne fait pas le dump-text/la conversion. Sinon (else) on rentre dans les boucles permettant de faire le dump-text et la conversion en UTF-8.

/!\ Ne pas oublier de fermer le if/else à la fin du bloc lynx (fi).  Il se trouvera après tous les fi du lynx mais avant le let et le done.

J'ai introduit dans mon fichier d'URLs des liens ayant un segment désignant une erreur pour illustrer le script, n'ayant pas d'URLs françaises qui en produisent.
Résultat :



Problème concernant les URLS japonaises : j'ai essayé de repérer moi-même les messages d'erreur en japonais (sans trop de problème) mais lorsque j'intègre ces messages d'erreurs (en kanjis) au script (donc à la suite de Bad Request|Service Unavailable...) cela ne fonctionne pas. Je pense que le script ne gère pas bien les kanjis, je n'ai donc pour le moment pas de solution.

1 commentaire:

  1. Expliquez ce que vous faites pour : "intègrer ces messages d'erreurs (en kanjis) au script (donc à la suite de Bad Request|Service Unavailable...)"
    Vous pouvez aussi m'envoyer votre script et quelques URLS JP (le tt zippé sur mon email gmail), je regarde...

    SF

    RépondreSupprimer