jeudi 1 décembre 2011

Tableau de lien avec conversion des dump (commande iconv)

Bonjour,

Le billet d'aujourd'hui présentera le script qui nous a permis de créer un tableau contenant les colonnes supplémentaires suivantes : dump-text initial, avec un lien redirigeant vers un .txt contenant le dump-text dans l'encodage initial si il n'est pas en utf-8 ; dump-text utf-8, avec un lien redirigeant vers un .txt contenant le dump-text convertit en utf-8.

À partir de maintenant, Uta et moi travaillerons uniquement sur mon ordinateur (qui est sous ubuntu) puisque la commande lynx ne fonctionne pas sous mac.

Script permettant de générer le tableau : (début et fin du script voir images précédentes)

(Pour afficher le script lisiblement : cliquer sur l'image, une fois qu'elle apparait clic-droit dessus puis "afficher l'image". Elle s'ouvre dans un autre onglet et vous pouvez zoomer dessus.)

Nous avons donc le tableau suivant qui apparait en ouvrant le .html :


Merci beaucoup à Ilaine pour ses précieuses informations qui nous ont beaucoup aidées :)
La prochaine étape : déterminer si l'aspiration d'une page a échoué (en vérifiant si elle contient des choses du type "Bad Request" ou "404 not found") et déterminer le contexte dans lequel notre mot est utilisé grâce à egrep.



1 commentaire: