mardi 10 décembre 2013

Longue vie à Lynx 2.8.8 !!!!

Après quelques semaines de travail sur le projet, force fut d'avouer que la technologie pouvait être merveilleuse.

En effet après s'être posé moult questions sur l'encodage de nos "chères pages dumpées", la reconnaissance de cet encodage (par file -i et via le charset présent dans le page), l'automatisation dans le but de généraliser cette reconnaissance de l'encodage pour une utilisation ultérieure ... et après un plusieurs grands questionnements et débats on constata ... que Lynx 2.8.8 "dumpait" tranquillement en utf8.

Passée la stupeur de cette découverte, le gain en valeur ajoutée sur le temps et sur la quantité de travail non nécessaire nous apparûmes et nous fûmes alors pour le moins ... satisfait. Nous décidâmes alors malgré tout de recoder de force les pages dans la mesure ou nous avions effectué une reconnaissance de l'encodage avec :
encodage=$(file -i ../PAGES-ASPIREES/$j/$i.html | cut -d= -f2);

et même si un Recode forcé ne se montrait pas forcément nécessaire dans notre cas nous avons malgré tout pensé à l'exportation du programme sur une machine ayant une version antérieure de Lynx :
recode -f UTF-8 ../DUMP-TEXT/$j"PageRecode"/$i.txt;

En tous les cas, longue vie à Lynx 2.8.8 et à ses versions futures !!!!


Retour à Bash/Linux
Retour à l'Accueil

Aucun commentaire:

Enregistrer un commentaire