dessin de banlieue

ARTICLE 9

Neuvième étape - Ajout des contextes aux tables HTML


Une des données les plus importantes à analyser dans le cadre de notre projet est le contexte d’apparition des nos mots-clés “banlieue”, “periferia”, “suburb” et “προάστιο” dans chacun des articles de presse qui composent notre corpus. Au niveau informatique nous étions amenés à extraire la ligne où nos mots-clés apparaissent dans chaque articles et à en extraire aussi la ligne précédente et la ligne suivante. Pour cela, les DUMPS-TEXT extraits précédemment avec “lynx” se sont révélés très utiles. Plus précisement, voici les lignes du script qui nous ont permis de créer un fichier texte contenant la ligne où le mot-clé apparaît avec une ligne avant et une après et de l’ajouter aux tableaux HTML :

screenshot contexte mot

Cette simple recherche “egrep” sur chaque dump-text du dossier DUMPS-TEXT contient les optons -B 1 et -A 1 (Before – After) qui ont tout simplement la fonction de retourner une ligne avant et une ligne après par rapport à la ligne où le pattern a été matché. L’option -i sert à ignorer la casse car dans le texte on compte autant les occurrences qui débutent par une majuscule que celles qui sont complètement en minuscules. Une fois obtenus les 200 résultats de cette commande “egrep”, nous les avons sauvegardés sous un nouveau dossier CONTEXTES. Les fichiers texte contenus dans CONTEXTES sont ensuite intégrés aux tableaux HTML et différenciés grace à la variable “compteur” (pour la numérotation) et la variable “fichier” (pour différencier les langues/tableaux). Là où dans le script on peut lire < a href=”../CONTEXTES/$compteur$fichier”>, il est important de savoir qu’il s’agit du moyen avec lequel en HTML on peut créer des hyper liens qui, dans notre cas, renvoient aux fichiers texte contenus dans le dossier CONTEXTES.

screenshot contexte mot2

À propos

Ce site propose une analyse socio-linguistique de l'utilisation du mot "banlieue" dans la presse numérique française, anglaise, italienne et grecque.
Qui sommes-nous?