Projet : La vie multilingue des mots sur le web
Nous sommes des étudiants en master Traitement Automatique des Langues (Nanterre, Paris 3, Inalco). Dans le cadre du cours Projet de Programmation Encadré, nous avons développé un projet dont nous rendons compte dans ce site.
Objectif : Mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Ce projet posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...).
Ce projet sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.
Pour suivre notre démarche semaine après semaine, voir notre journal de bord.
Introduction
Le mot "banlieue" en français convoque tout un pan d'imaginaire collectif : à son évocation, notre pensée se dirige très souvent vers le reflet d'un jeune Vincent Cassel qui, les sourcils froncés, profère des menaces face au miroir. Il s'agit de la scène la plus célèbre du film culte de Mathieu Kassovitz, "La Haine", film qui dévoile au monde entier l'univers complexe des "banlieues". Effectivement, il suffit de citer cette scène pour que le mot "banlieue" remonte à la surface de notre esprit et nous oblige à réfléchir au dictionnaire populaire qui lui est associé : "police", "cité", "affrontements", "violence", "pauvreté", "marginalisation", "racisme" ...
Mais que véhicule cette multitude de connotations autour du mot "banlieue" ? La presse constitue-t-elle un témoin fiable de ce procès sémantique ? Dans le cadre du projet "la vie multilingue des mots sur le web" nous voulons comprendre et analyser le discours de presse et l'utilisation linguistique de ce mot. Pour cela, nous voulons comparer le discours de presse français avec celui d’autres langues telles que l’italien, l’anglais des Etats-Unis et le grec. Nous croyons que cette comparaison linguistique nous fournira des indications sur la sémantique du mot "banlieue" dans les quatre langues et nous permettra de mieux conceptualiser une realité linguistique au premier abord simple mais qui se révèle complexe et frangmentée sous plusieurs points de vue.
La question principale que nous nous posons est donc la suivante : est-il possible d'affirmer, en s’appuyant sur un corpus de presse web en quatre langues, que la signification du mot "banlieue" en français traduit un phénomène social franco-français ?