Deuxième étape - Constitution du corpus
Une fois notre mot et ses traductions choisies, nous avons commencé à rechercher sur Google News des articles de presse qui contiennent nos mots-clés : banlieue, periferia, suburb et προάστιο. Nous nous sommes tout de suite aperçu qu’une mise en contexte du mot était nécessaire afin de constituer une coprus cohérent. Effectivement, une recherche avec nos mots clés uniquement produisait des résultats assez différents où les “banlieues” étaient traitées sous plusieurs points de vue : sociologique, économique, urbanistique, politique… À cette étape, nous avons décidé de toujours placer “police” à coté de nos mots-clés dans le but de restreindre le terrain de recherche et obtenir 50 urls d’article de presse pour chacune des langues choisies.
Donc les mots-clés recherchés sur Google News étaient : "banlieue police" (FR) - "periferia polizia" (ITA) - "suburb police" (EN) - "προάστιο αστυνομία" (GR)
Toutefois, la recherche de ces urls a été plus complexe qu’on aurait pu le croire. La plupart des articles contenait seulement une occurence de nos mots-clés et le plus souvent uniquement dans le titre de l’article. La longeur des articles aussi a représenté un facteur de difficulté car de nombreux articles avaient une longueur comprise entre 3 et 5 lignes. Nous avons donc décidé de ne retenir que les urls des articles qui contenaient au moins 2 occurrences de nos mots-clés et qui faisaient au moins 5 lignes de texte. Cependant, pour certaines langues (italien, français par exemple) nous avons dû prendre en considération en tant qu’occurrence aussi des mots synonymes de nos mots-clés comme, par exemple, “cité” pour le cas du français.
Le corpus est donc composé de 50 urls d'articles de presse par langue, sélectionnées sur la base des critères vus précédemment. 4 fichiers texte contenant les 50 urls ont été créés dans le dossier URLS du dépôt Git (voir article 3).