Journal de bord
Constitution du groupe et choix des langues
Le groupe est constitué de deux personnes qui maîtrisent trois langues:- Diego Rossini : italien (langue maternelle), anglais.
- Mathilde Charlet : français (langue maternelle), anglais.
Critères identifiés pour le choix du mot
- Le mot doit être facilement traduisible dans toutes les langues choisies
- Le mot doit être sémantiquement variable en fonction du contexte linguistique
- Le mot doit avoir une dénotation ni trop large ni trop confuse
Première proposition de mot
Sentir (verbe)
Problèmes:- Ne respecte pas le critère de dénotation (plus de 10 sens dans l'entrée lexicale en français)
- Aucun verbe ne semble avoir été choisi au cours des années précédentes, peut-être le même problème de dénotation pour beaucoup de verbes : nous ne choisirons pas de verbe
Deuxième proposition de mot
Dépaysement (nom)
Problèmes:- Ne respecte pas le critère de traduisibilité (trop difficile à traduire en italien)
Troisième proposition et choix du mot définitif
Banlieue (nom)
Voir l'article 1 pour plus de détails.
Démarche de constitution du corpus
Nous avons décidé de découper le travail en 3 étapes :- Choix des traductions
- Recherche de corpus contexte (définition de mots clés liés au mot choisi)
- Comparaison et analyse rapide des résultats pour vérifier la cohérence du corpus
Mise en contexte du mot
Nous avons décidé de constituer un corpus d'articles de presse présentant une coocurrence des termes "banlieue" et "police". Ce choix nous permet d'avoir un corpus plus cohérent en délimitant le contexte linguistique dans lequel le terme "banlieue" est employé.
Création du dossier URLS et accueil de Lilas !
Notre groupe s'agrandit avec l'intégration de Lilas Pastré, et une nouvelle langue s'ajoute à la constitution de notre corpus, le grec moderne. Ajout des urls en anglais, français et italien : recherche effectuée sur Google News avec la coocurrence de "banlieue" et "police".
Ajout des urls grecques et création du journal de bord
Constitution du corpus grec sur le même principe de recherche de coocurrence sur Google News.Nous avons retracé le parcours effectué jusqu'à présent pour constituer ce journal de bord.
Tables HTML: intégration du numéro de ligne et des urls
Nous avons créé le script qui permet de créer les tableaux HTML par corpus avec le numéro de ligne et les urls. Nous avons aussi trouvé comment isoler le code de la réponse HTTP.
Tables HTML : intégration du code HTTP et de l'encodage
Nous avons inclus le code HTTP aux tableaux. Nous avons également trouvé comment isoler l'encodage (charset) du header et l'inclure dans les tableaux. Nous avons presque réussi à isoler les titres des articles.
Tables HTML: intégration vérification encodage et décompte du mot cible
Nous avons inclus le code HTTP aux tableaux. Nous avons également trouvé comment isoler l'encodage (charset) du header et l'inclure dans les tableaux. Nous avons presque réussi à isoler les titres des articles.
Réorganisation de l'arborescence
Nous avons créé les dossiers TABLEAUX et ASPIRATIONS afin de stocker les tableaux et les pages html. Nous avons modifié squelette_script.sh en conséquence.Tentative d'accepter les cookies
Nous avons essayé plusieurs méthodes sur curl (-b --cookie) et lynx (FORCE_SSL_COOKIES_SECURE:TRUE) pour accepter les cookies automatiquement et éviter certains codes HTTP 403, mais sans succès. Nous estimons que nous en avons suffisamment peu pour que ça ne pose pas problème outre mesure.
Dossier DUMPS-TEXT
Nous avons créé le dossier DUMPS-TEXT qui contient le texte en intégralité des urls avec un code HTTP 200, extrait avec lynx.
Dossier CONTEXTE
Nous avons créé le dossier CONTEXTES qui contient des fichiers texte avec toutes les lignes où nos mots cible apparaissent plus la ligne d'avant et la ligne d'après.
Ensuite nous avons intégré les resultats dans les tableaux html de chaque langue.
Dossier CONCORDANCE et création du script iTrameur
Nous avons modifié le script pour faire en sorte qu'il crée un tableau de concordance pour chaque langue et qu'ensuite il les enregistre dans le dossier CONCORDANCE. Ces tableaux contiennent trois colonnes avec au centre nos mots cible et à gauche le contexte de gauche et à droite le contexte de droite pour chaque URL.
Nous avons créé la base iTrameur.
Résolutions de certains petits problèmes dans le script et prise en main du nuage de mots
Nous avons modifié l'egrep qui retrouve les occurrence de nos mots clés afin qu'il ne soit pas sensible à la casse. Ensuite, nous avons rechargé tous les fichier et modifié leur nom (format sans "url").
Nous avons aussi essayé de nous approcher d'une première version d'un script python pour générer un nuage de mots.
Création du site
Nous avons créé l'arborescence du site (index.html présent dans chaque dossier), et commencé à créer la page index des tableaux html selon la template choisie sur bootstrap.
Création script python pour la génération du nuage de mot
Nous avons créé un code python qui génère un nuage de mots pour chacune des langues sur lesquelles nous avons décidé de travailler. Le code contient une fonction qui : A) effectue d'abord le pre-processing de tous les dumps-text d'une langue choisie et B) autogénère le nouage de mot et retourne sa visualisation.
Mise à jour des tableaux HTML
Version finale des tableaux HTML avec toutes les colonnes.
Analyse socio-linguistique des résultats de iTrameur
Nous avons fait l'analyse des résultats de iTrameur par langue.
Écriture des articles
Nous avons commencé à rédiger au format .txt les articles qui composent le site.
Mise à jour du site
Nous avons intégré petit à petit les articles écrits au format .txt au site en format HTML+CSS.