Article 0

Journal de bord

écrit du 28 septembre 2022 au 10 janvier 2023 par Lilas, Mathilde, Diego

Semaine du 28 septembre 2022

Constitution du groupe et choix des langues

Le groupe est constitué de deux personnes qui maîtrisent trois langues:

Diego Rossini : italien (langue maternelle), anglais.
Mathilde Charlet : français (langue maternelle), anglais.

Critères identifiés pour le choix du mot

Le mot doit être facilement traduisible dans toutes les langues choisies
Le mot doit être sémantiquement variable en fonction du contexte linguistique
Le mot doit avoir une dénotation ni trop large ni trop confuse

Ces trois critères nous permettront de constituer un corpus multilingue comparable et cohérent autour de l'emploi différencié du mot en fonction des contextes socio-linguistiques.

Première proposition de mot

Sentir (verbe)

Problèmes:

Ne respecte pas le critère de dénotation (plus de 10 sens dans l'entrée lexicale en français)
Aucun verbe ne semble avoir été choisi au cours des années précédentes, peut-être le même problème de dénotation pour beaucoup de verbes : nous ne choisirons pas de verbe

Semaine du 03 octobre 2022

Deuxième proposition de mot

Dépaysement (nom)

Problèmes:

Ne respecte pas le critère de traduisibilité (trop difficile à traduire en italien)

Troisième proposition et choix du mot définitif

Banlieue (nom)

Voir l'article 1 pour plus de détails.

Semaine du 10 octobre 2022

Démarche de constitution du corpus

Nous avons décidé de découper le travail en 3 étapes :

Choix des traductions
Recherche de corpus contexte (définition de mots clés liés au mot choisi)
Comparaison et analyse rapide des résultats pour vérifier la cohérence du corpus

Semaine du 17 octobre 2022

Mise en contexte du mot

Nous avons décidé de constituer un corpus d'articles de presse présentant une coocurrence des termes "banlieue" et "police". Ce choix nous permet d'avoir un corpus plus cohérent en délimitant le contexte linguistique dans lequel le terme "banlieue" est employé.

Semaine du 24 octobre 2022

Création du dossier URLS et accueil de Lilas !

Notre groupe s'agrandit avec l'intégration de Lilas Pastré, et une nouvelle langue s'ajoute à la constitution de notre corpus, le grec moderne. Ajout des urls en anglais, français et italien : recherche effectuée sur Google News avec la coocurrence de "banlieue" et "police".

Semaine du 30 octobre 2022

Ajout des urls grecques et création du journal de bord

Constitution du corpus grec sur le même principe de recherche de coocurrence sur Google News.
Nous avons retracé le parcours effectué jusqu'à présent pour constituer ce journal de bord.

Semaine du 07 novembre 2022

Tables HTML: intégration du numéro de ligne et des urls

Nous avons créé le script qui permet de créer les tableaux HTML par corpus avec le numéro de ligne et les urls. Nous avons aussi trouvé comment isoler le code de la réponse HTTP.

Semaine du 14 novembre 2022

Tables HTML : intégration du code HTTP et de l'encodage

Nous avons inclus le code HTTP aux tableaux. Nous avons également trouvé comment isoler l'encodage (charset) du header et l'inclure dans les tableaux. Nous avons presque réussi à isoler les titres des articles.

Semaine du 21 novembre 2022

Tables HTML: intégration vérification encodage et décompte du mot cible

Réorganisation de l'arborescence

Nous avons créé les dossiers TABLEAUX et ASPIRATIONS afin de stocker les tableaux et les pages html. Nous avons modifié squelette_script.sh en conséquence.

Tentative d'accepter les cookies

Nous avons essayé plusieurs méthodes sur curl (-b --cookie) et lynx (FORCE_SSL_COOKIES_SECURE:TRUE) pour accepter les cookies automatiquement et éviter certains codes HTTP 403, mais sans succès. Nous estimons que nous en avons suffisamment peu pour que ça ne pose pas problème outre mesure.

Dossier DUMPS-TEXT

Nous avons créé le dossier DUMPS-TEXT qui contient le texte en intégralité des urls avec un code HTTP 200, extrait avec lynx.

Semaine du 28 novembre 2022

Dossier CONTEXTE

Nous avons créé le dossier CONTEXTES qui contient des fichiers texte avec toutes les lignes où nos mots cible apparaissent plus la ligne d'avant et la ligne d'après.

Ensuite nous avons intégré les resultats dans les tableaux html de chaque langue.

Semaine du 07 décembre 2022

Dossier CONCORDANCE et création du script iTrameur

Nous avons modifié le script pour faire en sorte qu'il crée un tableau de concordance pour chaque langue et qu'ensuite il les enregistre dans le dossier CONCORDANCE. Ces tableaux contiennent trois colonnes avec au centre nos mots cible et à gauche le contexte de gauche et à droite le contexte de droite pour chaque URL.

Nous avons créé la base iTrameur.

Semaine du 14 décembre 2022

Résolutions de certains petits problèmes dans le script et prise en main du nuage de mots

Nous avons modifié l'egrep qui retrouve les occurrence de nos mots clés afin qu'il ne soit pas sensible à la casse. Ensuite, nous avons rechargé tous les fichier et modifié leur nom (format sans "url").

Nous avons aussi essayé de nous approcher d'une première version d'un script python pour générer un nuage de mots.

Création du site

Nous avons créé l'arborescence du site (index.html présent dans chaque dossier), et commencé à créer la page index des tableaux html selon la template choisie sur bootstrap.

Semaine du 27 décembre 2022

Création script python pour la génération du nuage de mot

Nous avons créé un code python qui génère un nuage de mots pour chacune des langues sur lesquelles nous avons décidé de travailler. Le code contient une fonction qui : A) effectue d'abord le pre-processing de tous les dumps-text d'une langue choisie et B) autogénère le nouage de mot et retourne sa visualisation.

Janvier 2023.

Mise à jour des tableaux HTML

Version finale des tableaux HTML avec toutes les colonnes.

Analyse socio-linguistique des résultats de iTrameur

Nous avons fait l'analyse des résultats de iTrameur par langue.

Écriture des articles

Nous avons commencé à rédiger au format .txt les articles qui composent le site.

Mise à jour du site

Nous avons intégré petit à petit les articles écrits au format .txt au site en format HTML+CSS.

ARTICLE 0