Analyse des résultats pour le français

Nous allons analyser les données pour le français via iTrameur.

De même que pour l’anglais, nous allons remplacer les syntagmes associés à « Maison de retraite » par la chaîne de caractères suivante : « maison_de_retraite »

Calcul des cooccurrents

Nous créons la base dans iTrameur et nous cherchons les cooccurrents de « maison_de_retraite » dans le DUMP.

Voici les résultats obtenus pour 10 termes à gauche et à droite :

Cooc FqCooc CoFreq IndSP
médicalisée 33 24 26
une 322 65 24
La 279 45 14
Jonchère 9 9 13
la 751 77 11
Ehpad 45 16 11
Choisir 17 10 10
Chanterelle 7 7 10
Marseille 6 6 9
Lilas 9 7 9
Mozart 9 7 9
Questions 6 6 9
en 481 51 8
Lyon 7 6 8
EHPAD 111 21 8
Larmeroux 4 5 8
Terrasses 10 7 8
Les 330 37 7
emplacement 3 4 7
publiques 9 6 7
Clos 9 6 7
à 639 55 6
des 481 45 6
choisir 21 7 6
privées 5 4 6
Trouvez 8 5 6
médicalisées 8 5 6
idéal 4 4 6
carrière 5 4 6
display 4 4 6
défibrillateur 5 4 6
Paris 37 9 5
Bordeaux 8 4 5
Montpellier 7 4 5
coût 11 5 5
outils 8 4 5
choix 18 6 5
entrée 17 6 5
Cliniques 8 4 5
Bienvenue 10 5 5
Rémy 7 4 5
Longny 6 4 5
Critères 2 3 5
loisirs 20 6 5
fréquentes 13 5 5
Cafards 3 3 5

Ce qui donne le graph suivant :

Screenshot-2018-1-5 iTrameur Analyse textométrique des données dans un fichier

____________________

Pour les 30 termes à gauche et à droite :

Cooc FqCooc CoFreq IndSP
médicalisée 33 43 52
une 322 113 21
Lyon 7 14 20
à 639 176 19
Orpea 16 18 19
Ehpad 45 30 16
Marseille 6 11 15
Lilas 9 12 14
médicalisées 8 11 13
êtes 14 14 13
Choisir 17 15 12
en 481 126 12
Montpellier 7 10 12
choix 18 16 12
entrée 17 15 12
Jonchère 9 11 12
défibrillateur 5 9 12
Paris 37 22 11
display 4 8 11
Terrasses 10 11 11
Activités 8 10 11
EHPAD 111 41 9
Bordeaux 8 9 9
Larmeroux 4 7 9
Annuaire 15 12 9
Dossiers 8 9 9
publiques 9 9 9
Chanterelle 7 8 9
Questions 6 8 9
Nice 12 10 8
dans 180 54 8
outils 8 8 8
Cliniques 8 8 8
meilleure 5 6 7
Aix 1 5 7
Seine 39 19 7
coût 11 9 7
VANVES 4 6 7
Ecoutez 5 6 7
premier 11 9 7
Rémy 7 7 7
Mozart 9 8 7
Critères 2 5 7
séniors 6 6 6
recherche 25 13 6
tarifs 18 11 6
des 481 103 6
provence 1 4 6
choisir 21 12 6
critères 6 6 6
Dossier 23 12 6
idéal 4 5 6
emplacement 3 5 6
Remonter 6 6 6
loisirs 20 12 6
scandale 4 5 6
Cap 7 6 5
recherchées 2 4 5
Tours 2 4 5
Hauts 17 9 5
Vous 52 19 5
privées 5 5 5
Trouvez 8 6 5
Catherinette 2 4 5
Publié 11 7 5
La 279 65 5
alentours 2 4 5
ici 12 8 5
accueille 11 7 5
Télécharger 15 9 5
décision 3 4 5
juillet 3 4 5
évacuée 5 5 5
Outils 2 4 5
fréquentes 13 8 5
Cafards 3 4 5
Clos 9 7 5
Savigny 5 5 5
maltraitances 5 5 5

Graph :

Screenshot-2018-1-5 iTrameur Analyse textométrique des données dans un fichier .png

On peut voir que les syntagmes associés reflètent beaucoup le contenu des URLS choisies :

Tous les notions que l’on peut trouver dans les articles de presse : seniors, cafards, scandale, maltraitances, coût, évacuée, reflètent majoritairement des conditions de vie, ce que nous avions anticipé dans nos prédictions.

On peut voir néanmoins que l’aspect financier n’est pas présent dans les données traitées, ce qui cette fois contredit nos prédictions.

Réseau de cooccurrents spécifiques

En utilisant les contextes, on créé le réseaux de cooccurrents spécifiques pour le français.

Fréquence min: 10 ; Seuil: 5 ; Co-Freq: 2 ; IndSPmin: 5

Screenshot-2018-1-9 Réseau de Cooccurrences Spécifiques.png

Avec l’expression régulière :

Screenshot-2018-1-9 Réseau de Cooccurrences Spécifiques (pole=regexp).png

Nuages de mots

En utilisant wordclouds.com et les contextes extraits, nous avons généré le nuage de mots suivant :

FR-rond-1.png
On voit sur cette forme plus graphique que beaucoup de syntagmes sont liés à des lieux (qui correspondent sans doute aux site des établissements privés) : Chanterelle, Châtelet, Paris, Longny-au-Perche, Larmeroux, Marseille, Saint-Rémy. D’autres sont liés au choix (choisir sa maison de retraite) : choisir, trouver, choix…

Enfin, une partie des syntagmes est liée à la recherche d’informations : questions, dossier, annuaire, recherche, …

Laisser un commentaire