Les différentes listes ci-dessous ont été obtenues en deux phases successives :
Tri par défaut : ordre alphabétique. Un tri par nombre occurrences est possible.
Les mots sont classés uniquement selon leur forme orthographique, sans tenir compte de leur catégorie grammaticale. C'est ainsi que la préposition "à" est distinguée de la forme verbale "a" mais non le nom "adultère" et l'adjectif "adultère" qui sont regroupés sous une même forme. Chaque forme verbale (achetaient, achètent, acheté, achetèrent) ainsi que les adjectifs au féminin et/ou au pluriel (accompli, accomplies) sont comptées séparément.
Par contre, certaines expressions composées dont un élément n'existe pas individuellement sont considérées comme un mot unique : à jeun, parce qu', parce que, quant à, quant aux, tandis qu'. Le décompte sera donc différent de celui obtenu par un programme tel que Word par exemple.
Tri par défaut : ordre alphabétique. Un tri par nombre occurrences est possible.
C'est une liste basée sur la grammaire et la syntaxe française,et non plus sur l'orthographe.
Cinq informations disponibles :
catégories
- adjectif,adjectif masculin,adjectif singulier,adjectif indéfini,adjectif démonstratif,adjectif numérique,adjectif possessif,adjectif interrogatif
- adverbe
- article,article indéfini
- conjonction de coordination,conjonction de subordination
- expression
- interjection
- nom,nom masculin,nom féminin
- préposition
- pronom démonstratif,pronom indéfini,pronom personnel,pronom possessif,pronom relatif
- verbe
par exemple :
'accourait,accouraient,accourut' comme formes du verbe 'accourir'
'autour de,autour des,autour du' comme formes de la préposition 'autour'
'enfants' comme forme du nom 'enfant'
'ma,mes' comme formes de l'adjectif 'mon'
"l', la,les " comme formes de l'article 'le'
le nom 'bien' renvoie à l'expression 'faire du bien'
la préposition 'loin de' renvoie à l'adverbe 'de loin'
Les deux listes, celles des mots orthographiques et celle des lemmes grammaticaux doivent être utilisées ensemble
Le mot 'coupe' (8 occurrences) apparaît sous le lemme 'la coupe' nom féminin (6) et sous le lemme 'couper' à l'impératif du verbe
le lemme 'enlever' (5 occurrences) regroupe les formes 'enleva(1),enlève (1),enlevé(2),enlevèrent(1)'
Comparons les mots 'mort (9), morte(2),morts(6),mourant (1),mourir(5),mourut(2)' avec les lemmes 'la mort(4),le mort (6),mort(5),morte(2),mourir(15)'
Nous pouvons en déduire que
'mourir' (15) = 'mort(5) + morte(2) + mourant (5) + mourir (5) + mourut (2)'
'mort' (9)' = 'la mort' (4) + participe 'mort' (5)
'morts'(6) = 'le mort' (6)
Cette liste permet de visualiser les idées fortes du texte étudié.
Tri par défaut : par catégorie puis par poids
Quatre informations disponibles :
- S : mot significatif (nom, adjectif, verbe)
- P : nom propre
- O : mot outil
Cette valeur reflète l'importance respective de chacun des mots. Par exemple une valeur de 15 pour le mot "disciple" indique que ce mot est utilisé au moins quinze fois plus dans l'évangile de Marc qu'on ne s'attendrait à le trouver selon l'analyse statistique de l'ensemble du corpus de la langue française examiné par Cordial. A ne pas confondre avec la notion suivante.
nombre de fois que le mot ou l'expression figure dans le texte
tri par défaut : par catégorie/sous-catégorie/élément. Un tri par probabilité est également possible.
Cette liste permet d'entrer dans la sémantique d'un texte à l'aide du dictionnaire thématique de Cordial qui classe 120 000 mots selon une logique d'emboîtement à quatre niveaux allant du général au particulier.
Cette classification de concept n'est donc pas basé sur la Bible d'où le caractère parfois bizarre ou inattendu de certains intitulés. Toutefois,elle permet de prendre connaissance des thèmes centraux d'un texte. La liste se lit de gauche à droite, les concepts généraux, à gauche, pesant plus lourd que les concepts particuliers, à droite.
Probabilité
Il s'agit de l'écart-type basé sur le rapport entre la fréquence réelle et la fréquence théorique d'apparition d'un mot dans un texte. Plus la valeur est élevée, plus le concept est important.
Auteur : Fernand LEMOINE
Date : 18 nov. 2003