4. Communication dans les Systèmes Multi-Agents
4.1 Interprétation du langage

4.1.2 La reconnaissance des mots

On apprend à l'école primaire les règles de formation des pluriels (on rajoute un s à la fin du mot, avec de nombreuses exceptions), des féminins (on rajoute un e, là aussi avec des exceptions), et les règles de conjugaison des verbes des trois groupes. Le problème est ici inverse : une suite de caractères étant donnée, dire si c'est un verbe conjugué, et si oui quel est son infinitif, si c'est un adjectif au féminin pluriel et si oui, quelle est sa forme au masculin singulier, etc.

On voit que ce problème n'a pas de solution unique :

  • couvent est un nom commun au singulier, et aussi la troisième personne du pluriel du verbe couver au présent de l'indicatif ou du subjonctif ;
  • forgerons est un nom commun au pluriel, et aussi la première personne du pluriel du verbe forger au futur de l'indicatif ;
  • peignent est une forme conjuguée des verbes peindre et peigner ;
  • vis est un nom commun singulier ou pluriel, une forme du verbe vivre (présent ou impératif) et une forme du verbe voir (passé simple) ;

on peut multiplier ces exemples à l'infini.

Si au niveau du mot, les solutions sont multiples, à celui de la phrase, ordinairement une seule solution se dégage. Très rares sont les phrases qui maintiennent l'ambiguïté, par exemple : la petite porte le voile où deux solutions co-existent : dans la première, petite est un nom féminin, porte est un verbe, le est un article, voile est un nom masculin.

Question: Quelle est la deuxième solution ?

 


Cliquer ici pour voir la réponse.

La structure de la phrase permet généralement de déterminer la solution ; donc ce sera la tâche de l'analyse syntaxique, abordée au paragraphe suivant, de trancher entre les solutions multiples que fournit le niveau que nous considérons ici. Si plusieurs structures sont envisageables (cf. la petite porte le voile), notre connaissance de la signification des mots (niveau de la sémantique lexicale), ou de la situation dans laquelle le message est émis (niveau pragmatique) permet de lever les ambiguïtés résiduelles.

Pour reconnaître un mot, il faut déjà le connaître, et nous supposerons disposer d'un lexique contenant, sous une forme canonique (singulier pour les noms communs, masculin singulier pour les adjectifs, infinitif pour les verbes), la totalité des mots susceptibles d'apparaître dans un message.

Question: Quelle est la (ou quelles sont les) forme(s) canonique(s) des mots suivants :
nations options captions fonds blonds ?



Cliquer ici pour voir la réponse.

Le problème de la reconnaissance sera résolu par un tableau à double entrée (les spécialistes reconnaîtront un automate d'états finis ou finite state automaton décrit dans tous les cours de théorie des langages). En ligne, on mettra des numéros d'état, qui représentent d'une certaine manière l'histoire de l'analyse en cours, et en colonne, on mettra des lettres ; à l'intersection d'une ligne et d'une colonne, on trouvera le numéro du nouvel état, qui reflètera l'avancée du processus d'analyse. Une colonne spéciale, appelée ici final indiquera si on peut arrêter le processus dans l'état où on se trouve, et ce qu'il faut faire alors pour trouver la ou les forme(s) canonique(s). Comme, en français, les marques de genre et de nombre sont des terminaisons, le processus consiste à lire le mot de droite à gauche, en supprimant à chaque fois la lettre lue.

Commençons par une tâche très simple : le lexique ne comporte que des noms à pluriel régulier, des adjectifs sans redoublement de consonne au féminin, des verbes du premier groupe sans modification du radical, et le texte est au présent de l'indicatif. Le problème sera alors résolu par le tableau suivant :

état

e

n

o

s

t

z

final

1

2

   

3

4

5

1

2

           

2

3

6

7

       

3

4

 

8

         

5

9

           

6

           

4

7

   

10

       

8

11

           

9

           

5

10

           

6

11

           

7

Actions "finales" :

  1. Chercher le mot tel quel dans le lexique
  2. Chercher le mot dans le lexique : si c'est un adjectif, émettre l'hypothèse que l'on a rencontré cet adjectif au féminin singulier ; rajouter "er" au mot et le chercher dans le lexique : si c'est un verbe, émettre les hypothèses que l'on a rencontré ce verbe à la première ou à la troisième personne du singulier
  3. Chercher le mot dans le lexique : si c'est un nom, émettre l'hypothèse que l'on a rencontré ce nom au pluriel ; si c'est un adjectif, émettre l'hypothèse que l'on a rencontré cet adjectif au masculin pluriel
  4. Chercher le mot dans le lexique : si c'est un adjectif, émettre l'hypothèse que l'on a rencontré cet adjectif au féminin pluriel ; rajouter "er" au mot et le chercher dans le lexique : si c'est un verbe, émettre l'hypothèse que l'on a rencontré ce verbe à la deuxième personne du singulier
  5. Rajouter "er" au mot et le chercher dans le lexique : si c'est un verbe, émettre l'hypothèse que l'on a rencontré ce verbe à la deuxième personne du pluriel
  6. Rajouter "er" au mot et le chercher dans le lexique : si c'est un verbe, émettre l'hypothèse que l'on a rencontré ce verbe à la première personne du pluriel
  7. Rajouter "er" au mot et le chercher dans le lexique : si c'est un verbe, émettre l'hypothèse que l'on a rencontré ce verbe à la troisième personne du pluriel.

Exemple : Le texte comporte le mot raisons.

On part de l'état 1 ; la colonne "final" de cet état propose l'action 1, qui consiste à voir si ce mot existe tel quel dans le lexique ; ce n'est pas le cas.

La première lettre du mot, lu de droite à gauche, est la lettre s que l'on retire du mot ; à l'intersection de la ligne 1 et de la colonne s se trouve un 3 ; on passe donc dans l'état 3 avec le mot raison.

La colonne "final" de cet état propose l'action 3, qui consiste à chercher raison dans le lexique : on le trouve et c'est un nom. On émet donc l'hypothèse que l'on a rencontré le mot raison au pluriel.

La lettre suivante du mot (toujours lu de droite à gauche) est n, que l'on retire du mot ; à l'intersection de la ligne 3 et de la colonne n, on lit 7 ; on passe dans l'état 7 avec le mot raiso.

La colonne "final" de cet état est vide. La lettre suivante est o ; à l'intersection de la ligne 7 et de la colonne o, on trouve 10 ; on arrive à l'état 10 avec le mot rais.

La colonne "final" de cet état propose l'action 6, qui consiste à chercher raiser dans le lexique : on ne l'y trouve pas. La lettre suivante est s ; l'intersection de la ligne 10 et de la colonne s est vide.

L'analyse s'arrête. Une seule hypothèse a été émise : on a rencontré le nom raison au pluriel.

 

Question: Analyser le mot couvent avec le tableau ci-dessus




Cliquer ici pour voir la réponse.

Le tableau sur lequel nous avons opéré est loin de couvrir la totalité de la langue ! Une couverture totale, pour une langue aussi fournie en exceptions que le français, nécessiterait un tableau immense. La taille de ce tableau n'est pas véritablement un obstacle : des techniques de compaction, bien connues en compilation, permettent de réduire la place occupée en mémoire, et de toute façon les ordinateurs disposent aujourd'hui de volumes de mémoire presque illimités.

L'inconvénient est plutôt dans le nombre d'hypothèses émises : un analyseur complet signalerait par exemple que le mot vissions peut venir du verbe visser, conjugué à l'imparfait de l'indicatif, et aussi du verbe voir, conjugué à l'imparfait du subjonctif. La deuxième hypothèse alourdira le travail des niveaux ultérieurs, alors même que le temps considéré est presque totalement inusité.

Il paraît préférable de ne mettre dans le tableau que les conjugaisons les plus courantes. On trouvera en annexe un tableau traitant le présent, le futur et l'imparfait de l'indicatif des verbes des premier et deuxième groupes. Peut-être conviendrait-il d'y ajouter l'impératif, les participes présent et passé, le conditionnel et le subjonctif présents, ce qui ne devrait pas l'augmenter considérablement. En revanche, les verbes du troisième groupe fourmillent d'exceptions, et plutôt que d'encombrer la table de cas particuliers, il vaut mieux ranger leurs formes usuelles une fois pour toutes dans le lexique.

<< Section précédente Table de matières Section suivante >>

Politechnica University of Bucharest - 2002