Interfaces vocales : les principes conversationnels à suivre

Charles Loyer

il y a 6 ans

Les penseurs du conversation design l’affirment à l’unisson : pour être optimales, les interfaces vocales doivent se calquer sur le modèle du dialogue humain. Si l’ordinateur donne l’impression de ne pas parler naturellement, c’est que les personnes en charge d’écrire ce que doit dire la machine, n’appliquent pas toutes les subtilités inhérentes aux échanges conversationnels.

Dans une conversation, certes la manipulation de la langue est primordiale, mais elle ne suffit pas. L’apprentissage classique nous corrige sur des expressions ou des tournures de phrases efficaces, mais nous pousse rarement à comprendre les qualités intrinsèques du langage. Outre les mots, la réussite d’un échange est le fruit de pensées qui s’accordent, d’un contexte adéquat. Il suppose une générosité réciproque admise entre deux personnes. Des théories autour de ces principes apparaissent au XXe siècle. À l’heure des interfaces vocales et du conversation design, ils sont autant de modèles propices à s’appliquer. Quels sont-ils ?

La théorie du message codé de Shannon et Weaver

Le langage humain et sa mise en forme ont longtemps été considérés comme un code. Le point de départ de l’échange verbal est une pensée émise par un locuteur, matérialisée par une suite de sons, qui, traverse ensuite une zone de perturbations, avant d’arrivée jusqu’à son interlocuteur qui la décode pour recevoir l’information. C’est la théorie de la communication de Shannon et Weaver. En 1949, ces deux ingénieurs en télécommunication pose ce modèle. Il l’applique autant aux échanges entre deux personnes, qu’à la relation homme-machine.

Théorie de la communication selon Shannon et Weaver

Ce qu’il faut noter dans ce modèle d’encodage-décodage, c’est qu’il suit un processus linéaire dont l’accomplissement peut être altéré par le bruit (source d’interférence susceptible d’altérer le signal émis). Appliqué à une interface vocale, le signal est la requête formulée par l’ utilisateur. Le canal s’apparente au terminal utilisé. Le signal reçu à la retranscription de la requête par l’assistant et enfin le message reçu à la compréhension de cette dernière.

Quels enseignements pour concevoir une VUI ?

En tant que concepteur d’interfaces vocales, il est donc important d’intégrer dans son schéma d’application la possibilité du bruit. C’est à dire d’admettre qu’un même message peut produire des signaux différents. Pour réduire au maximum ces risques d’interférences, le designer doit être possible de les anticiper et les saisir en amont. Chaque scénario demande une identification des mots clés qui vont suggérer l’intention de la requête, d’où l’intérêt de ne pas négliger une importante phase de recherche sémantique.

Le modèle marche également dans le sens inverse. L’assistant qui s’adresse à l’utilisateur doit envoyer un message simple, clair et perceptible. Ces critères sont des conditions sine qua non à la poursuite de l’échange. Toutes les informations non pertinentes peuvent vite devenir gênantes et frustrantes. Le vocal sous promesse d’offrir un avantage non considérable d’usage et de temps, implique de parvenir à capter l’attention au sein de la conservation.

Les limites du modèle de Shannon et Weaver

L’expérience qu’elle soit humaine ou numérique, nous a prouvé que l’application stricte de ce modèle est insuffisant. Penser le langage comme un code a ses propres limites. La principale est de ne pas prendre en compte le contexte dans lequel a été élaboré le message. La conséquence est de ne pas saisir les ambiguïtés linguistiques ou encore les intentions implicites de l’émetteur.

Le « principe de coopération » de Grice

Considéré comme trop simpliste, le modèle de Shannon et Weaver fut dans les années qui suivirent enrichies par l’apparition de l’inférence dans le processus de communication. Paul Grice, avec son « principe de coopération » et sa théorie des ‘implicatures » est un des fers de lance, de ce modèle admis. C’est d’ailleurs sur celui-ci que s’appuie Google pour vanter les fondements du Conversation Design.

Comprendre la dimension implicite d’un énoncé

Selon Grice, le principe de coopération se définit de la manière suivante « Que votre contribution à la conversation soit, au moment où elle intervient, telle que le requiert l’objectif ou la direction acceptée de l’échange verbal dans lequel vous êtes engagés ».

Cela signifie qu’un énoncé ne comporte pas seulement une dimension explicite. Dans une conversation, les différents intervenants tendent vers le même but. Le principe suppose donc que, pour avoir accès à l’intention communiquée implicitement par le locuteur, le destinataire peut compter sur le comportement coopératif de ce dernier. Il en déduit 4 maximes conversationnelles :

Maxime de quantité (apporter dans l’énoncé les informations nécessaires)
Maximes de qualité (la vérité de ce qui est énoncé)
Maxime de relation (la pertinence des propos)
Maximes de manière (hierarchiser la conversation, s’exprimer clairement, sans ambiguïté et brièvement)

Au delà du sens énoncé, ces maximes sont des outils pour détecter les implicatures. C’est à dire comprendre le vouloir-dire d’un énoncé. Lire entre les lignes pour permettre à l’interlocuteur de faire des inférences. Tenter de comprendre ce que veut exprimer une personne au delà de ce qu’elle dit, en supposant qu’elle coopère dans la conversation.

Le principe de coopération dans les interfaces vocales

En matière de conversation design, le principe de coopération s’applique autant que dans un échange humain. Il faut donc envisager plusieurs situations :

Les utilisateurs offrent toujours plus d’informations que ce qui leur est demandé. Être capable de s’en servir pour dessiner le contexte et supposer les intentions implicites.
L’assistant se trouvera confronté à ses limites et ne sera pas toujours en mesure de traiter une réponse. Dans ce type de situation, le principe de coopération impose de ne pas mettre un terme à l’échange, mais de trouver une solution pour réorienter subtilement la conversation et détecter la véritable intention de la demande pour y répondre.
Réciproquement, l’assistant doit être capable de conduire la conversation et la faire avancer en s’appuyant sur les éléments énoncés auparavant. Un long processus à mettre en place, mais nourris par l’intelligence artificielle, les interfaces vocales devront anticiper plus aisément le contexte des échanges et naturellement apporter plus de pertinence en fonction de chaque utilisateur.