Nombreux sont nos contemporains à penser que le vocal est l’apanage de notre génération, pourtant il n’en est rien ! Dès les années 50, les premiers balbutiements des interactions vocales entre humain et machine se sont fait entendre.
À noter que le terme VUI englobe tout ce qui relève de l’interface conversationnel.
Les VUI des années 1950 à 2000
C’est dans les années 50 que les laboratoires Bell imaginent une technologie permettant à l’être humain de se faire comprendre par la machine via la voix. Les premiers exemples sont limités et ne prévoient évidemment pas de réponse de la part du système. Il s’agit plus d’un monologue dont la portée ne dépassera pas les portes du laboratoire. D’ailleurs les sujets de conversation sont tout aussi limités puisqu’ils ne reposent que sur la saisie de numéros.
La technologie progresse au cours des années 60 et 70 mais reste cantonnée à un usage purement scientifique. Ce n’est qu’en 1980 qu’elle commence à se faire connaître. Dans le courant des années 90, le premier système à même de comprendre n’importe quel interlocuteur voit le jour. Début 2000, on assiste à la multiplication des Interactive Voice Response (IVR) en remplacement d’interlocuteurs téléphoniques en chair et en os. Ils sont alors chargés de nous renseigner sur des sujets aussi captivants que l’horaire d’une séance de cinéma. Ils pouvaient toutefois s’avérer plus utiles, allant même jusqu’à transférer de l’argent entre deux comptes.
Les VUI bouleversent nos habitudes
Le fait est que ces IVR avaient déjà – et sans que nous le sachions – modifié en profondeur nos habitudes. Tant et si bien que de nombreux utilisateurs contactaient les IVR pour leur poser des questions qui n’avaient pas d’utilité apparente. Il est même arrivé qu’une entreprise dont l’IVR était en maintenance ait eu à faire face à de nombreuses plaintes d’utilisateurs courroucés. En effet, ceux-ci étaient contraints de s’adresser à des interlocuteurs physiques plutôt qu’à la voix mécanique à laquelle ils s’étaient habitués.
Le perfectionnement des IVR
Avec l’émergence de cette technologie, des progrès considérables ont vu le jour. Ceux-ci ont ainsi permis aux IVR de traiter des requêtes complexes. Plus complexes en tout cas qu’une simple réponse à une question encore plus triviale comme celles relatives aux horaires d’ouverture d’un magasin. La technologie devint capable de garder une trace des échanges enregistrés en début de conversation pour ensuite en déduire les réponses à venir. Des avancées indispensables pour des requêtes telles que les suivis de colis ou les correspondances entre deux vols.
Une nouvelle génération de VUI
De nos jours, les VUI progressent à un rythme exponentiel et sont à même de s’auto-éduquer grâce à l’apparition du machine learning. Ainsi, les VUI ne sont plus cantonnés à une interface purement vocale mais incluent à présent des éléments graphiques et visuels. Nous ne citerons que les plus célèbres dont vous avez évidemment connaissance : Siri, Alexa, Cortana, Google Now. Parallèlement à celles-ci, les GAFA sont parvenus à introduire le vocal dans le foyer même de l’utilisateur grâce aux enceintes connectées (Amazon Echo, Google Home).
Google a récemment relevé une augmentation des requêtes internet saisies par le biais du vocal. Elles constituent désormais 20% du nombre total de requêtes, du moins aux Etats-Unis. Pourtant, malgré ces avancées considérables, le chemin à parcourir est encore long. On constate néanmoins un intérêt croissant et une émulation autour du design vocal. Les préoccupations des designers contemporains relèvent aujourd’hui du ton à employer, de l’emphase à appliquer à telle ou telle expression voire des formules de politesse à employer par le VUI.
L’avenir du vocal
Le vocal est appelé à remplacer bon nombre de technologies vieillissantes et bientôt obsolètes et ce pour plusieurs raisons. D’une part, il permet une interaction plus rapide et précise que ne le permet la saisie par clavier. D’autre part, il libère les mains de l’utilisateur et s’avère nettement plus intuitif. Enfin, certaines émotions sont difficiles voire impossible à faire passer par écrit. En témoigne la difficulté à conférer un ton à un message quel qu’il soit (e-mail, sms, DM). Aussi, l’ironie et le sarcasme sont quasiment proscrits car trop difficiles à transmettre via un format textuel. A l’inverse, le vocal est vecteur d’informations contextuelles dont la prononciation, le phrasé ou le ton employé font partie.
Cependant, pour emmener le vocal encore plus loin il est nécessaire qu’il séduise. Or, plusieurs freins subsistent encore dont le manque de discrétion voire la gêne ressentie lorsqu’on s’adresse à une machine.
*source : C, Pearl (2016) « Designing Voice User Interface (Principles of conversational experiences) »