L’intelligence artificielle est un bien grand mot derrière lequel beaucoup de startups s’abritent pour vendre des solutions qui en sont totalement dépourvues. En matière de vocal, l’IA se situe au niveau de traitement automatique du langage naturel et de sa compréhension. Elle est l’apanage des grands acteurs de l’innovation et de quelques solutions indépendantes, qui, guidées par de féroces équipes d’ingénieurs bâtissent sur plusieurs années, ces fameux algorithmes.
Romain Sambarino, fondateur de la startup Allo-Media en 2011, fait partie de ces bâtisseurs de fond. L’intelligence artificielle qu’il développe est entièrement tournée vers la reconnaissance et compréhension vocale lors d’un échange téléphonique. Pour être clair, il ne s’agit pas de remplacer l’opérateur humain, mais de l’accompagner dans son échange avec le client. Le système se charge de retenir les données importantes au cours d’une conversation et de les structurer en datas exploitables. Une aubaine alors que bien souvent toutes ces données capitales pour l’expérience client s’envolent dans la nature.
Pouvez-vous vous présenter en quelques mots votre entreprise Allo-Media ?
L’idée de la société est partie d’un constat simple : nous sommes tous amenés à contacter par téléphone des services clients. Avec près de 300 milliards d’appels par an dans le monde, le téléphone demeure un canal de contact privilégié. Malheureusement, les conversations entre les marques et les clients sont perdues car 90% du contenu d’un échange s’évapore.
Nous avons donc conçu une technologie de reconnaissance et de compréhension vocale reposant sur de l’IA, capable de combler cette déperdition d’informations. Après plusieurs années de R&D, nous avons lancé en 2016 le Cookie Vocal, qui analyse et valorise en temps réel l’intégralité des conversations, et surtout, les structure en données exploitables pour les services marketing et relation client.
Depuis, nous poursuivons le développement de notre technologie et enrichissons notre offre de service à destination des grands comptes. Nous avons par exemple conçu le premier moteur de recherche conversationnel et émotionnel pour les supports clients et plus récemment, avec Webhelp, le « Self Augmented Agent » pour venir en aide aux conseillers téléphoniques.
Pour nous, l’IA appliquée à la reconnaissance vocale n’a pas vocation à faire parler une machine avec un humain mais à aider les humains à mieux se comprendre.
Nous travaillons avec de nombreux grands groupes dans les secteurs de l’assurance (Allianz, Axa, Groupama …), du monde de l’énergie (Engie, Total, Butagaz …), du voyage (Oui.sncf.com, Ponant, Voyage Privé) pour ne citer qu’eux, et nous avons levé jusqu’à présent 11,5 millions d’euros.
Vous avez développé une IA de reconnaissance vocale, pouvez-vous nous rappeler les grands principes du NLP ?
Le NLP est basé sur des algorithmes fondés sur des statistiques du machine learning. De cette façon, les ordinateurs sont non seulement capables d’apprendre des problèmes résolus précédemment, mais également de les identifier de manière autonome et de résoudre des problématiques en s’appuyant sur un nombre important de corpus.
Il s’agit alors de présenter à la machine en entrée, des données brutes non structurées, puis de lui demander à l’aide d’algorithmes différents de structurer d’elle-même les données et d’en déduire des relations et des ensembles de manière automatique.
Aujourd’hui, un système de reconnaissance vocale peut-il concurrencer les technos de Google et Amazon, entrainées par des millions d’utilisateurs ?
Oui, en moyenne sur du téléphone, les moteurs de reconnaissance vocale connaissent un taux d’erreur-mots de 30%. Notre technologie tourne autour de 7,7% de taux d’erreur-mots (selon une analyse que nous avons mené l’année dernière après 72h de conversations, soit 8000 appels de type call center).
Notre technologie est ainsi la plus proche de la compréhension du cerveau humain. J’ajoute que notre équipe technique est l’une des plus avancées en la matière, elle est composée de 15 ingénieurs et dirigée par Vincent Jousse, associé et Docteur en reconnaissance automatique de la parole, issu du LIUM où il fut également Maître de Conférence et qui est désormais Président de la Communauté French Tech du Mans.
Avec votre solution, il est possible d’analyser et de recueillir automatiquement des informations provenant d’échanges téléphoniques. Quel travail doit être effectué pour personnaliser la solution aux besoins de chaque client ?
Pour chacun de nos clients, nous mettons en place un modèle spécifique basé sur du Machine Learning qui comprend 3 étapes :
- Un captage de 6000 appels/environ 30h qui nous permet de développer l’apprentissage des éléments de langage de la marque à travers un travail de classement, d’annotation et de transcription.
- Une définition des parcours actionnables : être capable d’extraire de la donnée pour proposer immédiatement des solutions en fonction des profils au téléphone
- Une connexion aux outils CRM de la marque
Nous industrialisons le jeu de données vocales pour chaque client, propre à sa marque et à ses produits.
Peut-on intégrer votre solution à n’importe quelle interface vocale (Service téléphonique, assistants vocaux…) ?
Nous avons concentré notre solution sur de l’analyse d’appels téléphoniques avec une qualité audio dégradée entre deux locuteurs humains et nous avons également plusieurs partenaires avec qui nous travaillons des solutions de Voicebot pour plusieurs clients.
Sous quelle forme est retranscrit l’appel ?
Il est retranscrit à l’écrit via notre plateforme « Scribr », qui donne accès à tous les appels, leurs enregistrements audios, leurs transcriptions, et un moteur de recherche qui permet de filtrer précisément tous les contenus de conversations et d’effectuer des actions spécifiques selon les règles définies par les cas d’usages de nos différents clients.
Pouvez-vous nous donner un exemple de use case ?
Plusieurs cas d’usage sont possibles par exemple :
- En après-vente pour transformer automatiquement les appels client en données structurées pour déclencher un plan d’action adapté, identifier automatiquement les sources d’insatisfaction en temps réel pour mieux y répondre et cartographier les processus défectueux pour les améliorer via un plan d’action ciblé.
- En avant-vente en réconcilant le parcours online et offline de ses visiteurs, et en activant les données issues des appels dans ses outils marketing, le client peut mesurer la performance des ses campagnes d’acquisition, piloter ses actions d’optimisation et engager des actions de retargeting ciblées.
De manière générale, comment voyez-vous l’émergence des interfaces vocales dans notre quotidien ? Comment voyez-vous évoluer le vocal dans les années à venir ?
Parler est une démarche naturelle pour communiquer, il semble donc évident que les interactions avec des assistants vocaux ou des VoiceBots, va se développer à grande échelle et être adoptées par le plus grand nombre grâce à leur facilité d’utilisation.
Ces interfaces seront de plus en plus performantes dans les prochaines années et permettront alors un échange moins stéréotypé qu’il ne l’est aujourd’hui.
De nombreux utilisateurs craignent que le vocal libère une fuite de leurs données privées, comment les rassurer sur l’utilisation de leurs datas ?
Pour ce qui est de notre cookie vocal, les données privées et sensibles sont automatiquement reconnues et masquées lors de la retranscription de la conversation (numéro de carte bleue par exemple).
Comment expliqueriez-vous votre solution à une personne complètement déconnectée de la technologie ?
La solution Allo-Media agit comme un véritable assistant personnel pour le conseiller téléphonique, et l’aide à traiter l’appel, à poser les bonnes questions au bon moment pour mener à bien son échange et en améliorer la qualité.
Du point de vue du consommateur/client, notre solution améliore la qualité de l’échange et permet d’obtenir des informations plus précises, plus rapidement sans avoir à se répéter plusieurs fois même lorsqu’on échange avec des conseillers différents.