Le voice summit est le rassemblement incontournable des acteurs de la technologie vocale. Organisé à Newark dans le New Jersey, il a débuté le 22 juillet pour s’achever le 25. Avec plus de 5 000 développeurs, designers conversationnels, startups, marques, agences et exécutifs, ce sommet s’articule autour de conférences avec des intervenants de haut vol, workshops et expos.
L’équipe Vokode a visionné les conférences les plus attendues pour en retirer les annonces et learnings les plus intéressants. Nous mettrons régulièrement à jour l’article, de manière à ce que vous ne manquiez rien de cet événement d’envergure.
Web Summit : day One
Amazon
Joel Bloom, président du NJIT (New Jersey Institute of Technology) a ouvert le bal, succédé par Dave Isbitski, chef évangéliste chez Amazon. Ce dernier a rappelé le potentiel de l’ère voice first : inclusivité de cette technologie, interactions naturelles, etc.
Alexa compte désormais plus de 90 000 skills. Selon Dave, sur le nombre total de créateurs de skills, seuls 20% sont des développeurs de métier. Il a d’ailleurs insisté sur le fait que le développement technique n’avait que peu d’impact sur le succès d’une skill « it’s not how you can code it’s how good you can converse with ».
A propos de design conversationnel, Dave Isbitski a brièvement rappelé ce qui fait une bonne expérience vocale (cf. captures ci-dessous)
L’Echo Auto est la dernière innovation Amazon évoquée au Voice Summit, la première de la famille Echo conçue spécialement pour être embarquée en voiture. Son succès est tel que le nombre de précommandes s’élève déjà à un million. En ce qui concerne la banque de sons Alexa, elle compile déjà 2 500 sons de tous horizons, aisément intégrables dans les skills.
Enfin, le chef évangéliste a également annoncé l’introduction du Alexa Skill Flow Builder. Il s’agit d’un nouvel outil à destination des créateurs de voice games, en particulier de jeux de rôles. Il permet de développer un prototype en seulement 30 minutes.
Samsung
Adam Cheyer prend le relais de Dave Isbitski, le Co-Fondateur & VP Engineering de Viv & Siri travaille désormais sur l’assistant vocal de Samsung. Baptisé Bixby, nous l’avions testé au salon VivaTech 2019.
Dès le début de son talk au Voice Summit, le créateur de Siri a insisté sur le fait que Samsung ambitionnait de permettre aux développeurs de bâtir le meilleur assistant du monde. Bixby est donc un assistant conversationnel développé autour du principe suivant qui prend des allures de mantra : « ask to get things done ». Il est basé sur des services qui personnalisent l’expérience en fonction des données collectées. Cette logique permet également d’accroître la rapidité d’accomplissement des tâches.
Il est ainsi capable de déduire des informations contextuelles. Ainsi, si l’utilisateur lui pose la question suivante : « fera-t-il plus de 30 degrés sur Golden Gate Bridge après-demain ? », l’assistant lui renverra les prévisions météo pour la baie de San Francisco. Pour une sélection de restaurants français, il retournera une liste de fiches restaurants à scroller, pareil pour les recettes.
Précisons à toutes fins utiles que Samsung est le constructeur disposant du plus grand nombre de devices – l’entreprise en commercialise pas mois d’un milliard par an – et que la plupart intégreront Bixby d’ici 2020.
N.B. Bon à savoir : les applications Bixby sont nommées capsules.
Bixby Developer Studio
Samsung vient d’introduire un outil à destination des développeurs, baptisé Bixby Developer Studio. Il a recours au deep learning et au neural net pour permettre à l’intelligence artificielle et à l’humain de co-créer. Il s’agit de la Dynamic Program Generation, l’intelligence artificielle génère des programmes et crée des séquences pour répondre à des intents contextuels « quel temps fait-il chez ma soeur ?« .
Une fois que le développeur a renseigné les slots, critères de recherche, sujets, etc, l’intelligence artificielle génère automatiquement un programme intégrant toutes les interactions utilisateur.
Bixby Marketplace
Autre innovation récente dévoilée au Voice Summit : la Bixby Marketplace référence les trending capsules, de même que des classements de capsules par catégorie (travel, food, etc).
Il est ainsi possible d’ajouter des capsules comme sur n’importe quel store puis de les paramétrer par défaut. Si ce paramétrage n’est pas fait, Bixby proposera les capsules déjà ajoutées pour un intent particulier. Par exemple : « je veux me rendre à l’aéroport » – « ok, quel service voulez-vous utiliser ?« . Il proposera alors Lyft ou Uber et laissera le soin à l’utilisateur de choisir.
Microsoft
Noelle LaCharite, Principal PM Manager chez Microsoft est d’abord intervenue sur le rebranding de Cortana. L’assistant vocal de Microsoft se fait désormais multimodal.
Microsoft veut permettre aux développeurs de créer leur propre modèle ou d’avoir recours à des modèles pre-built. Dans cette optique, l’entreprise a développé des Cognitive Services Capabilities (cf. capture). Elles désignent toutes les fonctionnalités à implémenter dans une application vocale.
En dernier lieu, le neural TTS (Text To Speech) a enregistré des avancées notables. Il devient de plus en plus difficile de distinguer l’humain de la voix de synthèse. En l’occurrence, les deux exemples étaient des voix de synthèse.
Web Summit : Day 2
Le deuxième jour du Web Summit, les conférences sont animées par James Poulter, CEO de Vixen Lab. Outre son rôle d’animation, il a évoqué les trois insights qu’il considère les plus fondamentaux pour le vocal en 2020.
« 2020 will be about… » @jamespoulter #VOICE19 pic.twitter.com/4nq8GOFlXs
— VOICE (@VoiceSummitAI) July 24, 2019
Le second intervenant de la journée est David Ciccarelli – fondateur et CEO de Voices.com. Ce dernier est intervenu sur l’importance d’avoir recours à des voix humaines pour les expériences vocales en lieu et place de la voix synthétique. Pour rappel, voices.com est une plateforme mettant en relation des créateurs d’expériences vocales avec plus de 300 000 voix humaines.
« As soon as the content is story driven, working with a voice actor makes the most sense. » – @davidciccarelli #VOICE19 pic.twitter.com/PYyetaehwU
— VOICE (@VoiceSummitAI) July 24, 2019
Une fois son intervention terminée, David Ciccarelli cède la place à Franklin Lobb Sr Solutions Architect chez Amazon. A ce titre, il est intervenu sur les services AWS développé à destination des créateurs de skills et plus particulièrement sur le AWS Lambda. Il s’agit d’un des services principaux qui permet d’automatiser d’exécuter du code en réponse à des événements prédéfinis et qui gère automatiquement les ressources de calcul.
So @franklinlobb is plugging us into the @awscloud matrix at #VOICE19 & I’m totally here for it @VoiceSummitAI pic.twitter.com/SwRloD7HYv
— @laurafrantz (@laurafrantz) July 24, 2019
S’ensuit la prise de parole de Jeremy Walker – Head of Service Development & Delivery, BBC Voice + AI, BBC, Angela Stengel – Head, Content Ideas Lab, Australian Broadcasting Corporation (ABC) Joel Sucherman – Vice President, New Platform Partnerships, NPR ainsi que James Poulter. Ces derniers livrent leurs insights sur le potentiel du vocal et plus largement de la tech sur le broadcasting contemporain.
#Voice doesn’t allow for traditional broadcast approach:
— BOND.AI (@BondDotAi) July 24, 2019
-have to be ruthlessly audience-first @JSucherman
-need empathetic voice experience @Jwalkerpress
-requires experimenting for the sake of learning @angelastengel @NPR @ABCaustralia @bbc @jamespoulter @Vixen_Labs #VOICE19 pic.twitter.com/IxWqDdiSW2
Autre sujet passionnant abordé par Steve Keller – Sonic Strategy Director chez Pandora Media – la place du son et de la voix dans notre époque de disruption. On en retient certains enseignements dont celui-ci : « L’engagement est un indicateur de m**** si vous n’en retirez pas de résultat«
Behavior + Perception + Equity = ROI of a #voice experience. #VOICE19 @audioalchemist_ pic.twitter.com/yagoRDREzF
— Applause (@applause) July 24, 2019
La scène principale est ensuite occupée par Joan Solsman – Senior writer, digital media, CNET – qui reçoit six intervenants de renom dont Steve Keller mais aussi Kourtney Bitterly – Lead, R&D, The New York Times ou encore Jonathon Myers – Cofondateur et CEO de Earplay. Ils analysent l’approche du vocal par les grands médias dans l’ère voice-first.
Fascinating. @kourtbitterly says @nytimes research found that many consumers are nervous about Smart Speaker security, but still like them because they provide a “break from their phones.” #voice19 pic.twitter.com/WRkQ1UB94E
— Jay Baer (@jaybaer) July 24, 2019