L’intelligence artificielle (IA) continue de repousser les limites de l’innovation. Destiné à révolutionner les assistants vocaux actuels tels que Siri, Alexa et Google Assistant, ce nouveau modèle promet des avancées significatives en termes d’usabilité et d’interaction utilisateur. Il faut dire que les limites de ces objets connectés sont connues de tous et source de nombreuses frustrations depuis le Nabaztag, produit pour lequel j’ai travaillé. Retour sur cette révolution technologique et son impact potentiel sur le marché des assistants vocaux.

Une nouvelle ère pour les assistants vocaux

Lors d’une conférence filmée, Mira Murati, directrice de la technologie chez OpenAI, a présenté les capacités impressionnantes de GPT-4o. Le « o » dans GPT-4o signifie « omni », soulignant l’ambition de ce modèle d’améliorer tous les aspects de la communication vocale. Selon Murati, plus de 100 millions de personnes expérimentent déjà GPT-4o chaque semaine, témoignant de son adoption rapide et de son potentiel transformateur.

Des capacités améliorées et une interaction plus humaine

GPT-4o apporte des améliorations majeures par rapport à ses prédécesseurs. Lors de la démonstration, le système a montré sa capacité à tenir des conversations fluides tout en reconnaissant l’état émotionnel des interlocuteurs à partir de leur ton vocal. Cette capacité d’analyse émotionnelle ouvre la voie à des interactions plus personnalisées et intuitives, où l’assistant vocal peut adapter ses réponses en fonction de l’humeur et du contexte de l’utilisateur.

Les défis à surmonter

Cependant, malgré ses promesses, GPT-4o n’est pas exempt de limitations. Des tests ultérieurs menés par des internautes ont révélé des difficultés à répondre à plusieurs questions d’affilée en raison de surcharges des serveurs. Ce problème de scalabilité montre que même les modèles d’IA les plus avancés doivent encore surmonter des défis techniques pour offrir une expérience utilisateur optimale.

L’histoire des assistants vocaux : entre succès et échecs

Les assistants vocaux ne sont pas une nouveauté. En 2017, Siri comptait plus de 375 millions d’utilisateurs dans le monde, tandis que Google répertoriait 500 millions d’utilisateurs mensuels pour sa recherche vocale en 2020. Malgré ces chiffres impressionnants, l’utilisation des assistants vocaux reste marginale, principalement en raison des controverses liées à la protection de la vie privée. Les microphones intégrés, toujours à l’écoute, suscitent des inquiétudes quant à la surveillance et à l’utilisation des données personnelles. On connaît également leurs limites sorties des commandes classiques.

Des échecs célèbres

L’histoire des assistants vocaux est également marquée par des échecs retentissants. Microsoft, avec son assistant Cortana, a échoué à s’imposer sur le marché. En 2023, Satya Nadella, PDG de Microsoft, a admis que les assistants comme Cortana, Alexa, Google Assistant et Siri n’avaient pas répondu aux attentes, les qualifiant de « aussi bêtes qu’un caillou ». Amazon, de son côté, a réduit ses efforts dans ce domaine en 2022, diminuant l’équipe dédiée à Alexa face à un manque de rentabilité.

La course à l’innovation continue

Malgré ces défis, la compétition pour développer l’assistant vocal ultime ne faiblit pas. En réponse au lancement de GPT-4o, Google a rapidement introduit un modèle plus éloquent. Amazon continue d’intégrer Alexa dans de nouveaux produits pour la maison connectée. Apple, quant à elle, prépare une mise à jour majeure de Siri pour le 10 juin, intégrant des avancées en intelligence artificielle générative. Bloomberg rapporte que des discussions sont en cours entre Apple et divers fournisseurs de technologies, dont Google, Cohere et OpenAI, suggérant des collaborations potentielles pour renforcer les capacités de Siri. Il faudra néanmoins s’équiper des derniers modèles d’iPhone (quid des Homepod ?) et attendre un peu pour en bénéficier en Europe et en français.

OpenAI se prépare à lancer « Voice Engine », son assistant vocal alimenté par l’IA

OpenAI, la start-up renommée dans le domaine de l’intelligence artificielle, a récemment déposé une demande de marque pour « Voice Engine » auprès de l’Office américain des brevets et des marques. Ce dépôt inclut une large gamme de fonctionnalités couvrant les assistants vocaux, ainsi que la reconnaissance et la génération automatiques de la voix.

Le dépôt mentionne plusieurs applications, notamment le traitement des commandes vocales, la conversion entre le texte et la parole, la création et la génération de sorties vocales et audio basées sur des invites en langage naturel, des images ou des vidéos. OpenAI prévoit également des outils de développement pour la fourniture de services vocaux et la compréhension du langage naturel sur divers réseaux informatiques.

Cette initiative pourrait marquer le début d’une nouvelle ère pour OpenAI, qui propose déjà aux utilisateurs de ChatGPT de communiquer avec son chatbot à l’aide de commandes vocales. Avec « Voice Engine », l’entreprise semble vouloir développer une suite complète de technologies vocales, potentiellement en collaboration avec des anciens d’Apple sous la direction de Jony Ive.

Une refonte nécessaire pour Apple avec Siri nommée Apple Intelligence

Dans un autre développement significatif du secteur, Apple travaille sur une refonte majeure de son assistant vocal Siri. Selon un rapport de Bloomberg, l’objectif est de rattraper le retard accumulé face à des concurrents comme Alexa d’Amazon et Google Assistant. Bien que Siri ait été l’un des premiers assistants vocaux, il est désormais perçu comme étant à la traîne en termes de compréhension du langage naturel et de tâches complexes.

Apple envisage d’intégrer des techniques avancées d’apprentissage automatique et d’IA, semblables à celles de ChatGPT, pour améliorer Siri. Cette refonte vise à rendre Siri plus performant, capable de mieux comprendre les requêtes des utilisateurs et d’effectuer des tâches sophistiquées. L’assistant vocal pourrait également devenir plus personnalisable et proactif, anticipant les besoins des utilisateurs.

La présentation de cette nouvelle version a eu lieu lors de la dernière conférence des développeurs WWDC, avec un déploiement complet attendu avec iOS 18  et macOS 15 à l’automne.

Un futur inspiré par la science-fiction

Le développement des assistants vocaux par des entreprises comme OpenAI et Apple rappelle le scénario du film « Her », où un homme tombe amoureux d’une IA dotée de capacités conversationnelles avancées. Cette vision futuriste devient de plus en plus réaliste à mesure que les technologies progressent.

Cependant, ces avancées ne sont pas sans controverses. OpenAI a récemment été critiquée pour avoir prétendument copié la voix de l’actrice Scarlett Johansson pour l’une de ses voix numériques. Johansson, après avoir refusé l’utilisation de sa voix, a engagé des poursuites contre OpenAI, soulignant les défis éthiques et légaux liés à l’IA.

L’intégration des assistants vocaux : une opportunité pour les Product Managers

Les développements actuels dans le domaine des assistants vocaux offrent une opportunité unique pour les Product Managers (PM). Intégrer leur savoir-faire avec une application basée sur des assistants vocaux nécessite une compréhension approfondie des capacités et des limitations de ces technologies. 

Les PM doivent débuter par une analyse approfondie des besoins et attentes des utilisateurs finaux, en comprenant les cas d’utilisation spécifiques et les contextes d’interaction avec les assistants vocaux. Cette compréhension est nécessaire pour développer des fonctionnalités pertinentes. Une collaboration étroite avec les équipes techniques est également déterminante pour garantir la faisabilité des fonctionnalités proposées et leur alignement avec les capacités technologiques actuelles. L’utilisation des API ou de briques logicielles des acteurs de l’IA que nous avons cité, sera souvent nécessaire.  Les PM doivent se tenir informés des dernières avancées en IA pour exploiter les nouvelles capacités.

En travaillant de concert avec des designers UX (ainsi que des Sound designers), les PM peuvent créer des interactions vocales intuitives et centrées sur l’utilisateur, visant à concevoir des flux de conversation naturels et efficaces. La protection des données étant une préoccupation majeure, il faut penser à intégrer des mesures robustes pour garantir la confidentialité des utilisateurs, notamment par la transparence sur la collecte et l’utilisation des données vocales.

L’itération continue basée sur les retours des utilisateurs permet d’améliorer l’application. Retour qu’il soit formel ou via la data recueillie (anonymisée et consentie). En supervisant des cycles de test rigoureux, les Product Managers peuvent identifier les points de friction et optimiser l’expérience utilisateur. Enfin, pour encourager l’adoption de l’application, des stratégies de marketing efficaces sont nécessaires. Des campagnes éducatives peuvent être mises en place pour familiariser les utilisateurs avec les nouvelles fonctionnalités et avantages des assistants vocaux intégrés.

Le marché des assistants vocaux évolue rapidement, avec des innovations majeures de la part d’acteurs clés comme OpenAI et Apple. Les interfaces homme machine seront revues. Ces développements promettent de transformer notre interaction avec la technologie, tout en soulevant des questions importantes sur l’éthique et la confidentialité. Vu l’impact de ces éléments disruptifs, un accompagnement avec un Product Manager expérimenté est indispensable.

Besoin d’un Product Manager, d’un Head of product ou d’un Lead Product ? Contactez-moi.


Pascal Kammerer

Product Manager / Product Owner / Scrum Master Freelance. Diplômé par deux Bac 5, en Product Management et en Marketing Digital, complétés par 6 certifications agiles, j’ai mis en pratique mes connaissances durant 25 années d’expériences professionnelles dont 10 dans un contexte agile. Cela me permet d’avoir une vision complète de vos projets : L’expérience client et le parcours des utilisateurs ont toujours eu une importance capitale à mes yeux, comme les enjeux business. Passionné par les nouvelles technologies et les nouveaux usages qu’elles induisent, j'ai travaillé pour plusieurs secteurs d’activités comme la santé, les télécom, les objets connectés, les finances, les RH, l’éducation et la formation ... pour ne citer qu’eux. Enthousiaste, je crois en une collaboration facilitée, participative, et à l'amélioration continue. Reconnu pour mes qualités, plus de 40 références et recommandations sont à votre disposition. À la fois polyvalent et expert, je saurai piloter vos projets et produits et les conduire jusqu’au succès.

0 Commentaire

Laisser un commentaire

Avatar placeholder

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *