Une équipe de Microsoft Research spécialisée en intelligence artificielle annonce avoir accompli une avancée majeure en matière de reconnaissance vocale, en concevant un système capable de transcrire une conversation aussi bien qu'un professionnel humain. Les futurs assistants virtuels, mais aussi les robots, comprendront beaucoup mieux ce que nous leur disons.
Hal 9000
© Metro-Goldwyn-Mayer/PolarisHAL 9000 (CARL 500 en version française) est un personnage de fiction, un supercalculateur doté d'intelligence artificielle qui apparaît pour la 1re fois dans 2001, l'Odyssée de l'espace de Stanley Kubrick (1968)
« Nous sommes en train de passer d'un monde où les gens doivent comprendre les ordinateurs à un monde dans lequel les ordinateurs doivent nous comprendre », explique Harry Shum, patron du groupe Microsoft Artificial Intelligence and Research. Cette inflexion, dont nous commençons à percevoir les prémices à travers les assistants virtuels de nos smartphones et les enceintes connectées type Amazon Echo, est en train de s'accomplir en partie sous l'effet de deux technologies intrinsèquement liées : l'intelligence artificielle (IA) et la reconnaissance vocale. À ce propos, Microsoft affirme avoir réalisé une « performance historique » avec son système de reconnaissance vocale qui transcrit la parole conversationnelle aussi bien que des humains spécialisés dans cet exercice.

Pour confirmer cette avancée, l'équipe d'Harry Shum a demandé à des transcripteurs professionnels de travailler à partir de la base de données Switchboard. Elle a été créée dans les années 1990 par le National Institute of Standards and Technology (NIST) afin de servir de maître-étalon aux travaux sur la reconnaissance vocale. Switchboard contient des échantillons de conversations téléphoniques en anglais, espagnol et chinois mandarin qui ont l'avantage de recréer des conditions réelles où les gens peuvent parfois marmonner, bafouiller, tousser, s'éclaircir la voix...

Confronté à ce test, le logiciel de reconnaissance vocale de Microsoft a obtenu un taux d'erreur de 5,9 % qui selon le géant nord-américain est, d'une part, égal à celui que les transcripteurs humains ont atteint et, d'autre part, le taux le plus bas jamais enregistré sur Switchboard. Ces travaux ont fait l'objet d'une publication sur arXiv.

Une technologie intégrée à la Xbox et à Cortana

Pour réaliser cette performance, l'équipe de Microsoft Research s'est appuyée sur un réseau neuronal d'apprentissage profond, à l'instar de Google qui a récemment fait de gros progrès en matière de traduction instantanée grâce à cette méthode. Du côté de Microsoft, l'une des clés de la réussite tient à l'optimisation du fonctionnement de l'infrastructure de son IA nommée Computational Network Toolkit (CNTK). Cette plateforme d'apprentissage profond, par ailleurs disponible en open source viaGitHub, peut exécuter ses algorithmes sur plusieurs ordinateurs équipés de processeurs graphiques dont la capacité à traiter des centaines de milliards d'opérations par seconde a joué un rôle déterminant dans l'avènement des réseaux neuronaux ces dernières années.

L'une des forces de l'architecture multicouches du CNTK est qu'elle sait regrouper les mots qui ont une similarité afin de pouvoir généraliser plus efficacement. Par exemple, en anglais, les mots fast et quick veulent tous les deux dire « vite » ou « rapide ». L'intelligence artificielle de Microsoft est capable de rapprocher ces deux mots et pour le coup d'être nettement plus rapide dans son traitement. La firme nord-américaine prévoit d'exploiter cette technologie dans sa console de jeu vidéo Xbox, avec l'assistant virtuel Cortana qui est intégré à ses smartphones et ordinateurs Windows 10 ainsi que pour des logiciels de transcription vocale en texte.

Malgré cette percée majeure, il ne s'agit que d'une étape. En effet, Microsoft Research explique que ses spécialistes vont désormais s'atteler à faire fonctionner leur système de reconnaissance vocale dans diverses conditions réelles, avec notamment un bruit de fond élevé (circulation automobile, brouhaha d'une fête...). Ils veulent également que leur IA soit en mesure de reconnaître différents types de voix en fonction de l'âge ou de l'accent mais aussi d'identifier chaque interlocuteur lorsque plusieurs personnes s'expriment en même temps.

À plus long terme, les chercheurs veulent aller au-delà de la simple transcription, vers des systèmes capables de comprendre la signification des mots qu'ils entendent. De quoi rendre les assistants virtuels, mais aussi les futurs robots domestiques, capables d'accomplir des tâches et des actions pour nous seconder plus efficacement.