nouvelles
L’idée générale de comprendre le système d’assistance vocale Siri et Cortana

La technologie des assistants vocaux sur les smartphones, ou comme on les appelle sur l’iPhone Siri ou Cortana, est quelque chose que la plupart d’entre nous ont entendu parler. Il est probable que cette technologie vous a impressionné et a montré un autre aspect de la technologie que nous avons atteint, et pour ceux qui ont vu un film étranger appelé HER, ils comprendront à quel point cette technologie peut avoir un impact majeur sur votre vie. Vous devez savoir que derrière la technologie des assistants vocaux comme Siri ou Cortana, il y a un travail énorme et complexe qui mérite d’être apprécié. Il faudrait beaucoup plus de publications pour approfondir cela, mais j’ai voulu vous donner un aperçu rapide de comment cette technologie fonctionne et comprendre le concept général, en laissant les complexités et les termes étranges aux experts. Maintenant, concentrons-nous ensemble.
Pour faciliter les choses, prenons l’exemple de la fonction Siri sur les iPhones. Lorsque vous parlez à Siri, votre voix et votre conversation sont immédiatement encodées sous forme numérique compacte, qui conserve ces informations à l’intérieur, transformant ainsi votre voix en données numériques constituées de 0 et de 1.
- Cette signalisation numérique est transmise sans fil à partir de votre appareil connecté au réseau vers la tour de téléphone cellulaire la plus proche, traversant une série de lignes terrestres jusqu’à votre fournisseur de services Internet, puis vers un serveur sur le cloud du réseau.
- Ce signal numérique est traité avec une série de modèles conçus pour comprendre le vocabulaire que vous avez utilisé, et simultanément, votre discours est découpé sur votre appareil.
- Votre téléphone dispose d’un reconnaisseur qui se connecte au Cloud et détermine si l’action que vous avez dictée peut être exécutée localement sur le téléphone lui-même ou si elle nécessite une connexion au réseau.
- C’est comme si vous lui demandiez de jouer une chanson sur votre téléphone ; cette tâche peut être facilement accomplie sur votre téléphone car c’est une tâche locale, contrairement à si vous lui demandiez de réserver une table dans un restaurant ou de rechercher quelque chose, auquel cas il saura qu’il doit se connecter au réseau. Si le Local Recognizer sur votre appareil reconnaît que la tâche est interne et qu’il n’est pas nécessaire d’utiliser le Cloud, il vous informera qu’il n’est pas nécessaire cette fois-ci et ne se connectera pas.
- Lorsque votre voix arrive au serveur, il compare votre voix à un système statistique chargé d’estimer votre voix, de reconnaître les mots que vous avez prononcés, les commandes que vous avez données et les lettres qui composent ces sons.
- En même temps, le Local Recognizer compare les mêmes sons dans une version abrégée de ce système statistique pour faciliter le processus et gagner du temps, et pour les deux systèmes, il y a une probabilité plus élevée qu’un des deux soit utilisé et déclenche l’action.
- Votre conversation est alors comprise comme une série de sons vocaux et consonnes qui sont passés à travers un navigateur et un analyseur de langage, qui estime les mots que vous avez prononcés.
- Le système crée ensuite une liste sélectionnée de traductions pour votre conversation, ce qui peut signifier la séquence de mots utilisée.
- Si le système a suffisamment confiance dans ces résultats, il attribue précisément la tâche à exécuter, par exemple, si vous voulez envoyer un message texte à Ahmed Hussein, l’appareil prépare le nom « Ahmed Hussein » à partir de votre liste de contacts, puis écrit le message que vous souhaitez envoyer, et comme par magie, vous verrez votre message apparaître à l’écran sans avoir besoin d’une manipulation manuelle autre que votre voix, et s’il y a un point flou pendant cette tâche, l’appareil vous demandera par exemple si vous vouliez dire Ahmed Hussein ou Ahmed Hassan?
Je n’avais pas l’intention d’être long ou compliqué, mais je voulais vous transmettre l’idée générale simplement, j’espère que vous l’avez bien comprise.