Meta dévoile le nouveau modèle d’intelligence artificielle Spirit LM pour améliorer les expériences vocales.

Meta a annoncé le lancement du nouveau modèle d’intelligence artificielle « Spirit LM » open source, qui vise à développer le traitement vocal de manière plus avancée et naturelle. Ce modèle se concentre sur surmonter les défis liés aux modèles multimédias, en mettant l’accent sur l’amélioration de la qualité des voix et offrant une expérience sonore plus expressive et réaliste.
Le modèle « Spirit LM » repose sur un modèle linguistique pré-entraîné contenant 7 milliards de paramètres, et intègre une nouvelle technologie différente des modèles traditionnels basés sur la reconnaissance automatique de la parole (ASR). Meta a indiqué que ces techniques traditionnelles manquent de capacité à transmettre avec précision les expressions naturelles dans la voix, réduisant ainsi la réalisme de l’interaction vocale.
Pour surmonter ces défis, « Spirit LM » se base sur des phonèmes, des tonalités et des nuances vocales qui lui permettent de générer des voix naturelles. Le modèle est également capable d’apprendre en continu pour exécuter une variété de tâches avancées telles que la reconnaissance vocale, la conversion de texte en voix et la classification de la parole.
Meta a présenté ce modèle à travers une recherche détaillée incluant des échantillons audio illustrant les capacités de « Spirit LM » et ses applications potentielles. Il est prévu que ce modèle soit utilisé à l’avenir dans les applications appartenant à Meta telles que WhatsApp, Instagram et Facebook, offrant aux utilisateurs une expérience vocale plus complexe et naturelle.
« Spirit LM » est maintenant disponible en tant que projet open source, permettant aux développeurs et chercheurs de tirer parti de ses capacités et de le développer, représentant ainsi une avancée importante dans l’amélioration des expériences d’intelligence artificielle vocale, devenues essentielles dans la communication moderne.