Les systèmes actuels de dialogue vocal reposent sur des chaînes de composants indépendants (détection d'activité vocale, reconnaissance vocale, traitement textuel, et synthèse vocale). Cela entraîne une latence de plusieurs secondes et des pertes d'informations non linguistiques, comme les émotions ou les sons non verbaux. De plus, ces systèmes segmentent les dialogues en tours de parole, ignorant les interruptions ou le chevauchement des voix.
L’approche de Kyutai avec Moshi est de résoudre ces problèmes en générant directement du discours (audio et texte) à partir de la parole de l’utilisateur, sans passer par du texte intermédiaire.
Pour cela la voix de l'utilisateur et celle de l'IA sont modélisées séparément, ce qui permet des dialogues plus naturels et dynamiques. Le modèle prédit d'abord le texte, avant de générer les sons, améliorant ainsi la qualité linguistique et permettant une reconnaissance vocale et une synthèse vocale en temps réel. Avec une latence théorique de 160ms, Moshi est le premier modèle de langage vocal en full duplex et en temps réel.