Pourquoi la voix d’un assistant vocal déroute au téléphone
On appelle un service client : la voix est polie, les mots coulent, mais un détail cloche. L’intonation paraît trop nette ou trop fade. On hésite : humain ou machine ? Peu importe la qualité de la phrase, la sensation d’étrangeté persiste.
Recevoir un appel d’un assistant vocal, c’est vivre ce flottement : tout semble normal, mais la voix ne colle pas aux attentes. Cette expérience met en lumière à quel point le naturel d’une voix dépend de minuscules indices, souvent inconscients. On croit reconnaître l’humain à l’intonation ou au souffle, mais ces repères volent en éclats dès que le son est transformé.
Cette impression dérangeante ne dit pas tout du progrès des machines. Même les voix artificielles très avancées peuvent paraître « fausses » au téléphone. Ce flottement ne mesure pas seulement la qualité de la synthèse, mais aussi celle du canal. L’étrangeté ne vient pas toujours de là où on l’attend.
Lucidaily publie 3 sujets comme celui-ci chaque matin.
Créer un compteDeux filtres qui brouillent tout
Un assistant vocal compose la parole soit en assemblant des fragments humains, soit en générant le son de toutes pièces, comme le fait WaveNet (Google Research, 2018). Sur un ordinateur, le résultat peut tromper l’oreille : on perçoit des modulations subtiles, des pauses, presque des émotions.
Mais le téléphone agit comme un entonnoir. Selon Bell Labs (Oppenheim, 1969), il coupe tout ce qui dépasse la voix « utile » : plus de 80 % des nuances de timbre, de souffle ou de grain sont supprimées. Ce filtrage efface les détails qui signalent la présence humaine, ou leur donne un aspect artificiel.
Approfondir
Le réseau téléphonique standard (PSTN) comprime aussi la dynamique de la voix. Les sons les plus faibles et les plus forts sont rapprochés, ce qui gomme certains indices de sincérité ou d’hésitation. Résultat : la voix, qu’elle soit humaine ou synthétique, apparaît plus plate ou exagérée.
L’illusion de la technique seule
On peut tester une voix d’assistant sur de bons haut-parleurs et la trouver bluffante. Mais dès qu’on la fait passer par un vieux combiné ou une ligne classique, le doute s’installe. Ce n’est pas la machine qui régresse : c’est le canal qui prive l’oreille de ce qui rend la voix crédible.
Quand la transmission change tout
La perception du naturel dépend beaucoup du contexte d’écoute. Hiroshi Saruwatari (Université de Tokyo, 2019) a montré que sur un réseau VoIP moderne, la voix synthétique garde plus de nuances. Mais sur une ligne téléphonique classique, la différence entre voix humaine et artificielle s’estompe : les deux paraissent moins vivantes, car les indices sonores sont nivelés.
Le type de voix fait aussi varier l’effet. Une voix féminine, plus riche en aigus, perd davantage à la transmission qu’une voix grave. Les assistants s’adaptent parfois en accentuant certains sons, mais cela peut accentuer l’impression d’artificialité si le canal les déforme à son tour.
Approfondir
Certaines entreprises testent des voix « sur-mesure » pour chaque canal (téléphone, chat, haut-parleur). Mais aucune solution ne restitue encore tous les indices du visage ou du souffle humain, surtout en téléphonie classique.
Progrès de la synthèse ou limites du canal ?
Une partie des chercheurs estime que la synthèse vocale atteindra bientôt un réalisme indiscernable, même via le téléphone, grâce à des modèles neuronaux plus fins (Google Research, 2018). D’autres, comme ceux de Bell Labs, pensent que tant que le canal coupe l’essentiel des fréquences et compresse le son, il restera un plafond d’étrangeté. Pour eux, le progrès viendrait d’abord d’une amélioration du réseau – pas seulement de la voix elle-même.
L’étrangeté d’une voix d’assistant au téléphone vient autant du filtre du réseau que de la machine qui la fait parler.