Sciences et progrès ~4 min

Pourquoi les micros de visioconférences captent parfois mieux les bruits lointains

En pleine réunion Zoom, on entend la voix d’un voisin dans le couloir, mais pas les frappes de clavier juste à côté du micro. Cette inversion surprend souvent : on croit que la distance fait tout, mais le micro décide selon d’autres règles.

Beaucoup d’utilisateurs ont remarqué que, lors d’une visioconférence, certains bruits proches — comme un souffle ou des doigts sur le clavier — disparaissent complètement, alors qu’un aboiement lointain ou une voix provenant du couloir s’entend distinctement. Ce phénomène intrigue et donne parfois l’impression que la technologie fait des choix arbitraires.

En réalité, ce fonctionnement éclaire la manière dont les micros modernes trient les sons : non pas en fonction de leur proximité, mais selon leur ressemblance avec une voix humaine et leur direction. Ce tri automatique, conçu pour rendre la conversation la plus claire possible, ne tient pas compte de l’importance subjective de chaque bruit pour l’utilisateur. D’où le sentiment que certains sons « prioritaires » sont effacés, et d’autres amplifiés par erreur.

☀

Lucidaily publie 3 sujets comme celui-ci chaque matin.

Créer un compte

Filtrage spatial et spectral

Les micros de visioconférence utilisent des algorithmes qui analysent en temps réel la signature sonore et la direction des bruits. Ils cherchent à isoler la voix humaine, en s’appuyant sur la forme des ondes (le spectre) et la provenance du son dans l’espace. Quand un bruit lointain (voix, aboiement, klaxon) présente un profil proche de celui d’une voix, ou arrive dans la même direction que la personne qui parle, l’algorithme peut le laisser passer ou même l’amplifier.

À l’inverse, les bruits répétitifs et courts (frappes de clavier, souffles, frottements) sont souvent considérés comme du « bruit de fond » et coupés, même s’ils sont très proches du micro. D’où cette impression que le micro « choisit ».

Approfondir

Microsoft Research (2022) a montré que même les réseaux neuronaux les plus avancés, censés distinguer voix et bruit, échouent lorsque la signature spectrale d’un son parasite ressemble trop à celle d’une voix. Cela explique pourquoi une voix dans le couloir peut passer pour un interlocuteur légitime, alors que le bruit du clavier, pourtant tout proche, est filtré.

Proximité contre ressemblance sonore

On pense souvent que le micro capte tout ce qui est proche et ignore le reste. Mais en pratique, c’est la ressemblance avec la voix humaine et la direction du son qui dictent le filtrage. C’est pourquoi des bruits lointains mais « crédibles » passent, alors que des sons proches sont éliminés.

Variations selon les micros et contextes

Tous les micros ne réagissent pas de la même façon. Les modèles simples (micro unique) captent tout sans tri. Les micros dits « à réseau spatial » — assemblages de plusieurs petits micros orientés différemment — peuvent localiser la voix et réduire les bruits venus d’ailleurs. Mais même ces systèmes sont faillibles : Shure (2020) montre que si le bruit parasite est parfaitement aligné avec la direction prioritaire, il sera transmis, peu importe sa distance ou sa nature.

Approfondir

L’Université d’Aix-la-Chapelle (2019) a analysé des réunions où des voix lointaines traversaient le filtrage parce qu’elles utilisaient un timbre ou un débit proche de celui des participants réels. Les systèmes sont donc parfois trompés, et l’utilisateur n’a aucun contrôle sur ce tri.

Les limites du tri automatique

Les ingénieurs audio débattent sur la meilleure manière de filtrer. Certains, comme ceux de Microsoft, misent sur l’intelligence artificielle pour reconnaître la voix, mais reconnaissent que ces algorithmes restent biaisés par leur entraînement : ils identifient mal les voix atypiques ou les bruits inédits. D’autres chercheurs suggèrent d’intégrer un contrôle manuel, mais cela complique l’expérience utilisateur. Personne ne s’accorde sur une solution universelle, car la définition d’un bruit gênant reste subjective.

Les micros de visioconférence trient les sons selon leur ressemblance avec la voix humaine et leur direction, pas simplement selon leur proximité.

Fin de lecture

À explorer maintenant

Mieux se comprendre

Pourquoi une opinion contestée devient plus tenace

Voir tous les sujets du jour

Filtrage spatial et spectral

Proximité contre ressemblance sonore

Variations selon les micros et contextes

Les limites du tri automatique

Partager cette réflexion