Pourquoi les micros de visioconférences captent parfois mieux les bruits lointains

En pleine réunion Zoom, on entend la voix d’un voisin dans le couloir, mais pas les frappes de clavier juste à côté du micro. Cette inversion surprend souvent : on croit que la distance fait tout, mais le micro décide selon d’autres règles.

Basé sur recherche scientifique (Microsoft Research, article sur Windows Voice Capture (, Shure Incorporated, Livre blanc ‘Microphone Array Technology Explained’ (, Université d'Aix-la-Chapelle, étude sur la captation des bruits en conférence ()

Beaucoup d’utilisateurs ont remarqué que, lors d’une visioconférence, certains bruits proches — comme un souffle ou des doigts sur le clavier — disparaissent complètement, alors qu’un aboiement lointain ou une voix provenant du couloir s’entend distinctement. Ce phénomène intrigue et donne parfois l’impression que la technologie fait des choix arbitraires.

En réalité, ce fonctionnement éclaire la manière dont les micros modernes trient les sons : non pas en fonction de leur proximité, mais selon leur ressemblance avec une voix humaine et leur direction. Ce tri automatique, conçu pour rendre la conversation la plus claire possible, ne tient pas compte de l’importance subjective de chaque bruit pour l’utilisateur. D’où le sentiment que certains sons « prioritaires » sont effacés, et d’autres amplifiés par erreur.

Filtrage spatial et spectral

Les micros de visioconférence utilisent des algorithmes qui analysent en temps réel la signature sonore et la direction des bruits. Ils cherchent à isoler la voix humaine, en s’appuyant sur la forme des ondes (le spectre) et la provenance du son dans l’espace. Quand un bruit lointain (voix, aboiement, klaxon) présente un profil proche de celui d’une voix, ou arrive dans la même direction que la personne qui parle, l’algorithme peut le laisser passer ou même l’amplifier.

À l’inverse, les bruits répétitifs et courts (frappes de clavier, souffles, frottements) sont souvent considérés comme du « bruit de fond » et coupés, même s’ils sont très proches du micro. D’où cette impression que le micro « choisit ».

Approfondir

Microsoft Research (2022) a montré que même les réseaux neuronaux les plus avancés, censés distinguer voix et bruit, échouent lorsque la signature spectrale d’un son parasite ressemble trop à celle d’une voix. Cela explique pourquoi une voix dans le couloir peut passer pour un interlocuteur légitime, alors que le bruit du clavier, pourtant tout proche, est filtré.

Proximité contre ressemblance sonore

On pense souvent que le micro capte tout ce qui est proche et ignore le reste. Mais en pratique, c’est la ressemblance avec la voix humaine et la direction du son qui dictent le filtrage. C’est pourquoi des bruits lointains mais « crédibles » passent, alors que des sons proches sont éliminés.

Variations selon les micros et contextes

Tous les micros ne réagissent pas de la même façon. Les modèles simples (micro unique) captent tout sans tri. Les micros dits « à réseau spatial » — assemblages de plusieurs petits micros orientés différemment — peuvent localiser la voix et réduire les bruits venus d’ailleurs. Mais même ces systèmes sont faillibles : Shure (2020) montre que si le bruit parasite est parfaitement aligné avec la direction prioritaire, il sera transmis, peu importe sa distance ou sa nature.

Approfondir

L’Université d’Aix-la-Chapelle (2019) a analysé des réunions où des voix lointaines traversaient le filtrage parce qu’elles utilisaient un timbre ou un débit proche de celui des participants réels. Les systèmes sont donc parfois trompés, et l’utilisateur n’a aucun contrôle sur ce tri.

Les limites du tri automatique

Les ingénieurs audio débattent sur la meilleure manière de filtrer. Certains, comme ceux de Microsoft, misent sur l’intelligence artificielle pour reconnaître la voix, mais reconnaissent que ces algorithmes restent biaisés par leur entraînement : ils identifient mal les voix atypiques ou les bruits inédits. D’autres chercheurs suggèrent d’intégrer un contrôle manuel, mais cela complique l’expérience utilisateur. Personne ne s’accorde sur une solution universelle, car la définition d’un bruit gênant reste subjective.

Les micros de visioconférence trient les sons selon leur ressemblance avec la voix humaine et leur direction, pas simplement selon leur proximité.

Pour aller plus loin

  • Microsoft Research, article sur Windows Voice Capture (2022) — Présente les techniques d’intelligence artificielle utilisées pour distinguer voix et bruits, avec exemples d’échecs typiques. (haute)
  • Shure Incorporated, Livre blanc ‘Microphone Array Technology Explained’ (2020) — Explique le fonctionnement des réseaux de micros spatiaux et leurs faiblesses face à certains bruits alignés. (haute)
  • Université d'Aix-la-Chapelle (RWTH), étude sur la captation des bruits en conférence (2019) — Montre des cas concrets où des bruits lointains passent le filtrage en raison de leur signature vocale. (haute)
Fin de lecture

À explorer maintenant

Mieux se comprendre

Pourquoi la simple présence d’autrui peut épuiser

Pour lire le prochain article en entier

Créer un compte gratuit

Partager cette réflexion