Les microphones MEMS facilitent la détection sonore et la reconnaissance de mots clés dans les conceptions à commande vocale

Par Majeed Ahmad

Avec la contribution de Rédacteurs nord-américains de DigiKey

Alors que les utilisateurs dépendent de plus en plus de la voix comme interface utilisateur, les concepteurs sont mis au défi d'implémenter les interfaces utilisateur vocales (VUI) les plus précises et les plus fiables avec la plus basse consommation et le meilleur temps de réponse qui soient, tout en respectant des contraintes d'espace plus strictes, des budgets plus serrés et des calendriers de conception de plus en plus courts. Pour aider les concepteurs à atteindre ces objectifs, de nombreux fournisseurs proposent maintenant des microphones à microsystèmes électromécaniques (MEMS) dotés de caractéristiques de performances permettant des fonctions fiables de détection du mot d'activation et de traitement des commandes vocales pour les interfaces VUI.

Les microphones MEMS (ou microphones silicium) sont déjà courants dans les smartphones, les montres connectées, les écouteurs sans fil, les voitures et les téléviseurs intelligents, ainsi que dans les télécommandes. Cela s'explique en grande partie par le succès des assistants personnels vocaux comme Alexa d'Amazon, l'Assistant Google et Siri d'Apple. Ces assistants guettent des commandes vocales spécifiques et les extraient des bruits de fond à l'aide d'algorithmes de détection du mot d'activation. Les concepteurs doivent donc implémenter cette fonction d'extraction rapidement et de manière rentable, tout en améliorant la fiabilité, la précision et la capture vocale en champ lointain malgré le bruit ambiant.

Cet article aborde les caractéristiques clés des microphones MEMS qui ont une incidence sur la conception d'une interface utilisateur vocale, notamment le rapport signal/bruit (SNR), la gamme dynamique, la sensibilité et le temps d'activation. Il présente ensuite des solutions matérielles et logicielles de TDK InvenSense, CUI Devices, STMicroelectronics et Vesper Technologies, ainsi que leur application dans des conceptions à commande vocale.

Fonctionnement des microphones MEMS

Les microphones MEMS incluent typiquement deux composants dans un boîtier simple : une membrane MEMS qui convertit les ondes sonores en signal électrique et un amplificateur qui fonctionne comme un convertisseur d'impédance pour fournir à la chaîne de signaux audio une sortie analogique exploitable. Un convertisseur analogique-numérique (CAN) peut aussi être intégré comme troisième composant sur la même puce si une sortie numérique est nécessaire.

Schéma de la construction de base d'un microphone MEMSFigure 1 : Construction de base d'un microphone MEMS montrant ses deux principaux éléments, un transducteur MEMS et une chaîne de traitement des signaux (dans l'ASIC). (Source de l'image : CUI Devices)

En plus de permettre la création de microphones miniatures avec des sorties analogiques ou numériques, la technologie MEMS offre également de bonnes performances en matière d'adaptation de phase et de dérive.

Caractéristiques clés des microphones MEMS

Pour les concepteurs de dispositifs à commande vocale, les paramètres clés à prendre en compte pour un microphone MEMS incluent les suivants :

  • Rapport signal/bruit (SNR) : il s'agit du rapport entre un niveau de signal de référence et le niveau de bruit du signal de sortie du microphone. Les mesures du rapport signal/bruit incluent le bruit issu de l'élément du microphone et des autres dispositifs (comme les circuits intégrés) incorporés dans le boîtier du microphone MEMS.
  • Sensibilité : valeur de la sortie analogique ou numérique en réponse à une onde sinusoïdale de 1 kilohertz (kHz) avec un niveau de pression acoustique (NPA) de 94 décibels (dB) ou 1 pascal (Pa), une mesure de la pression.
  • Tolérance de sensibilité : plage de sensibilité d'un microphone individuel donné. Une tolérance de sensibilité stricte garantit la cohérence en cas d'utilisation de plusieurs microphones.
  • Gamme dynamique : mesure de la différence entre les NPA maximum et minimum auxquels le microphone répond de manière linéaire.
  • Réponse en fréquence : plage audio sur laquelle un microphone peut fonctionner.
  • Temps d'activation : vitesse d'activation du microphone et de génération d'un signal valide en réponse à un événement déclencheur.

Les dispositifs à commande vocale comme les télécommandes, les téléviseurs et les haut-parleurs intelligents fonctionnent souvent avec beaucoup de bruits ambiants. En outre, l'utilisateur peut se trouver à proximité ou à une distance de 1 m à 10 m pour les opérations en champ lointain. Dans ces circonstances, la gamme dynamique, la sensibilité et le rapport signal/bruit d'un microphone sont importants. Dans les applications où plusieurs microphones sont utilisés au sein d'un ensemble, la tolérance de sensibilité devient primordiale.

Bien que chaque microphone puisse être spécifié pour avoir un certain niveau de sensibilité, des changements structurels minimes peuvent entraîner des variations. Cependant, étant donné que les microphones MEMS sont développés à l'aide de processus de fabrication de semi-conducteurs étroitement contrôlés, ils offrent les tolérances de sensibilité strictes nécessaires au traitement efficace des signaux d'un ensemble de microphones (Figure 2).

Schéma de microphones utilisés au sein d'un ensembleFigure 2 : Les microphones utilisés au sein d'un ensemble doivent être strictement adaptés pour atteindre les performances de traitement des signaux désirées. (Source de l'image : CUI Devices)

Cette tolérance stricte est primordiale dans le cadre de l'adoption croissante des ensembles de microphones dans les conceptions commandées par interface utilisateur vocale. Un ensemble de microphones utilise au moins deux microphones pour collecter des signaux. Le signal de chaque microphone est ensuite traité individuellement (amplifié, retardé ou filtré) avant la combinaison de tous les signaux pour former le signal final. Les ensembles de microphones peuvent utiliser plusieurs entrées pour créer une réponse directionnelle (formation de faisceau) afin de filtrer le bruit indésirable tout en ciblant le son provenant d'une direction voulue.

Le temps d'activation d'un microphone MEMS est également essentiel pour capturer des mots clés entiers et garantir leur précision. Pour économiser l'énergie, les dispositifs commandés par interface utilisateur vocale sont maintenus en état basse consommation, mais si le temps d'activation du microphone suite à un événement déclencheur est court, cela affecte le temps d'activation de l'interface utilisateur vocale et donc les performances de détection du mot d'activation, ainsi que la consommation énergétique.

Une fois qu'un microphone a été sélectionné en tenant compte de ces caractéristiques, des algorithmes de traitement vocal peuvent mieux extraire la voix de l'utilisateur malgré un bruit ambiant élevé ou une plus grande distance entre l'utilisateur et le micro, ou les deux.

Interfaces de microphones MEMS analogiques ou numériques

Comme évoqué dans la section sur le fonctionnement des microphones MEMS, leur sortie peut être analogique ou numérique. Les microphones MEMS analogiques utilisent un amplificateur interne pour générer le signal de sortie du microphone à un niveau raisonnablement élevé avec une faible impédance de sortie. Cela crée une interface directe vers le processeur audio. Pour les interfaces utilisateur vocales, le concepteur doit s'assurer que le processeur associé est doté d'un CAN intégré, ou il peut choisir un CAN répondant à ses exigences particulières. Ce dernier cas peut impliquer une complexité et un coût supplémentaires.

Dans le cas d'un microphone MEMS numérique, la sortie peut être appliquée directement à un circuit numérique, typiquement un microcontrôleur ou un processeur de signaux numériques (DSP). Les conceptions d'interfaces utilisateur vocales destinées aux environnements électriquement bruyants privilégient généralement les microphones numériques, car les signaux de sortie numériques ont une meilleure immunité au bruit que les signaux de sortie analogiques.

En outre, les microphones MEMS numériques utilisent fréquemment une modulation de densité d'impulsions (PDM) pour convertir la tension des signaux analogiques en un flux numérique à un seul bit contenant une densité correspondante de signaux élevés logiques. Cela renforce l'immunité aux perturbations radioélectriques (RFI) et aux interférences électromagnétiques (EMI). Cette fonctionnalité est particulièrement importante pour les grands ensembles de microphones et les grands systèmes comme les systèmes d'infodivertissement automobiles à commande vocale.

Pour ce qui est de la sensibilité, pour les microphones analogiques, elle est mesurée avec le niveau de pression acoustique en décibels référencés à 1 volt (dB/V). Pour les microphones numériques, elle est typiquement mesurée en décibels par rapport à la pleine échelle (dB FS).

Solutions de microphones MEMS pour interfaces utilisateur vocales

Le microphone MEMS analogique ICS-40740 de TDK InvenSense répond à de nombreuses exigences critiques en matière de performances des microphones pour les applications d'interfaces utilisateur vocales. Il inclut un élément de microphone MEMS, un convertisseur d'impédance et un amplificateur de sortie différentiel dans un boîtier à montage en surface compact de 4,00 mm x 3,00 mm x 1,20 mm. Il fonctionne à partir d'une alimentation de 1,5 V qui ne consomme que 165 microampères (µA) en fonctionnement (Figure 3).

Image du microphone MEMS analogique ICS-40740 d'InvenSenseFigure 3 : Le microphone MEMS analogique ICS-40740 convient à la taille et au budget énergétique des haut-parleurs intelligents et des dispositifs corporels comme les casques antibruit. (Source de l'image : TDK InvenSense)

Il présente un rapport signal/bruit de 70 dBA (décibels pondérés A) et une vaste gamme dynamique de 108,05 dB, ce qui permet de détecter des voix malgré un bruit ambiant élevé et en conditions en champ lointain. Il affiche également une réponse en fréquence de fonctionnement étendue de 80 hertz (Hz) à 20 kHz, une réponse linéaire de 132,5 dB et une tolérance de sensibilité de ±1 dB. Cette dernière caractéristique le rend particulièrement utile pour les ensembles de microphones.

Avec son empreinte compacte et sa basse consommation énergétique, l'ICS-40740 est adapté aux applications Internet des objets (IoT) basées sur des haut-parleurs intelligents et des dispositifs corporels comme les casques antibruit.

Le VM3000 de Vesper Technologies est un microphone MEMS piézoélectrique numérique omnidirectionnel à port inférieur qui présente un temps d'activation ultrarapide de moins de 200 microsecondes (µs), ce qui lui permet de s'activer assez rapidement pour capturer des mots d'activation complets (Figure 4).

Image du microphone MEMS numérique piézoélectrique VM3000 de VesperFigure 4 : Le microphone MEMS numérique piézoélectrique VM3000 présente un temps d'activation ultrarapide de moins de 200 µs, ce qui lui permet de s'activer assez rapidement pour capturer des mots d'activation complets. (Source de l'image : Vesper Technologies)

Dans un microphone MEMS piézoélectrique, lorsqu'une onde sonore atteint la console piézoélectrique, le mouvement qui en résulte crée une tension. Cette tension est détectée par un circuit comparateur très basse consommation, qui envoie un signal d'activation au système audio.

Étant donné que les microphones MEMS piézoélectriques n'ont pas besoin de tension de polarisation, le VM3000 ne consomme presque pas d'énergie jusqu'à son activation par une commande vocale. Il peut également rester en mode veille qui ne consomme que 0,35 µA et passer en mode de fonctionnement en moins de 100 µs. Le mode veille ultrabasse consommation, combiné à un changement de mode rapide, garantit également qu'aucune information n'est perdue lorsque le dispositif audio s'active.

Le microphone numérique VM3000 peut être appairé à pratiquement toutes les puces audio, et sa sortie permet le multiplexage de deux microphones sur une seule ligne de données. Il atteint un rapport signal/bruit typique de 63 dB à un signal de 1 kHz et offre un point de surcharge acoustique (AOP) de 122 dB SPL.

Le VM3000 est fourni en boîtier de 3,5 mm x 2,65 mm x 1,3 mm et permet de réduire la nomenclature grâce à son CAN intégré. De plus, le VM3000 utilise un quartz piézoélectrique à une seule couche, ce qui lui confère une immunité contre les dérives de sensibilité et le protège contre la poussière, l'eau, l'humidité et d'autres particules environnementales.

Les microphones MEMS piézoélectriques comme le VM3000 simplifient également la conception audio des ensembles en éliminant la nécessité d'utiliser un maillage ou une membrane de protection pour recouvrir plusieurs microphones. Cette membrane ou ce maillage, typiquement fixé au port acoustique comme élément de protection contre les contaminations environnementales, peut entraîner une baisse de la sensibilité du microphone MEMS.

Le VM3000 est également relativement simple à implémenter, car il peut se connecter directement à un CODEC ou un autre processeur (Figure 5). Le système maître (CODEC ou autre) fournit l'horloge maître (CLK), qui définit la vitesse de transmission des bits sur la ligne de données (DATA).

Schéma du VM3000 de Vesper pouvant se connecter directement à un processeur externeFigure 5 : Le VM3000 peut se connecter directement à un processeur externe et peut relier deux microphones à une seule et même ligne de données (DATA). (Source de l'image : Vesper Technologies)

Fait intéressant : deux microphones peuvent être connectés à une seule et même ligne de données (DATA). Cela est dû au fait que les données sont définies sur le front de montée ou de descente de l'horloge (CLK), défini par la broche L/R Select. Lorsque L/R Select = GND (en haut), les données sont définies sur le front de descente, et lorsque L/R Select = VDD (en bas), les données sont définies sur le front de montée. Le CODEC ou le processeur peut ensuite séparer les trains de bits en fonction de leur alignement par rapport aux fronts de l'horloge CLK.

Premiers pas : kits d'évaluation de microphones MEMS

Pour évaluer les paramètres clés et simplifier la conception des systèmes audio avec microphones MEMS, les fournisseurs proposent des cartes de référence et des kits de développement logiciel. Par exemple, Vesper propose la carte d'évaluation S-VM3000-C qui inclut un microphone MEMS numérique VM3000 et un condensateur de découplage d'alimentation de 0,1 microfarad (µF), ainsi qu'un connecteur de carte enfichable.

De même, pour ses capteurs MEMS analogiques ICS-40740, TDK InvenSense fournit la carte d'évaluation EV_ICS-40740-FX qui permet aux concepteurs d'analyser rapidement et efficacement les performances des microphones à sortie analogique différentielle. Outre le microphone MEMS, le seul autre composant inclus dans ce kit de développement est un condensateur de découplage d'alimentation de 0,1 µF.

CUI Devices, qui propose à la fois des microphones MEMS analogiques et numériques, fournit le kit de développement DEVKIT-MEMS-001 pour le prototypage et le test de conception (Figure 6). Cette carte d'évaluation inclut quatre circuits d'évaluation de microphone indépendants.

Image de la carte de développement DEVKIT-MEMS-001 de CUI DevicesFigure 6 : La carte DEVKIT-MEMS-001 inclut quatre circuits d'évaluation de microphone détachables : deux pour les sorties analogiques et deux pour les sorties numériques. (Source de l'image : CUI Devices)

La carte inclut deux microphones MEMS analogiques (le CMM-2718AB-38308-TR à port inférieur et le CMM-2718AT-42308-TR à port supérieur) ainsi que deux microphones MEMS numériques (le CMM-4030DB-26354-TR à port inférieur et le CMM-4030DT-26354-TR à port supérieur. Les options de ports audio inférieurs et supérieurs sont disponibles aussi bien pour les microphones à sortie analogique que pour ceux à sortie numérique, pour une plus grande flexibilité de conception.

En ce qui concerne les deux dispositifs analogiques, le CMM-2718AB-38308-TR présente une sensibilité de -38 dB et un rapport signal/bruit de 65 dBA. Le CM-2718AT-43208-TR présente une sensibilité de -42 dB et un rapport signal/bruit de 60 dBA. Ils ont tous les deux une plage de fréquences de 100 Hz à 10 kHz et consomment 80 µA à partir d'un rail d'alimentation de 2 V.

Quant aux deux microphones numériques, le CMM-4030DB-26354-TR présente une sensibilité de -26 dB FS et un rapport signal/bruit de 64 dBA. Le CMM-4030DT-26354-TR présente une sensibilité de -26 dB FS et un rapport signal/bruit de 65 dBA. Ils utilisent tous les deux un format de données PDM de 1 bit, fonctionnent sur une plage de fréquences de 100 Hz à 10 kHz et consomment 0,54 milliampère (mA) à partir d'une alimentation de 2 V.

Conclusion

Un examen plus approfondi des microphones MEMS, tant analogiques que numériques, démontre leurs avantages en termes de performances niveau système et ce qu'ils apportent aux conceptions d'interfaces vocales toujours actives. Les derniers microphones MEMS utilisent des technologies innovantes pour étendre leur autonomie, améliorer la qualité audio en champ lointain et résister aux contaminants environnementaux. L'amélioration de la précision des mots clés constitue un autre facteur de conception majeur, qui est étroitement lié aux paramètres comme le rapport signal/bruit, la tolérance de sensibilité et le temps d'activation. Tous ces paramètres sont pris en compte dans les nouveaux dispositifs, pour une meilleure adaptation aux conceptions d'interfaces utilisateur vocales.

DigiKey logo

Avertissement : les opinions, convictions et points de vue exprimés par les divers auteurs et/ou participants au forum sur ce site Web ne reflètent pas nécessairement ceux de DigiKey ni les politiques officielles de la société.

À propos de l'auteur

Image of Majeed Ahmad

Majeed Ahmad

Majeed Ahmad est ingénieur électronicien et affiche plus de 20 ans d'expérience en médias technologiques B2B. Il est l'ancien rédacteur en chef d'EE Times Asia, une publication d'EE Times.

Majeed a écrit six livres sur l'électronique. Il contribue aussi fréquemment à des publications de conception électronique, notamment All About Circuits, Electronic Products et Embedded Computing Design.

À propos de l'éditeur

Rédacteurs nord-américains de DigiKey