Dans un nouvel article publié lundi sur son blog Machine Learning Journal, Apple détaille comment HomePod, son haut-parleur intelligent sans fil, utilise l'apprentissage automatique pour augmenter la précision du champ lointain, ce qui aide Siri à ignorer ou à supprimer les bruits de fond pour mieux comprendre votre discours demandes dans des environnements bruyants.
De l'article:
L'environnement audio typique de HomePod présente de nombreux défis: écho, réverbération et bruit. Contrairement à Siri sur iPhone, qui fonctionne près de la bouche de l'utilisateur, Siri sur HomePod doit bien fonctionner dans un cadre lointain. Les utilisateurs veulent invoquer Siri depuis de nombreux endroits, comme le canapé ou la cuisine, sans tenir compte de la position de HomePod.
Un système en ligne complet, qui répond à tous les problèmes environnementaux que HomePod peut rencontrer, nécessite une intégration étroite de diverses technologies de traitement du signal multicanal. En conséquence, les équipes Audio Software Engineering et Siri Speech ont construit un système qui intègre à la fois des modèles d'apprentissage profond supervisé et des algorithmes d'apprentissage en ligne non supervisés et qui exploite plusieurs signaux de microphone..
Le système sélectionne le flux audio optimal pour la reconnaissance vocale en utilisant la connaissance descendante des détecteurs de phrases de déclenchement «Hey Siri».
Le reste de l'article traite de l'utilisation des différentes techniques d'apprentissage automatique pour le traitement du signal en ligne, ainsi que des défis rencontrés par Apple et de leurs solutions pour atteindre la robustesse environnementale et algorithmique tout en garantissant l'efficacité énergétique..
Pour faire court, Siri sur HomePod implémente l'algorithme d'annulation d'écho multicanal (MCEC) qui utilise un ensemble de filtres adaptatifs linéaires pour modéliser les multiples chemins acoustiques entre les haut-parleurs et les microphones pour annuler le couplage acoustique..
En raison de la proximité des haut-parleurs avec les microphones du HomePod, le signal de lecture peut être considérablement plus fort que la commande vocale d'un utilisateur aux positions du microphone, en particulier lorsque l'utilisateur s'éloigne de l'appareil. En fait, les signaux d'écho peuvent être 30 à 40 dB plus forts que les signaux vocaux en champ lointain, ce qui rend la phrase de déclenchement indétectable sur les microphones pendant la lecture de musique forte.
TLDR: MCEC seul ne peut pas supprimer complètement le signal de lecture de votre commande vocale.
Commande Siri enregistrée en présence de musique de lecture forte: signal de microphone (en haut), sortie de MCEC (au milieu) et signal amélioré par la suppression d'écho basée sur un masque d'Apple (en bas)
Pour supprimer le contenu de lecture restant après le MCEC, HomePod utilise une approche de suppression d'écho résiduel (RES) avec un peu d'aide du modèle d'apprentissage automatique d'Apple. Pour une détection de phrase de déclenchement réussie, le RES fait des choses comme atténuer l'écho linéaire résiduel, en particulier en présence de changements de double parole et d'écho.
Assurez-vous de lire l'article complet et faites défiler jusqu'à la section 7, où vous avez des images de plusieurs formes d'onde colorées ainsi que des liens en dessous d'eux vous permettant d'entendre par vous-même à quel point la demande d'un utilisateur est supprimée par la musique jouée à haut volume et la signal de lecture généré par les tweeters et le woofer de HomePod.
Tidbit: le traitement du signal multicanal d'Apple fonctionne sur un cœur du silicium A8 bicœur à 1,4 GHz et consomme jusqu'à 15% des performances monocœur de la puce.
HomePod utilise l'apprentissage automatique pour beaucoup de choses, pas seulement Siri.
Les algorithmes de recommandation de contenu qui s'exécutent sur l'appareil bénéficient de l'apprentissage automatique, tout comme les techniques de traitement audio numérique et d'optimisation du son de HomePod.