Apple a publié mercredi trois nouveaux articles détaillant les techniques d'apprentissage approfondi utilisées pour la création des nouvelles voix synthétiques de Siri. Les articles couvrent également d'autres sujets d'apprentissage automatique qu'il partagera plus tard cette semaine lors de la conférence Interspeech 2017 à Stockholm, en Suède..
Les nouveaux articles suivants de l'équipe Siri sont maintenant disponibles:
- Deep Learning for Siri's Voice - explique comment les réseaux de densité de mélange profonds sur l'appareil sont utilisés pour la synthèse de sélection d'unité hybride
- Normalisation du texte inverse - abordée du point de vue de l'étiquetage
- Améliorer les modèles acoustiques des réseaux neuronaux en tirant parti de la bande passante croisée et de l'initialisation multilingue, si vous voyez ce que je veux dire
Si vous avez du mal à saisir les détails techniques ou même à comprendre la nature hautement technique du langage utilisé dans les derniers articles, vous n'êtes pas seul.
Je n'ai aucun problème à plonger profondément dans la documentation complexe d'Apple pour les développeurs et autres documentations spécialisées, mais je me sens carrément stupide en lisant ces explications détaillées.
Entre autres améliorations, iOS 11 offre plus d'intelligence et une nouvelle voix pour Siri.
L'assistant personnel d'Apple n'utilise plus de phrases et de mots enregistrés par des acteurs vocaux pour construire des phrases et ses réponses. Au lieu de cela, Siri sur iOS 11 (et d'autres plates-formes) adopte des voix masculines et féminines créées par programme. C'est une technique de synthèse vocale beaucoup plus difficile, mais elle permet des possibilités créatives vraiment cool.
Par exemple, les nouvelles voix Siri profitent de l'apprentissage automatique sur appareil et de l'intelligence artificielle pour ajuster l'intonation, la hauteur, l'accentuation et le tempo tout en parlant, en temps réel, en tenant compte du contexte de la conversation. L'article d'Apple intitulé «Deep Learning for Siri's Voice» détaille les différentes techniques d'apprentissage en profondeur derrière les améliorations de la voix Siri d'iOS 11.
Selon le paragraphe d'ouverture:
Siri est un assistant personnel qui communique en utilisant la synthèse vocale. À partir d'iOS 10 et en continuant avec les nouvelles fonctionnalités d'iOS 11, nous basons les voix de Siri sur l'apprentissage en profondeur. Les voix résultantes sont plus naturelles, plus douces et permettent à la personnalité de Siri de briller.
Les nouveaux articles ont été publiés sur le blog officiel Apple Machine Learning Journal, créé il y a quelques semaines pour couvrir les efforts de l'entreprise dans le domaine de l'apprentissage automatique, de l'intelligence artificielle et de la recherche connexe..
Apple a lancé le blog suite aux critiques selon lesquelles il ne pouvait pas embaucher les esprits les plus brillants en intelligence artificielle et en apprentissage automatique, car il ne les laisserait pas publier leurs travaux.
Le billet inaugural, intitulé «Améliorer le réalisme des images synthétiques», a été publié en juillet. L'article détaillé décrit une nouvelle méthode pour améliorer le réalisme des images synthétiques d'un simulateur en utilisant des données réelles sans étiquette tout en préservant les informations d'annotation.