Apple a gardé secrète sa recherche sur la conduite autonome pendant des années, mais la société a maintenant rendu public certaines de ses techniques de logiciel de conduite autonome qui améliorent la détection d'obstacles.
Publié le 17 novembre sur le référentiel scientifique préimprimé modéré arXiv par les experts en intelligence artificielle et en apprentissage automatique d'Apple Yin Zhou et Oncel Tuzel, le document décrit la détection de petits obstacles à l'aide de la méthode de détection de détection de lumière et de télémétrie (LiDAR).
Plutôt que de s'appuyer sur des représentations d'objets fabriquées à la main (par exemple, une projection à vol d'oiseau), les scientifiques d'Apple proposent une nouvelle architecture profonde formable de bout en bout pour la détection 3D basée sur le nuage de points. Appelé VoxelNet, il peut fonctionner directement sur des points 3D clairsemés et capturer efficacement les informations de forme 3D.
Les premières expérimentations de la technologie VoxelNet ont montré qu'elle surpassait largement les méthodes de détection 3D basées sur LiDAR à la pointe de la technologie. Sur des tâches plus difficiles, telles que la détection 3D de piétons et de cyclistes, l'approche VoxelNet a démontré des résultats encourageants, montrant qu'elle fournit une meilleure représentation et détection 3D.
Les cases 3D vertes indiquent les obstacles potentiels détectés à l'aide de LiDAR
La capacité de détecter avec précision des objets dans des nuages de points 3D est cruciale pour éviter les obstacles.
Extrait du journal:
VoxelNet divise un nuage de points en voxels 3D également espacés et transforme un groupe de points au sein de chaque voxel en une représentation d'entités unifiée via la nouvelle couche VFE (encodage d'entités voxel). De cette façon, le nuage de points est codé comme une représentation volumétrique descriptive, qui est ensuite connectée à un RPN pour générer des détections.
Les expériences sur le benchmark de détection de voitures KITTI montrent que VoxelNet surpasse largement les méthodes de détection 3D basées sur LiDAR à la pointe de la technologie. De plus, notre réseau apprend une représentation discriminante efficace des objets avec différentes géométries, conduisant à des résultats encourageants dans la détection 3D des piétons et des cyclistes, basée uniquement sur LiDAR.
L'architecture VoxelNet, illustrée en haut de l'article, dispose d'un réseau d'apprentissage qui prend un nuage de points brut en entrée, puis partitionne l'espace en voxels et transforme les points de chaque voxel en une représentation vectorielle caractérisant les informations de forme.
C'est formidable qu'Apple commence à s'ouvrir en ce qui concerne sa recherche sur la conduite autonome, qui viserait le marché de l'accueil et le service de navette interne de l'entreprise sur le campus.
Le fabricant d'iPhone a apparemment fait un gros investissement dans la conduite autonome et a «un grand projet en cours» dans cet espace, selon le PDG Tim Cook.