La capacité pour un robot équipé de plusieurs caméras à mesurer la distance qui le sépare des objets présents dans son champ visuel, leur profondeur donc, à partir des images qu’elles capturent, est essentielle pour guider ses interactions avec ceux-ci, que ce soit pour les saisir ou éviter les collisions. Qu’en est-il de son pendant biologique ?
Le stéréoscope, inventé par le physicien Charles Wheatstone en 1838, qui permet de présenter séparément aux deux yeux d’une personne des photos d’une même scène prises de points de vue légèrement différents, a démontré que cette personne a alors l’impression de voir « en relief » – c’est aussi le principe du cinéma 3D.
Les chercheurs développent depuis les origines de la vision artificielle des méthodes capables de reproduire sur un ordinateur équipé de deux caméras ce phénomène dit « de stéréoscopie binoculaire », puisqu’il met en jeu les deux yeux. Une phase d’appariement associe d’abord à chaque pixel de la première image le pixel de la seconde qui correspond au même point de la scène. On cherche pour cela à maximiser la similarité (ou corrélation) des couleurs mesurées dans de petites régions centrées sur les pixels candidats tout en prenant en compte les ambiguïtés inévitables : étant donné deux photos d’un mur de briques, lesquelles apparier puisqu’elles se ressemblent toutes. Des contraintes plus globales, comme la continuité de la profondeur entre pixels voisins, sont alors utilisées pour lever ces ambiguïtés.
Une seconde étape de triangulation permet alors de calculer la profondeur : le point 3D associé à deux pixels appariés est l’intersection des deux droites passant par chacun d’eux et la pupille de la caméra correspondante.
Le psychologue Béla Julesz s’est demandé dans les années 1960 si la perception biologique de la profondeur pouvait s’expliquer par des corrélations locales ou plutôt par des processus collaboratifs mettant en jeu les deux yeux à la fois. Pour répondre à cette question, il a inventé le stéréogramme à points aléatoires (ou SPA), qui permet de montrer à un sujet deux images contenant des points noirs disposés aléatoirement sur une surface blanche à l’aide d’un stéréoscope. Bien que l’aléa de la position de ces points rende toute interprétation monoculaire indépendante de chaque image impossible, la très grande majorité des sujets a de nouveau une impression de relief, et Julesz en déduit que la corrélation locale ne peut pas être le mécanisme fondamental expliquant la stéréoscopie binoculaire chez l’homme.