La présentation de ViewFinder il y a 2 jours avait soulevé quelques commentaires et interrogations. Rafael Mizrahi, directeur de la technologie chez Feng-GUI et créateur de l'algorithme a gentiment accepté de répondre à mes questions.

Sébastien Billard : Bonjour Rafael, pourriez-vous vous présenter aux lecteurs ?

Rafael Mizrahi : Je travaille dans l'industrie informatique depuis plus de 16 ans. Jouant de la musique et faisant de la peinture, j'ai toujours eu une forte sensibilité pour l'harmonie. Ces deux aspects de ma personnalité m'ont naturellement conduit à l'étude des interfaces utilisateurs, une branche de la recherche informatique.

SB : Quand avez vous commencé à développer cet algorithme ?

RM : J'ai mené des recherches sur la composition dynamique et enseigné durant les 10 dernières années. Mais l'implémentation de ViewFinder à proprement parler n'a débuté qu'il y a 2 ans environ.

SB : Quelles recherches avez-vous utilisé pour mettre au point ViewFinder ?

RM : La question nous est souvent posée, c'est pourquoi nous allons ajouter plus d'informations sur le site à ce sujet. Mais si je devais résumer en un seul mot, je dirai : la saillance (NdT : c'est à dire la capacité d'un élément à ressortir prioritairement lors de la perception visuelle d'une scène, au point de prendre une importance cognitive particulière. Plus d'info dans ce Powerpoint).

L'algorithme ViewFinder crée une carte de saillance du site. Les cartes de saillance ont été développées durant les 25 dernières années par les laboratoires de recherche sur la vision numérique. L'algorithme a été développé puis comparé aux résultats expérimentaux de recherche sur les mouvements du regard, de façon à représenter fidèlement la façon dont les humains sont attirés par les visuels.

SB : Votre algorithme analyse-t-il seulement les contrastes, ou prend-il en compte d'autres stimuli ou comportements ?

RM : ViewFinder prend en compte les contrastes, mais aussi les couleurs, les mouvements, les textures, les flux ainsi que d'autres critères, dans le but de se comporter comme un oeil et un cerveau (modèle "bottom-up", de l'oeil vers le cerveau). Nous travaillons également à inclure dans l'algorithme des capacités de détection des textes et des visages, qui sont des éléments clés de l'attention chez les humains (modèle "top-down").

SB : Qu'entendez-vous exactement par "flux" ?

RM : Qu'il s'agisse de flux, de mouvements, de textures, tout cela se rapport aux motifs que l'on peut retrouver dans les images. Par exemple, prenez une voiture de petite taille (disons 2% de la surface de l'image) suivant une route à flanc de montagne. Les algorithme de détection du mouvement inclus dans ViewFinder peuvent identifier cette voiture, car elle brise la fluidité de la texture de la montagne.

SB : Et concernant le texte, parlez-vous d'analyser le sens des textes, ou seulement leur apparence ?

RM : La détection des textes (en fait leur localisation) ainsi que celle des visages sont utilisées pour déterminer les endroits affichant du texte et des visages. Il s'agit d'algorithmes de classification, qui localisent des motifs, mais n'essayent pas de les comparer à une base de données biométrique ou d'effectuer une reconnaissance de caractères. Il s'agit donc juste de savoir qu'il y a quelque chose d'intéressant à un endroit donné.

SB : Votre outil suggère souvent une attention visuelle portée aux bordures, alors que ces zones sont vides. S'agit-il d'un bug ? d'un artefact ?

Effectivement, un certain nombre de personnes nous l'ont fait remarquer, et nous pensons fournir des exemples et expliquer ces résultats. Ce n'est pas un bug. Bien souvent il s'agit de régions présentant un fort contraste avec la zone intérieure, et ces zones attirent votre attention, même si c'est de façon subliminale et qu'elles ne contiennent rien de significatif. Comme le souligne l'article Psychologie de la forme et symétrie dynamique, "le rythme est au temps ce que la symétrie est à l'espace".

SB : Votre outil n'analyse pas le sens, c'est-à-dire le signifié des éléments. Dans quelle mesure la teneur des textes ou des images affecte-t-elle l'attention visuelle ? L'attention visuelle dépend-elle de ce qui est représenté, ou dépend-elle uniquement de la façon dont les choses sont représentées ?

RM : L'attention peut aussi bien être réflexive, impulsive ("bottom-up") que cognitive, liée au contexte ("top-down"). Elle dépend à la fois du "comment" et du "quoi".

Prenez cette exemple : vous conduisez la nuit, sur une route circulaire. Sur cette route, une voiture est garée, avec ses clignotants allumés. Votre attention est attirée par ces lumière qui s'allument et s'éteignent, une fois ("bottom-up"). Vous continuez votre route, et commencez à ignorer ces lumières ("top-down") parce que vous savez que cette voiture n'aura plus d'influence sur vous. C'est juste une voiture en train de se garer.

SB : Quels sont les projets et développements futurs ?

RM : Notre société Feng-Gui a pour spécialité la perception des visuels, qu'il s'agisse d'attention ou d'attraction. Notre business model est de développer différentes applications de Viewfinder, pour ensuite les intégrer dans les produits d'entreprises leaders telles que Apple, Adobe, Google, Yahoo, etc.