Un groupe de chercheurs de l'Université Carnegie Mellon participe au programme Mind's Eye, parrainé par le Bureau de l'Innovation Informatique de DARPA, l'Agence de Recherche sur les Projets Avancés du Département de la Défense des États-Unis, ont créé un logiciel intelligent qui reconnaît visuellement les activités humaines dans les vidéos, et prédit ensuite ce qui pourrait se passer ensuite.

blank

Des chercheurs de l'Université Carnegie Mellon participent au programme Mind's Eye, parrainé par le Département de la Défense des États-Unis, dans le cadre duquel ils ont développé un logiciel d'intelligence visuelle capable de reconnaître les activités humaines dans une vidéo, et prédire ce qui pourrait se passer ensuite. Il s'agit d'un projet ambitieux auquel participent douze équipes de recherche, parmi elles l'Université Carnegie Mellon, parrainé par le Bureau de l'Innovation Informatique de DARPA, une agence appartenant au Département de la Défense des États-Unis responsable du développement de nouvelles technologies à usage militaire.

Comme le rapporte le site Tendencias21.net, l'objectif n'est rien d'autre que d'automatiser le travail de vision et d'interprétation des vidéos, ce qui fera gagner du temps, améliorera le suivi et fournira de nouveaux outils pour la recherche. En fait, il est prévu d'utiliser la technologie du Mind's Eye dans des environnements civils aussi bien que militaires, dans des applications allant de la défense à la robotique médicale et de consommation. Pero reconocer y predecir la actividad humana en un vídeo no es tarea fácil. Como recoge el Centro Nacional de Ingeniería Robótica (NREC) de la Universidad Carnegie Mellon en un comunicado, no todo el mundo realiza la misma acción de la misma manera; diferentes acciones pueden parecer muy similares en una grabación, y vídeos de la misma acción pueden variar mucho en apariencia en función de la iluminación, la perspectiva, el fondo, los individuos que participan y mucho más.

Pour cette raison, se necesita un sistema que se aproxime a la inteligencia visual humana, “capaz de filtrar y generalizar lo observado para tomar decisiones y actuar en base a la información adquirida y los conocimientos previos”, como afirman los investigadores en su artículo de presentación. Alessandro Oltramari y Christian Lebiere, ambos del Departamento de Psicología de la Universidad Carnegie Mellon, presentaron el estudio la semana pasada en una conferencia sobre seguridad y defensa en la Universidad George Mason.

Simular la visión humana

Donc, tras analizar las características básicas de la inteligencia humana, los investigadores se centraron en simular y aproximarse a esta facultad mediante una serie de herramientas informáticas. En primer lugar generaron modelos 3D de actividades humanas básicas para unirlos al movimiento de la persona en el vídeo. De esta forma se compara el movimiento del vídeo con las acciones para las que se ha entrenado al algoritmo que reconozca (como caminar, saltar o permanecer de pie) e identifique (como recoger y llevar).

El software examina esos patrones para deducir lo que está haciendo la persona. También hace predicciones sobre lo que va a suceder a continuación, enfocado sobre todo a actividades que pueden quedar ocultas o se producen fuera de cámara.

Este ha sido el trabajo desarrollado durante los 18 primeros meses del programa, incluyendo además la capacidad de describir fenómenos observados a través de simples mensajes de texto o alertar sobre comportamientos inusuales o anómalos. Un claro ejemplo de ello pueden ser las cámaras de un aeropuerto o estación de autobús marcando un bolso abandonado.

Esta investigación se basa en gran medida en los avances realizados por investigadores de visión artificial, que han conseguido resultados notables en las últimas décadas en el reconocimiento de objetos fijos y en movimiento. Es la misma línea de trabajo que siguió Google con sus coches de auto-conducción, el software de reconocimiento facial utilizado en Facebook y Picasa, o la electrónica de consumo empleada en Kinect de Microsoft, que permite a los usuarios jugar y controlar sus televisores únicamente a través de gestos y órdenes de voz.

Cuando funciona bien, la visión artificial es capaz de detectar objetos y personas –lo que los investigadores llaman nombres- que están al otro lado de la lente de la cámara. Pero para entender lo que estos están haciendo, o se les permite hacer, se necesita el equivalente informático de los verbos. Y ahí es donde Oltramari y Lebiere se han basado en el trabajo de otros investigadores de Carnegie Mellon para crear lo que ellos llaman unmotor cognitivo”, capaz de entender las reglas por las que los sustantivos y los verbos interactúan.

Su motor cognitivo incorpora la investigación realizada por un equipo dirigido por el estudiante postdoctoral Kris Kitani, que trata de entender la acción que llevará a cabo un humano calculando qué trayectorias físicas son más probables. Ambos proyectos forman parte del programa Mind’s Eye. La prochaine étape de la recherche est de rendre le 'moteur cognitif' encore plus intelligent. Selon l'étude, les auteurs “prévoyent d'étendre les fonctionnalités du système pour prendre en charge une plus large gamme de verbes d'action et réaliser des tests avec des vidéos plus complexes”.

Applications

Les caméras traditionnelles, qui se contentent d'enregistrer ce qui se passe, ne peuvent fournir des informations qu'une fois le crime commis. Les chercheurs peuvent voir comment une voiture a été volée ou l'employé d'un magasin, mais seulement après les faits. L'approche de Mind’s Eye vise tout le contraire, car elle entend prévenir les délits ou actes dangereux en alertant avant qu'ils ne se produisent. Su sistema automatizado podría tentar a los responsables de seguridad a reconsiderar algún día el control humano de las cámaras, ya que los operadores no sólo son caros de mantener, sino que presentan riesgos si se distraen o tienen somnolencia.

A la rentabilidad se suma la seguridad, evitando poner en peligro a soldados encargados de misiones de vigilancia en zonas de alto riesgo. Ese es uno de los principales objetivos por el que DARPA financia este proyecto. Según una información recogida en su web, “una verdadera cámara inteligente sería capaz de describir con palabras todo lo que ve y razonar acerca de lo que no puede ver”.

Estos dispositivos podrían ser instruidos para informar sólo sobre las actividades de interés, ce qui augmenterait la pertinence des données d'entrée. Par conséquent, les caméras intelligentes pourraient permettre à un seul militaire de surveiller plusieurs postes d'observation depuis un endroit sûr. De la même manière, cela pourrait s'appliquer au travail de la police ou pour analyser en direct des images de drones. Et cela pourrait même avoir des applications de sécurité à domicile, en alertant les propriétaires d'une maison avant que les cambrioleurs ne forcent la porte.

Par, 2 Nov, 2012, Section: Sécurité informatique

D'autres articles sur

Avez-vous aimé cet article?

Abonnez-vous à notre NEWSLETTER et tu ne manqueras de rien.