A group of researchers from Carnegie Mellon University participating in the Mind’s Eye program, sponsored by the DARPA Information Innovation Office, the Advanced Research Projects Agency of the U.S. Department of Defense, have created intelligent software that visually recognizes human activities in videos, and then predicts what might happen next.

blank

Researchers from Carnegie Mellon University participate in the Mind’s Eye program, sponsored by the U.S. Department of Defense, within which they have developed visual intelligence software capable of recognizing human activities in a video, and predicting what might happen next. Se trata de un ambicioso proyecto del que forman parte doce equipos de investigación, entre ellos la Universidad Carnegie Mellon, sponsored by the DARPA Information Innovation Office, agencia perteneciente al Departamento de Defensa de Estados Unidos responsable del desarrollo de nuevas tecnologías para uso militar.

Tal y como recoge la web Tendencias21.net, el objetivo no es otro que automatizar el trabajo de ver e interpretar vídeos, lo que ahorrará tiempo, mejorará el seguimiento y proporcionará nuevas herramientas para la investigación. In fact, se prevé emplear la tecnología del Mind’s Eye tanto en entornos civiles como militares, en aplicaciones que van desde la defensa a la robótica médica y de consumo. Pero reconocer y predecir la actividad humana en un vídeo no es tarea fácil. Como recoge el Centro Nacional de Ingeniería Robótica (NREC) de la Universidad Carnegie Mellon en un comunicado, no todo el mundo realiza la misma acción de la misma manera; diferentes acciones pueden parecer muy similares en una grabación, y vídeos de la misma acción pueden variar mucho en apariencia en función de la iluminación, la perspectiva, el fondo, los individuos que participan y mucho más.

For this reason, se necesita un sistema que se aproxime a la inteligencia visual humana, “capaz de filtrar y generalizar lo observado para tomar decisiones y actuar en base a la información adquirida y los conocimientos previos”, como afirman los investigadores en su artículo de presentación. Alessandro Oltramari y Christian Lebiere, both from the Department of Psychology at Carnegie Mellon University, presented the study last week at a security and defense conference at George Mason University.

Simulate human vision

So, after analyzing the basic characteristics of human intelligence, the researchers focused on simulating and approximating this faculty through a series of computer tools. First, they generated 3D models of basic human activities to link them to the person's movement in the video. In this way, the video movement is compared with the actions for which the algorithm has been trained to recognize (such as walking, jumping or standing) and identify (such as picking up and carrying).

El software examina esos patrones para deducir lo que está haciendo la persona. También hace predicciones sobre lo que va a suceder a continuación, enfocado sobre todo a actividades que pueden quedar ocultas o se producen fuera de cámara.

Este ha sido el trabajo desarrollado durante los 18 primeros meses del programa, incluyendo además la capacidad de describir fenómenos observados a través de simples mensajes de texto o alertar sobre comportamientos inusuales o anómalos. Un claro ejemplo de ello pueden ser las cámaras de un aeropuerto o estación de autobús marcando un bolso abandonado.

Esta investigación se basa en gran medida en los avances realizados por investigadores de visión artificial, that have achieved remarkable results in recent decades in the recognition of fixed and moving objects. It is the same line of work that Google followed with its self-driving cars, the facial recognition software used in Facebook and Picasa, or the consumer electronics employed in Microsoft's Kinect, which allows users to play and control their televisions solely through gestures and voice commands.

When it works well, computer vision is capable of detecting objects and people – what researchers call names- that are on the other side of the camera lens. But to understand what they are doing, or are allowed to do, the computational equivalent of verbs is needed. And that is where Oltramari and Lebiere have based themselves on the work of other Carnegie Mellon researchers to create what they call a “cognitive engine”, capable of understanding the rules by which nouns and verbs interact.

Their cognitive engine incorporates research carried out by a team led by postdoctoral student Kris Kitani, which tries to understand the action that a human will take by calculating which physical trajectories are most likely. Both projects are part of the Mind’s Eye program. The next step in the research is to make the 'cognitive engine' even smarter. According to the study, the authors “tienen previsto extender las funcionalidades del sistema para soportar una gama de verbos de acción más amplia y ejecutar pruebas con vídeos más complejos”.

Aplicaciones

Las cámaras tradicionales, que se limitan a grabar lo que ocurre, sólo pueden proporcionar información una vez ha ocurrido un crimen. Los investigadores pueden llegar a ver cómo se robó un coche o al empleado de una tienda, pero después de los hechos. El enfoque de Mind’s Eye busca todo lo contrario, pues pretende prevenir los delitos o actos peligrosos alertando antes de que sucedan. Su sistema automatizado podría tentar a los responsables de seguridad a reconsiderar algún día el control humano de las cámaras, ya que los operadores no sólo son caros de mantener, sino que presentan riesgos si se distraen o tienen somnolencia.

A la rentabilidad se suma la seguridad, evitando poner en peligro a soldados encargados de misiones de vigilancia en zonas de alto riesgo. Ese es uno de los principales objetivos por el que DARPA financia este proyecto. Según una información recogida en su web, “una verdadera cámara inteligente sería capaz de describir con palabras todo lo que ve y razonar acerca de lo que no puede ver”.

Estos dispositivos podrían ser instruidos para informar sólo sobre las actividades de interés, lo que aumentaría la relevancia de los datos de entrada. Therefore, las cámaras inteligentes podrían permitir que un único militar monitoreara múltiples puestos de observación desde un lugar seguro. In the same way, it could be applied to police work or to analyze live images from drones. And it could even have home security applications, alerting homeowners before burglars forced the door.

By, 2 Nov, 2012, Section: Computer security

Other articles about

¿Te gustó este artículo?

Subscribe to our NEWSLETTER and you won't miss anything.