创建了一个可以预测人类行为的视频监控系统

Un grupo de investigadores de la Universidad Carnegie Mellon que participan en el programa Mind’s Eye, patrocinado por la Oficina de Innovación Informática de DARPA, la Agencia de Investigación de Proyectos Avanzados del Departamento de Defensa de EE.UU., han creado un software inteligente que reconoce visualmente las actividades humanas en videos, y luego predice lo que podría suceder a continuación.

Investigadores de la Universidad Carnegie Mellon participan en el programa Mind’s Eye, patrocinado por el Departamento de Defensa de Estados Unidos, en cuyo marco han desarrollado un software de inteligencia visual capaz de reconocer actividades humanas en un video, y predecir lo que podría suceder a continuación. Se trata de un ambicioso proyecto del que forman parte doce equipos de investigación, entre ellos la Universidad Carnegie Mellon, patrocinado por la Oficina de Innovación Informática de DARPA, agencia perteneciente al Departamento de Defensa de Estados Unidos responsable del desarrollo de nuevas tecnologías para uso militar.

Tal y como recoge la web Tendencias21.net, el objetivo no es otro que automatizar el trabajo de ver e interpretar vídeos, lo que ahorrará tiempo, mejorará el seguimiento y proporcionará nuevas herramientas para la investigación. 实际上, se prevé emplear la tecnología del Mind’s Eye tanto en entornos civiles como militares, en aplicaciones que van desde la defensa a la robótica médica y de consumo. Pero reconocer y predecir la actividad humana en un vídeo no es tarea fácil. Como recoge el Centro Nacional de Ingeniería Robótica (NREC) de la Universidad Carnegie Mellon en un comunicado, no todo el mundo realiza la misma acción de la misma manera; diferentes acciones pueden parecer muy similares en una grabación, y vídeos de la misma acción pueden variar mucho en apariencia en función de la iluminación, la perspectiva, el fondo, los individuos que participan y mucho más.

为此原因, se necesita un sistema que se aproxime a la inteligencia visual humana, “capaz de filtrar y generalizar lo observado para tomar decisiones y actuar en base a la información adquirida y los conocimientos previos”, como afirman los investigadores en su artículo de presentación. Alessandro Oltramari y Christian Lebiere, ambos del Departamento de Psicología de la Universidad Carnegie Mellon, presentaron el estudio la semana pasada en una conferencia sobre seguridad y defensa en la Universidad George Mason.

Simular la visión humana

所以, tras analizar las características básicas de la inteligencia humana, los investigadores se centraron en simular y aproximarse a esta facultad mediante una serie de herramientas informáticas. En primer lugar generaron modelos 3D de actividades humanas básicas para unirlos al movimiento de la persona en el vídeo. De esta forma se compara el movimiento del vídeo con las acciones para las que se ha entrenado al algoritmo que reconozca (como caminar, saltar o permanecer de pie) e identifique (como recoger y llevar).

El software examina esos patrones para deducir lo que está haciendo la persona. También hace predicciones sobre lo que va a suceder a continuación, enfocado sobre todo a actividades que pueden quedar ocultas o se producen fuera de cámara.

Este ha sido el trabajo desarrollado durante los 18 primeros meses del programa, incluyendo además la capacidad de describir fenómenos observados a través de simples mensajes de texto o alertar sobre comportamientos inusuales o anómalos. Un claro ejemplo de ello pueden ser las cámaras de un aeropuerto o estación de autobús marcando un bolso abandonado.

Esta investigación se basa en gran medida en los avances realizados por investigadores de visión artificial, que han conseguido resultados notables en las últimas décadas en el reconocimiento de objetos fijos y en movimiento. Es la misma línea de trabajo que siguió Google con sus coches de auto-conducción, el software de reconocimiento facial utilizado en Facebook y Picasa, o la electrónica de consumo empleada en Kinect de Microsoft, que permite a los usuarios jugar y controlar sus televisores únicamente a través de gestos y órdenes de voz.

Cuando funciona bien, la visión artificial es capaz de detectar objetos y personas –lo que los investigadores llaman nombres- que están al otro lado de la lente de la cámara. Pero para entender lo que estos están haciendo, o se les permite hacer, se necesita el equivalente informático de los verbos. Y ahí es donde Oltramari y Lebiere se han basado en el trabajo de otros investigadores de Carnegie Mellon para crear lo que ellos llaman un “motor cognitivo”, capaz de entender las reglas por las que los sustantivos y los verbos interactúan.

Su motor cognitivo incorpora la investigación realizada por un equipo dirigido por el estudiante postdoctoral Kris Kitani, que trata de entender la acción que llevará a cabo un humano calculando qué trayectorias físicas son más probables. Ambos proyectos forman parte del programa Mind’s Eye. El siguiente paso en la investigación es hacer el “motor cognitivo” aún más inteligente. Según el estudio, los autores “tienen previsto extender las funcionalidades del sistema para soportar una gama de verbos de acción más amplia y ejecutar pruebas con vídeos más complejos”.

应用

Las cámaras tradicionales, que se limitan a grabar lo que ocurre, sólo pueden proporcionar información una vez ha ocurrido un crimen. Los investigadores pueden llegar a ver cómo se robó un coche o al empleado de una tienda, pero después de los hechos. El enfoque de Mind’s Eye busca todo lo contrario, pues pretende prevenir los delitos o actos peligrosos alertando antes de que sucedan. 他们的自动化系统可能会诱使安全负责人有一天重新考虑摄像头的人工控制, 因为操作员不仅成本高昂, 而且如果分心或困倦会存在风险.

除了盈利性之外，还有安全性, 避免让负责高风险区域监视任务的士兵处于危险之中. 这是 DARPA 资助该项目的主要目标之一. 根据其网站上的信息, ‘一台真正的智能摄像头将能够用语言描述它所看到的一切，并推理它看不到的事物’.

这些设备可以被指示只报告感兴趣的活动, 这将提高输入数据的相关性. 所以, 智能摄像头可能允许单个军人从一个安全地点监控多个观察哨. 同样可以应用于警察工作或实时分析无人机图像. 甚至可能有家庭安全的应用, 在小偷撬门之前提醒房主.

经过起草, 2 十一月, 2012, 部分: 计算机安全

其他文章有关卡内基梅隆大学

你喜欢这篇文章吗?

订阅我们的通讯你不会错过任何东西.