Una de las aspiraciones de la ciencia y la tecnología es desarrollar sistemas con las capacidades del más complejo organismo de la naturaleza: el formado por los 37 billones de células del cuerpo humano. En su conjunto, es inabarcable, pero sí se puede avanzar parcialmente. El Instituto de Microelectrónica en la capital andaluza (Imse), del Consejo Superior de Investigaciones Científicas (CSIC) y la Universidad de Sevilla, se ha centrado en el sistema que hace posible la visión. Las cámaras convencionales captan una imagen que, repetida entre 30 y hasta 100.000 veces por segundo, forman una secuencia. Pero el ojo y las conexiones con el cerebro permiten ir más allá y pueden focalizar y percibir cambios mínimos que permiten adaptarse para interpretar el entorno y actuar en consecuencia sin necesidad de almacenar toda la información. Es una capacidad que el Imse aplica ya en sensores dinámicos de visión (DVS por sus siglas en inglés) para cámaras por eventos que han adoptado empresas como Samsung y Sony.
Las cámaras convencionales se asemejan más a la pintura hiperrealista que a la visión. Captan la imagen de un encuadre y la reproducen. Sus principales avances han sido de resolución: incorporar más píxeles para ganar en definición y sortear los defectos posibles con procesamiento. “Pueden aportar una cantidad ingente de datos que necesitan una central y un montón de cableado para transmitirla. Pero alguien tiene que procesar”, explica Bernabé Linares, profesor de investigación del Imse.
“La retina biológica no toma imágenes. Toda la información va por el nervio óptico y el cerebro la procesa. En la cámara convencional, cada pixel es autónomo y, como mucho, se le hace interactuar con sus vecinos para ajustar la luminosidad. Pero una imagen digital a la salida de un túnel puede ser toda blanca o negra mientras que nosotros, salvo en condiciones muy extremas, podemos ver lo que hay dentro y fuera”, añade el investigador. Esta capacidad es fundamental, por ejemplo, para el desarrollo de los vehículos de conducción autónoma.
Esta característica de la visión humana se conoce como foveación, un mecanismo que permite maximizar la resolución en la zona donde se enfoca la vista mientras que mantiene una baja en las áreas de visión periférica. De esta forma, se reduce la cantidad de información generada por la retina, pero se mantiene la capacidad de reconocimiento visual para la toma de decisiones.
El Grupo de Sistemas Neuromórficos del Imse busca un ojo electrónico con esas y otras capacidades inspiradas en la biología, un sensor que permita resultados a gran velocidad, sin enormes consumos de potencia y que minimice la cantidad de datos necesarios para un procesamiento eficaz. Con estas premisas se ha desarrollado la cámara de eventos, que no trabaja con fotogramas, sino con flujos continuos de impulsos eléctricos (eventos o spikes) producidos por cada fotosensor (o píxel) de forma autónoma cuando detecta un cambio suficiente de luz.
“En estas cámaras”, precisa Linares, “la información de partida la aportan los contornos de los objetos. Pero no son imágenes: es un flujo dinámico de los píxeles (eventos) que van cambiando y la fase de procesado imita al cerebro, que también establece una jerarquía de capas”.
Aunque el germen de la nueva aproximación a las imágenes surgió en el Instituto de Tecnología de California (Caltech) en los noventa, su uso para imitar al ojo humano comenzó hace 20 años en Suiza con un proyecto europeo coordinado por el Imse y denominado CAVIAR. A partir de ahí comenzaron las patentes, las empresas surgidas de la investigación, los inversores y la adopción de los desarrollos por parte de empresas como Samsung y Sony para el desarrollo de procesadores de imagen. “El objetivo”, explica el investigador del Imse, “es desarrollar una fóvea [la región de la retina especializada en la visión fina de los detalles] electrónica”. Este dispositivo permite que, sin generar mucha información, identifique la zona de interés y que sea esta la que se procese en alta resolución.
Este dispositivo es fundamental para discriminar los datos relevantes para la conducción autónoma, agilizando el procesamiento y minimizando el consumo de recursos. “Si la cámara ve una señal o un peatón u otro vehículo, no tiene que analizar toda la imagen sino solo el nuevo elemento”, explica Linares.
Pero también tiene implicaciones extraordinarias en sensores de cualquier actividad, como vigilancia y seguimiento por imagen, al activarse solo cuando se produce una alteración relevante, o en diagnóstico por imagen, al señalar únicamente las áreas alteradas, o en navegación de drones. Una investigación encabezada por Bodo Rueckauer, de la universidad holandesa de Radboud, recurre a un sensor de visión dinámica (DVS), como el desarrollado por el Imse: “Este sensor sin fotogramas señala los cambios de intensidad de la luz en función de los píxeles y se caracteriza por un alto rango dinámico y una resolución temporal de microsegundos. Una inteligencia artificial entrenada para realizar el reconocimiento de gestos logra una precisión del 90% a través del DVS”.
Teresa Serrano, científica y directora del Imse, señala cómo la neurociencia puede recurrir a procesadores que interaccionen con los sistemas neuronales y sirvan para pacientes de epilepsia o párkinson.
La actual línea de investigación se agrupa en el proyecto Nimble AI, que pretende aprovechar los últimos avances en microelectrónica y tecnología de circuitos integrados para crear la detección y procesamiento neuromórfico con mayor seguridad y privacidad a un menor coste, consumo energético (hasta 100 veces menos) y latencia (50 veces más rápido en el tiempo de respuesta).
Una de las empresas surgidas del grupo de investigación ha sido Chronocam, que ahora se llama Prophesee. “Esencialmente, lo que estamos desarrollando es un nuevo enfoque para la detección de información, muy diferente a las cámaras convencionales que han existido durante muchos años”, afirma Luca Verre, director general de Prophesee.
“Nuestros sensores producen volúmenes de datos muy bajos. Por lo tanto, permiten tener un sistema de bajo consumo y costo razonable porque, simplemente, puede generar algunos datos de eventos con los que el procesador puede interactuar fácilmente y localmente. En lugar de alimentarlo con toneladas de fotogramas que los sobrecargan y dificultan su capacidad para procesar datos en tiempo real, la cámara de eventos permite hacerlo en tiempo real en una escena”, explica Verre.
Puedes seguir a MATERIA en Facebook, X e Instagram, o apuntarte aquí para recibir nuestra newsletter semanal.
Suscríbete para seguir leyendo
Lee sin límites
_