Detección de objetos en videos en 4K y 8K a través de GPUs

Investigadores de la Universidad Carnegie Mellon han desarrollado un nuevo modelo que permite la detección rápida y precisa (en resoluciones 4K y 8K de video), usando para esto GPUs. El método de detección usa dos etapas, que permiten evaluar cada cuadro del video haciendo reconocimiento en baja y muy alta resolución, lo que hace que se limite el número necesario de evaluaciones.

En los últimos años, el aprendizaje de las máquinas ha logrado resultados sorprendentemente buenos, en muchos casos en las tareas que tienen que ver con la visión por computadora. Sin embargo, la mayoría de los modelos de reconocimiento de objetos se desempeñan mejor con imágenes con relativa baja resolución. Pero es claro que cada vez las cámaras de video permiten más y más resolución, por lo que es evidente la necesidad de una nueva herramienta que pueda procesar estos datos en alta resolución.

“Estábamos interesados en hallar y sobrepasar las limitaciones de los enfoques actuales“, comenta Vít Růžička, uno de los investigadores del proyecto. “Y aunque tenemos grabados datos en alta resolución, los mecanismos de detección de objetos como YOLO, Faster RCNN y SSD entre otros, trabajan con imágenes que bien pueden considerarse de baja resolución, por ejemplo, 608 x 608 pixeles. Nuestro principal objetivo era escalara la detección de objetos a videos en 4K-8K (7680 x 4320 pixeles, manteniendo la velocidad tan alta como nos fuera posible en el proceso. Queríamos también entender si se tendrían ventajas de usar un modelo de alta resolución comparado con los métodos actuales en baja resolución, en términos de precisión de los modelos”, dice el investigador.

Las ideas propuestas por Vít Růžička y su colega Franz Franchetti, dividen la tarea de detectar los objetos en dos etapas. En ambas, los investigadores subdividen la imagen original sobreponiendo una malla regular y aplicando el procedimiento YOLO v2 para una detección rápida de los objetos.

Hay un paso de “atención” a la imagen, la cual -cuando es procesada- bajo una resolución pobre, permite a los investigadores decidir qué regiones de la imagen deberían activarse para hacer un análisis más fino. “Creamos muchas regiones pequeñas rectangulares, las cuales se pueden procesar con YOLO v2 en muchos servidores de trabajo de forma paralela”, indica Růžička. “La primera etapa ve la imagen en baja resolución, desempeñando la tarea de la detección de objetos, lo que da una medida burda de los bordes de cada objeto. La segunda etapa usa estos bordes para hacer un mapa que decide donde necesitamos verificar el proceso pero ya en lata resolución. Por ende, cuando algunas áreas de la imagen no contienen ningún objeto de interés, podemos ahorrar tiempo de procesamiento en alta resolución”, dice el investigador.

https://www.youtube.com/watch?v=AbvjWY6tMyg

Los investigadores implementaron sus modelos en código, distribuyendo el trabajo en los diversos GPUs que tenían disponibles. Pudieron mantener la alta precisión mientras alcanzaban un desempeño promedio de 3 a 6 fps (frames per second – cuadros por segundo), en videos de 4K y dos fps en videos de 8K. Es claro que el problema real es que las imágenes de 4K y 8K requieren de mandar muchos bytes para generarlas imágenes de video con la suficiente velocidad y que se vea la transición que le haga creer al ojo que hay movimiento.

El método de los investigadores tuvo ciertos beneficios significativos, por ejemplo en la precisión, la cual prácticamente se duplicó, incluso comparándolo con los valores obtenidos con YOLO v2 en baja resolución. “Nuestro método de reduce el tiempo necesario para procesar las imágenes de alta resolución por aproximadamente un 20%, comparando con el proceso de toda las partes de la imagen original bajo la alta resolución”, comentó Růžička y agregó: “las implicaciones prácticas de esto es que es posible hacer procesamiento de video casi en tiempo real a 4K. Y bien podemos decir que nuestro método requiere de un número de servidores para hacer esta tarea”.

El método empleado es una mejora considerable a lo que antes se había hecho, pero no es estrictamente un trabajo original considerando que los investigadores usan esquemas como YOLO v2. No obstante, los beneficios de esta tecnología probablemente empiecen a verse cada vez más cercanos en la medida que la mercadotecnia empuja las televisiones 4K y 8K para que las compren los consumidores en un corto plazo.