Guía para principiantes sobre el cálculo de la altura del sospechoso en CCTV

Fernando Ferro
18 ago 2020
10 Min. de lectura

Traducción del inglés desde el Blog Amped, Procesamiento forense de imagen y video

https://blog.ampedsoftware.com/2017/08/17/the-beginners-guide-to-suspect-height-calculation-from-cctv/

También conocida como ‘The Science of Single View Metrology’

La primera pregunta y más común que se le hace a un analista de video forense es: "¿Puede decirme cuál es esa placa?". La segunda pregunta es: “¿Cuál es la altura de esa persona?”.

Es responsabilidad del analista de video forense analizar el video, evaluar su idoneidad para responder la pregunta, procesar y preparar las imágenes y, finalmente, utilizar la ciencia para proporcionar la respuesta, basada en hechos.

Hay distintos métodos para intentar una respuesta a esta pregunta sobre la altura, con diferentes restricciones, confiabilidad e inconvenientes. En esta publicación, analizaré en profundidad la técnica incorporada en Amped FIVE, utilizando el filtro Medir 3D.

Analizar

Es común dividir esta parte en 3 componentes: Exhibición, Datos, Visual.

El análisis de la exhibición examinará la continuidad del video o la imagen(es) que va a examinar. Si hay elementos graves y desconocidos en esta sección que causan brechas en la integridad de la muetra, ¿vale la pena continuar o debería aclarar algunos problemas primero?

El análisis de datos se ocupa de los metadatos. Es vital examinar esta información para comprender la composición del video. Esto asegura una interpretación correcta de los datos visuales más adelante. También puede hacer referencia a esto durante las siguientes etapas cuando sea necesario.

Análisis de contenedores, flujos, fotogramas y GOP

Luego, el análisis visual pone todo junto. En mi video de prueba usado aquí, el análisis de datos reveló signos de entrelazado y esto se confirma visualmente. Esto será importante ya que los dos campos son dos momentos diferentes en el tiempo. ¡No debemos simplemente quitar uno de ellos! Tampoco mezclarlos a los dos juntos. Ambos deben separarse y analizarse individualmente.

También puedo ver otros problemas que deben considerarse:

Hay una distorsión visual en los bordes rectos causada por la lente de la cámara. ¿Afectará esto el análisis de altura más adelante? Para poder realizar un análisis de altura, necesito identificar bordes rectos. Así que la respuesta es sí: ¡estos bordes curvos deberán enderezarse!
Tengo un tamaño de fotograma de 720 x 576, pero mi análisis de datos reveló una relación de aspecto de pantalla de 4: 3 calculada a partir de la relación de aspecto de muestra de 16:15 de cada fotograma. ¿Necesito ajustar esto? Bueno, para responder a esa pregunta, debemos considerar cómo se generó la imagen y luego intentar revertir los problemas encontrados. Veremos mejor esto cuando se trate de procesar las imágenes.
¿Necesito corregir la rotación de la imagen para que las líneas verticales sean realmente verticales? Quizás, aunque no afectará a los cálculos. Es algo a tener en cuenta cuando las cámaras se colocan en un ángulo agudo, pero en realidad solo ayuda a la presentación de la pantalla.

Evaluar

Ahora debemos identificar la idoneidad de la imagen para la tarea haciendo una serie de preguntas:

¿Tengo al menos 2 líneas paralelas en 3 direcciones diferentes en el espacio?
¿Qué tan largas son estas líneas?
¿Puedo identificarlas con precisión?
¿Puedo confiar en que en realidad son paralelos en el mundo real, pero parecen convergentes debido al efecto de perspectiva?

Antes de pasar a otras consideraciones, miremos estas 'líneas' por un momento y entendamos por qué son importantes.

Debemos ser capaces de poner algo de "perspectiva" en la imagen bidimensional. Esta, obviamente, era una escena tridimensional, por lo que debemos poder identificar la perspectiva de la escena.

Hacemos esto usando los puntos de fuga de dos líneas paralelas para identificar parámetros clave.

Muy a menudo, estos puntos de fuga pueden estar a cierta distancia de la imagen original y adoptar un enfoque manual para identificar y calcular nuestras líneas puede llevar mucho tiempo.

En esta imagen de ejemplo, he usado las baldosas del piso para mostrar los planos X e Y (azul y verde), luego los bordes del horno para el plano Z vertical (naranja). El punto en el que se cruzan las líneas es el punto de fuga.

Sin estas líneas, o sin la capacidad de colocar objetos adecuados en una escena, no podríamos calcular medidas desconocidas utilizando solo las imágenes.

Ahora que hemos reconocido la presencia de líneas adecuadas, hagamos algunas preguntas más:

¿Tengo (o se puede obtener) una medida de altura conocida dentro de la imagen para que sirva de referencia?
¿Es plano el suelo?
¿El sujeto que quiero medir se apoya en el mismo plano que el objeto utilizado como referencia?
¿Son las imágenes del sospechoso de suficiente calidad?
El problema más común aquí es que el sospechoso solo está parcialmente a la vista , es decir, ¡no veo sus piernas o sus pies! Podría haber otros problemas, como que el sospechoso se agache o se mueva. La calidad de la imagen también puede ser un factor con la posición de la cámara, alta compresión digital, anomalías o desenfoque de movimiento que causan dificultades en la imagen. Algunos de estos pueden ser reparables, pero otros pueden hacer que las imágenes no sean adecuadas.

Lista de verificación de evaluación:

Líneas paralelas planas X, Y y Z
Medida de referencia conocida en el plano vertical
Terreno plano
Sospechoso completamente visible
Calidad suficiente

Procesar

Esta es la etapa donde seleccionamos y preparamos nuestras imágenes para el análisis de altura. Después de comprender con qué estamos comenzando y de tener una evaluación exitosa de la idoneidad para el análisis de altura, tenemos algo de trabajo por hacer antes de comenzar a calcular las medidas.

Lo primero que debemos hacer es desentrelazar las imágenes correctamente.

Imágenes entrelazadas

Todavía es muy común lidiar con los efectos del entrelazado. Muy a menudo, no se trata de un fotograma grabado con entrelazado completo, sino de un solo campo. 704 x 288 (PAL) o 204 x 240 (NTSC) es una de las dimensiones de píxeles más comunes y se crea mediante la retención de un solo campo. (Vea una publicación reciente aquí, discutiendo exactamente esto).

El desentrelazado requiere alguna forma de interpolación, la inserción de un valor intermedio, estimado o calculado a partir de valores conocidos circundantes.

Cuando se desentrelaza y se coloca a la altura correcta, a continuación se muestra cómo se vería la imagen, si no agregamos datos.

No faltan líneas. Los datos vacíos son otro momento en el tiempo. Un marco entrelazado son dos momentos en el tiempo, vistos juntos.
Comprender lo que tenemos, lo que estamos viendo y por qué es de vital importancia a la hora de decidir cómo procesar las imágenes para la tarea requerida.

Pero, ¿cómo vamos a desentrelazar? ¿Qué método de interpolación vamos a utilizar?

Para responder a esto, debemos considerar todos nuestros requisitos de transformación de imágenes como un todo, en lugar de procesos individuales. Si elegimos un tipo para un proceso y luego otro tipo para el siguiente, la primera opción se cancelaría.

Después de desentrelazar los campos en cuadros individuales, ahora necesito seleccionar las imágenes que sean más adecuadas para la tarea.

Usando el selector disperso , he elegido las 5 imágenes en las que el cuerpo sospechoso está vertical y puedo ver la parte superior, hasta el calzado.

Cuando realizamos nuestro análisis visual y de datos, nos enteramos de que había un problema de relación de aspecto y un problema de distorsión de la lente.

Debemos corregirlos para asegurarnos de que la imagen que estamos viendo sea una representación verdadera y precisa de la escena. El orden en que se corrigen también es importante, ya que se relaciona con cómo se creó la imagen. Los cambios en la relación de aspecto, desde la escena original hasta los datos grabados, ocurren en la etapa de almacenamiento. Como resultado, esto debe corregirse primero.

El análisis de datos reveló que la relación de aspecto de pantalla (DAR) correcta era 4: 3.

En lugar de reescribir MUCHO sobre este tema, eche un vistazo a estas publicaciones:

Introducción a la relación de aspecto

Usando el filtro

Como puede ver, hay mucho que tener en cuenta. La única forma de saber realmente qué método de ajuste de AR se requiere sería realizar la prueba de esfera en la escena.

Ahora he ajustado mi relación de aspecto a 4: 3, lo que da como resultado una imagen de 768 x 576 píxeles. Para este propósito, nuevamente me he visto obligado a usar un método de interpolación para agregar valores.

Ahora debemos corregir la distorsión de la lente.

También he girado la imagen después para corregir el ligero giro de la cámara.

Son dos filtros más, ambos necesarios para realizar correcciones de imagen.

Como recordatorio, realizamos:

1. Desentrelazar

2. Relación de aspecto

3. Anular distorsión

4. Girar

Todos estos requieren interpolación, y debemos asegurarnos de utilizar el mismo método.

¿Cómo decidimos cuál es el adecuado para estas imágenes, para esos instantes de tiempo, de ese sistema específico?

¡Haciendo pruebas!

Hay muchas razones por las que me encanta usar Amped FIVE, pero probar y analizar imágenes usando diferentes parámetros es bastante importante en mi lista de razones favoritas.

No toma mucho tiempo duplicar mi cadena inicial, guardar el proyecto como algo nuevo y luego realizar una evaluación de diferentes métodos de interpolación.

Debido a los cambios en las líneas rectas y a la interpolación desigual requerida, era evidente que más cercano no sería el adecuado.

Bicúbico, aunque parece producir bordes más oscuros, también produjo algunas anomalías alrededor de los pies y la capucha. Como estos eran importantes para marcar los puntos de inicio y final en la altura, utilicé la interpolación bilineal durante cada filtro de transformación.

En ocasiones, cuando las imágenes iniciales y procesadas tienen el mismo tamaño, el filtro Mezclador se puede utilizar junto con Suma de diferencia absoluta, para dar un valor a las diferencias entre las imágenes.

Obviamente, cuanto menor sea el valor, más cerca estará la imagen del original.

La última pieza del rompecabezas de procesamiento de imágenes es un ajuste de niveles. Ya había aumentado mis valores visibles al máximo durante la etapa inicial del cargador de video, pero ahora necesito obtener la mayor cantidad de información posible sin saturar demasiado o insuficientemente.

He utilizado el filtro 'Agregar cuadrícula' para ayudar en mi proceso de rotación

Ahora tenemos varias imágenes procesadas todas de la misma manera, en una sola cadena. Ahora es el momento de realizar una medición diferente en cada imagen.

Calcular

Usando Medir 3d podemos agregar nuestras líneas planas. Estas son las líneas paralelas que se utilizarán para calcular la perspectiva de la imagen.

Cuanto más largas sean las líneas, más preciso será el cálculo final.

También verá que he agregado mi medida de referencia de altura conocida. El piso, hasta la parte superior del marco de la puerta blanca, era de 200 cm.

Es un proceso simple el de seguir las pestañas.

Agregue el eje X, el Y, luego agregue el Z.

Como probablemente pueda ver ahora, si no he procesado correctamente mis imágenes antes de realizar las mediciones, mi imagen no se ajustaría a la realidad. Por lo tanto, cualquier resultado sería incorrecto.

Cuando se aplica la medición de referencia, se presenta un cálculo automático de la posición de la cámara .

No solo podemos ver la altura de la cámara como una cifra calculada, podemos visualizar esto en la imagen habilitando la capa Horizonte.

En la imagen anterior, mientras agrega la medida de referencia, puede ver el horizonte como una línea en la parte superior de la imagen.

La etapa final es medir a nuestro sospechoso.

Al mirar a las personas desde un lado, es posible dibujar una cruz imaginaria debajo de su cuerpo. Esto ayuda a identificar la línea central a través del cuerpo.

En Amped FIVE, simplemente use la pestaña Líneas Auxiliares dentro del filtro Medir 3D para dibujar sus líneas.

En las imágenes que tenemos aquí, esto, lamentablemente, no es posible. He tenido que usar la posición de los pies durante los pasos para identificar el inicio de mi línea vertical.

¡El otro punto es la capucha en la sudadera! Exactamente dónde está la parte superior de la cabeza debajo de la capucha, es una variable desconocida.

Puedo visualizar la estructura del bloque en la codificación. Como este tipo de codificación usa predicción, habrá otra variable desconocida aquí. Es decir, ¿dónde termina la sudadera en realidad?

Por último, calzado. La calidad de la imagen no permite la identificación del calzado por lo que también es una variable desconocida.

Independientemente de estas variables desconocidas, solo puedo usar la información que tengo frente a mí y, por lo tanto, he seleccionado la parte superior de la sudadera con capucha en cada imagen.

Amped FIVE calculará automáticamente una tasa de error en función de la cantidad de píxeles en un área seleccionada en relación con su posición con la perspectiva. Cuanto mayor sea el área y menos píxeles, mayor será la tasa de error. Por lo tanto, mi respuesta a la pregunta de la altura será un rango, que se basará en esta tasa de error y en todo el rango de imágenes seleccionadas. Este rango tendrá en cuenta todas las variables desconocidas.

Después de colocar mi línea de medición, tengo el cálculo de la altura de mi primera imagen. Ahora es el momento de hacer lo mismo con las demás imágenes seleccionadas.

Sería genial si tuviera otro ángulo de cámara, o tal vez incluso imágenes de otro sistema. Cuantas más medidas mejor.

En Amped FIVE, hay varias formas diferentes de realizar mediciones individuales en diferentes fotogramas. La que usaré aquí es mi método preferido, ya que conserva la cadena de procesos completa para cada imagen final y evita la creación de datos intermedios.

Comencé con 5 imágenes, así que duplicaré mi cadena 4 veces. (Recuerde: puede usar Arrastrar / Soltar o Copiar / Pegar desde el menú de opciones del botón derecho).

Para facilitarme las cosas, cambiaré el nombre de mis cadenas con el número de cuadro que usaré para la medición. Esos números de fotogramas se conservaron del video original, por lo que facilita la repetibilidad al ayudar a otras personas a identificar dónde estaban esas imágenes dentro del metraje original.

He copiado todas las cadenas, incluido el filtro Medir 3d . Para ajustar esto para la siguiente imagen, es un proceso simple de presionar el botón Restablecer en la medida y colocar su nueva línea para esa imagen.

Debe recordar utilizar la misma metodología para seleccionar su punto de inicio y finalización para cada imagen.

Después de hacer esto en cada imagen en cada cadena, presiono la tecla de marcador (U). En 5 minutos tengo mis 5 imágenes, ¡todo es fácil en Amped FIVE!

Cada cálculo tendrá un error un rango de salida.

Toda la información relevante de cada imagen utilizada se puede cargar en una hoja de cálculo.

Después de todo esto, volvamos ahora a la pregunta inicial: “¿Cuál es la altura de esa persona? "

Según el análisis de video forense y las mediciones posteriores del sujeto de interés, he identificado un rango de altura de entre 175,78 cm y 180,40 cm.

Con más pruebas, podríamos haber hecho un análisis estadístico más riguroso del error, pero este ya es un buen comienzo.

Utilizando la ciencia de la metrología de vista única , hemos podido responder la pregunta muy rápidamente, pero ¿es correcta?

¡La persona en esa imagen soy yo! Y mido 178 cm.

Ahora, antes de que sugieras que sabía mi estatura de antemano y, como tal, estaba teñida de prejuicios inconscientes, ¡pensé que mi estatura era de 181 cm! Completé las tres primeras mediciones y pensé que algo andaba mal. Luego terminé las otras dos medidas y luego tuve ayuda para asegurarme de mi altura. Después de quitarme los zapatos y comprobar mi altura, se reveló que mi análisis era correcto: ¡yo era el que estaba equivocado!

Esta ha sido una publicación de blog inusualmente larga, pero he tenido la intención de escribir durante mucho tiempo. Para mí, destaca que realizar las mediciones es solo una pequeña parte de la historia. Preparar las imágenes correctamente es de vital importancia ya que esto puede alterar drásticamente los valores calculados.

Por último, tiene la capacidad de hacer todo dentro de una sola pieza de software. Cualquier cosa que se me asigne, ya sea video para presentación, preparación de mis imágenes para análisis, comprensión de mi evidencia, realización de técnicas de procesamiento para restaurar o mejorar, o calcular mediciones de objetivos desconocidos.

Esta entrada fue publicada en FIVE, Tutoriales , por David Spreadborough.

Guía para principiantes sobre el cálculo de la altura del sospechoso en CCTV

Analizar

Evaluar

Procesar

Calcular

Entradas recientes

Comments