1. Introducción
El ser humano es asimétrico, podemos tener un pie más grande que el otro o miembros con longitudes diferentes, en la mayoría de los casos imperceptibles al sentido de la visión [1-4]. Pero la asimetría en el rostro humano juega un papel fundamental en las actividades de la vida diaria del individuo, en estado de reposo al comparar el lado derecho con el izquierdo podemos observar cejas u ojos con dimensiones diferentes [enfermedades]. Si observamos con detalle, veríamos comisuras de ojos o boca con alturas diferentes entre comisuras equivalentes.
Algunas de estas asimetrías faciales son de origen natural, genética, por gesticulación o patologías [5-7].
Por otro lado, la literatura es vasta en el estudio de la antropometría facial, que va desde el uso de cintas métricas, vernier y el uso de tecnologías digitales para simetría facial en reposo, o para asimetrías faciales por patologías [8, 9]. Sin embargo, se da por obvio la cuantificación de lo normal, es decir, cual es el grado de simetría o asimetría del rostro en individuos sanos y mucho menos estudios para los movimientos propios del rostro, sin gesticular, sin pose y sin patología [10].
Los algoritmos de visión artificial permiten identificar y/o reconocer personas, objetos o características de eventos [11, 12]. En este trabajo implementamos el algoritmo de Viola-. Jones para identificar el rostro por cada cuadro en un video, así como los ojos, la nariz y la boca [13]. Implementamos filtros de procesamiento puntual y de vecindad [12, 14], para parametrizar el rostro en reposo e identificar los puntos de seguimiento, tales como son los máximos desplazamientos de las cejas y las comisuras de la boca en los respectivos movimientos.
Para determinar los valores de los desplazamientos máximos de los puntos de seguimiento de cada movimiento, dividimos el rostro proporcionalmente en tercios y quintos. Horizontalmente lo dividimos en tercios y verticalmente en quintos. Cada tercio y quinto del rostro es dividido en 10 partes, así la evaluación de los MD se realiza por segmentos (tercios, quintos, y/o tercios con quintos) de cada cuadro del video para cada movimiento. Para obtener el promedio de los máximos desplazamientos, se adquiere video de 12 voluntarios ejecutando 10 repeticiones de un mismo movimiento facial y para los cuatro movimientos.
Los desplazamientos máximos promedios son 30% para cejas dentro del primer tercio, 20% para sonrisa en el segundo y cuarto quinto dentro del tercer tercio, 30% para el beso entre el segundo, tercero y cuarto quinto del tercer tercio; y los 12 individuos logran cerrar los ojos y se desarrolla en el segundo y cuarto quinto dentro del segundo tercio.
2. Metodología
2.1. División del rostro humano por tercios y quintos
Los profesionales de la estética facial, así como los cirujanos plásticos, estiman las medidas del rostro, en reposo, mediante la división por tercios y quintos. La figura 1 esquematiza está técnica, que consiste en dividir proporcionalmente, el rostro humano en tres partes horizontales y cinco partes verticales. El primer tercio inicia en trichion hasta la glabela, el segundo tercio inicia donde termina el primer tercio hasta la columnela, el tercer tercio inicia donde termina el segundo tercio hasta la mitad de la sínfisis.
Los quintos se determinan por la distancia inter-comisuras (IC) de los ojos, tal como se muestra en la figura 1, entonces estas distancia determinan el segundo y cuarto quinto, mientras que el tercer quinto es determinado por la comisuras internas de cada ojo. Los quintos primero y quinto, quedan determinados por las comisuras externas de cada ojo y los bordes externos de los lóbulos auriculares correspondientes.
2.2. Identificación de los puntos de seguimiento
El movimiento de levantamiento de cejas se ejerce en el primer tercio, los puntos de seguimientos se encuentran en el segundo y cuarto quinto, como se muestran en la figura 2. El movimiento de la sonrisa y el beso se llevan a cabo en el tercer tercio, los puntos de seguimiento son las comisuras externas de la boca y éstas se encuentran en el 2 y 4 quinto, como se muestra en la figura 2. El movimiento de cerrar ojos se ejecuta en el segundo tercio, en este movimiento los puntos de seguimiento son las pupilas de cada ojo (observe figura 2).
2.3. Cuantificación de movimientos faciales
Grabamos un video para cada uno de los movimientos faciales con una cámara web, donde el voluntario y la cámara están alineados [15] Adquirimos 5 segundos de video en reposo, con el tiempo suficiente para ejecutar 10 repeticiones de cada movimiento (levantar cejas, cerrar ojos, sonreír y el beso).
La figura 3a muestra uno de los cuadros de los 5 segundos de reposo. Con el algoritmo de Viola-Jones registramos los ojos, la nariz y la boca, con esta información determinamos lo alto y lo ancho del rostro, de los ojos, la nariz y la boca, como se muestra en la figura 3b. Con estos valores determinamos los tercios y los quintos del rostro (ver figura 3c).
2.3.1. Determinación de los máximos desplazamientos de los puntos de seguimiento
Cuantificación del desplazamiento de levantar cejas
La cuantificación del movimiento de levantamiento de ceja, se lleva a cabo en el primer tercio por lo que en los cuadros de cada movimiento aplicamos el filtro de escala de grises, obtenemos su histograma de frecuencias de intensidad, aplicamos el algoritmo de Otsu para obtener el umbral optimo y convertimos la imagen a blanco y negro. Esta secuencia de filtros muestra la cavidad de los ojos con tonalidades en negro, calculamos el centro de los ojos a partir de las coordenadas del rostro en reposo, hacemos un barrido vertical hacia el trichion hasta que encontrar un pixel y sus ocho vecinos de color blanco, ésta representa el punto de máximo desplazamiento de las cejas. Esta zona la empatamos con las divisiones del primer tercio y obtenemos el máximo desplazamientos promedios para las repeticiones. En la figura 4 mostramos el primer tercio, así como las 10 subdivisiones.
Determinación de ojo cerrado
El cerrar y abrir ojos es un movimiento propio del rostro humano, desde el punto de vista computacional solo determinamos la ejecución de cerrar ojos. Del video de cerrar ojos a cada uno de los 10 cuadros, aplicamos el algoritmo de Otsu y el filtro de binarización. De las coordenadas de los ojos obtenidas del rostro de referencia, dividimos la cavidad de los ojos en una rejilla de 3 x 3 tal como se muestra en la figura 5. Hacemos un barrido por cada subregión para acumular el número de pixeles negros, si las regiones (f2,c1), (f2,c2) y (f2,c3) son diferentes de cero entonces los ojos están abiertos y en caso contrario si al menos una región del centro de la matriz es igual a cero entonces los ojos están cerrados, como se muestra en la figura 6.
Cuantificación del desplazamiento de los movimientos de la sonrisa y el beso
Del video de los movimientos de sonrisa y el beso, para cada cuadro aplicamos la conversión a escala de grises, al histograma de distribución de frecuencias le aplicamos el algoritmo de Otsu y de binarización. Con esto determinamos el centro de la región de la boca, a partir de las coordenadas del rostro en reposo hacemos un barrido de la posición del centro hacia las comisuras de la boca hasta encontrar un pixel y sus 8 vecinos de color blanco.
Este valor es el desplazamiento máximo de las comisuras para los movimientos de sonrisa y beso respectivamente. Empatamos este valor con las subdivisiones del tercer tercio obteniendo así el máximo desplazamientos (ver figura 6).
2.4. Máximos desplazamientos
Cuantificamos los 4 movimientos faciales a un grupo de 12 individuos, 6 hombres y 6 mujeres, de edades de 20 a 40 años de edad, con actividades que corresponden a la docencia o estudiantes de nivel superior. En la imagen 7 se muestran los resultados del procesamiento digital de los 4 movimientos para una persona.
En la tabla 1 muestra los resultados promedios de desplazamiento de los movimientos de levantar cejas, cerrar ojos, sonrisa y el beso para el grupo de 12 individuos. Mi y Hi representan a las 6 mujeres y 6 hombres voluntarios, respectivamente. Cada renglón representa el promedio de las 10 repeticiones de cada uno de los movimientos. En el caso de las comisuras de la boca, el renglón por debajo del promedio de las comisuras representa el quinto en donde se ejecuta el movimiento (sonrisa o beso). En el caso de los ojos 0 y 1 representan abierto y cerrado, respectivamente.
Mujeres | ||||||
---|---|---|---|---|---|---|
Levantar Cejas | ||||||
M1 | M2 | M3 | M4 | M5 | M6 | |
Ceja Der. | 2.9/10 | 3.0/10 | 3.2/10 | 3.3/10 | 3.5/10 | 3.2/10 |
Ceja Izq. | 3.0/10 | 3.2/10 | 3.0/10 | 3.1/10 | 3.4/10 | 3.2/10 |
Cerrar ojos | ||||||
Ojo Der. | 1 | 1 | 1 | 1 | 1 | 1 |
Ojo Izq. | 1 | 1 | 1 | 1 | 1 | 1 |
Sonrisa | ||||||
Comisura Der. | 4.1/10 2/5 |
3.9/10 2/5 |
4.3/10 2/5 |
4.5/10 2/5 |
4.0/10 2/5 |
4.2/10 2/5 |
Comisura Izq. | 5.2/10 4/5 |
5.5/10 4/5 |
5.5/10 4/5 |
5.6/10 4/5 |
5.4/10 4/5 |
5.7/10 4/5 |
Beso | ||||||
Comisura Der. | 9.7/10 2/5 |
9.8/10 2/5 |
9.7/10 2/5 |
9.9/10 2/5 |
10.0/10 2/5 |
9.8/10 2/5 |
Comisura Izq. | 1.2/10 4/5 |
1.1/10 4/5 |
1.3/10 4/5 |
1.2/10 4/5 |
1.4/10 4/5 |
1.5/10 4/5 |
Hombres | ||||||
Levantar Cejas | ||||||
H1 | H 2 | H3 | H 4 | H 5 | H6 | |
Ceja Der. | 2.8/10 | 2.9/10 | 3.2/10 | 3.1/10 | 3.4/10 | 3.2/10 |
Ceja Izq. | 3.0/10 | 3.2/10 | 3.0/10 | 3.1/10 | 3.4/10 | 3.2/10 |
Cerrar Ojos | ||||||
Ojo Der. | 1 | 1 | 1 | 1 | 1 | 1 |
Ojo Izq. | 1 | 1 | 1 | 1 | 1 | 1 |
Sonrisa | ||||||
Comisura Der. | 4.5/10 2/5 |
4.0/10 2/5 |
4.3/10 2/5 |
4.4/10 2/5 |
4.4/10 2/5 |
4.3/10 2/5 |
Comisura Izq. | 5.5/10 4/5 |
5.4/10 4/5 |
5.5/10 4/5 |
5.6/10 4/5 |
5.5/10 4/5 |
5.7/10 4/5 |
Beso | ||||||
Comisura Der. | 9.6/10 2/5 |
9.6/10 2/5 |
9.8/10 2/5 |
9.7/10 2/5 |
9.7/10 2/5 |
9.9/10 2/5 |
Comisura Izq. | 1.0/10 4/5 |
1.4/10 4/5 |
1.4/10 4/5 |
1.3/10 4/5 |
1.1/10 4/5 |
1.4/10 4/5 |
Para el movimiento de levantamiento de cejas determinamos que los máximos desplazamientos de los puntos de seguimiento se ejecutan, en promedio, en el 3/10 del primer tercio.
Para el movimiento de la sonrisa se ubican, en promedio, en el 2/10 del 2/5 y 8/10 del 4/5, del tercer tercio.
En el movimiento del beso se encuentran en el 9/10 del 2/5 y en el 2/10 del 4/5, del tercer tercio. El movimiento de cerrar ojos solo se determina si los ojos están cerrados o abiertos.
2.5. Comparación con dos metodologías para la identificación de expresiones del rostro en base a movimientos faciales
Para identificar y clasificar las expresiones faciales primero se identifican los puntos anatómicos del rostro y posteriormente se analizan los movimientos de estos, de acuerdo a cada movimiento o combinación de movimientos. Existen varias metodologías para dar seguimiento a los puntos anatómicos, pero dos son las más relevantes y utilizadas para la identificación de emociones.
La primera lleva por nombre Codificación Facial, esta consiste en identificar 34 puntos anatómicos del rostro, 2 por cada ceja, 3 por cada ojo (comisuras internas, externas y centro), 3 puntos en la nariz (centro y extremos), 8 puntos en la boca (2 comisuras, 3 para el labio superior y 3 para el labio inferior) y 13 puntos (tomados desde los lóbulos de las orejas y rodeando a la barbilla) [16].
Cabe destacar que esta identificación se realiza por medio de una plantilla que tiene un tamaño de 96x96 pixeles, es decir cada imagen se escala a esta medida y se implementa el algoritmo de histogramas por gradiente, y dividen la imagen en 3 x 3, se analiza cada región para identificar cada punto y posteriormente se hace uso de una base de datos de entrenamiento en donde tienen más de 15000000 de muestras, hacen una comparativa para identificar los movimientos de las comisuras y posteriormente se determina la expresión facial.
El segundo método lleva por nombre vectores de distancias para medición de intensidad de expresiones faciales, éste, consiste en identificar primero 83 puntos de referencia facial obtenidas de una base de datos (son todos los puntos que rodean a cabeza, ojos, nariz y boca) y posteriormente se identifican 11 puntos anatómicos 1 punto para la ceja izquierda, 4 puntos para el ojo derecho (comisuras externa, interna punto superior e inferior), 2 puntos de las orejas (lóbulos inferiores), 4 puntos para boca (Comisuras Izquierda, derecha, arriba y abajo) [17].
Posteriormente se colocan en un vector los desplazamientos que deben de tener estos puntos de acuerdo a un movimiento o conjunto de movimientos según sea una expresión (en este caso 6). Para reconstruir el rostro normalizan pares de los 83 puntos que describen al rostro, una vez realizada la reconstrucción en 3D y en base a los datos de clasificación se determinan si los movimientos de los 11 puntos pertenecen a una expresión.
Los resultados obtenidos por estos dos métodos indican si los movimientos de los puntos anatómicos del rostro están desplazados de acuerdo a patrones ya determinados y almacenados. Sin embargo no indican cuanto se están desplazando (unidades de medidas) los puntos anatómicos, no hace una cuantificación como tal, los algoritmo implementados utilizan muchos puntos por lo que el procesamiento y la generación de resultado es más tardado, además las búsquedas se hacen por comparación con otros rostros y no con la simetría del mismo rostro, estos algoritmos deben de hacer una conexión con servidores o computadoras para poder hacer la clasificación ya que los algoritmos de identificación y procesamiento digital de imágenes son muy pesados para hacer en dispositivos móviles.
La propuesta que nosotros damos es posible implementarla en dispositivos con poca capacidad ya que los algoritmos implementados no analizan toda la imagen solo zonas.
3. Conclusiones
Con Viola-Jones y Otsu identificamos y determinamos los puntos de seguimiento para la cuantificación de los máximos desplazamientos de movimientos faciales de individuos sanos.
El individuo tiene movimientos simétricos para las cejas, las comisuras de la boca y cerrar ojos.
Los desplazamientos máximos promedios son 30% para cejas dentro del primer tercio, 20% para sonrisa en el segundo y cuarto quinto dentro del tercer tercio, 30% para el beso entre el segundo, tercero y cuarto quinto del tercer tercio; y los 12 individuos logran cerrar los ojos y se desarrolla en el segundo y cuarto quinto dentro del segundo tercio.