Las caras de NVIDIA

Hay algo muy siniestro en estas imágenes. Y no es que me quiera poner tecnófobo pero a mí, el hecho de que estas caras no representen a nadie, que sean un retrato hiperrealista de… absolutamente nadie, me da un poco de repelús. El efecto del valle inquietante se me antoja muy fuerte en ellas. Resulta muy difícil hacerle creer a mi cerebro que esas personas no existen, y todo esto me hace plantearme si, en un futuro, nos será cómodo relacionarnos con inteligencias artificiales visualmente indistinguibles de un humano real. No sé, poniéndome muy sci-fi, pienso en estos rostros como los de los nuevos seres que vienen a sustituirnos… ¡Qué miedo!

Bobadas de nerd. Terminaremos por adaptarnos a ellas sin el más mínimo problema, igual que mi hija se ha adaptado muy bien (quizá demasiado) a que el móvil hable o a que seres animados obedezcan a sus dedos en una pantalla táctil. Somos una especie sumamente adaptable a nuevas realidades y relacionarnos con máquinas indistinguibles de humanos no supondrá nada diferente. Al igual que hoy en día no existe demasiado problema en no saber la tendencia sexual de alguien solo con verlo, podría llegar el momento en el que no pase nada por no saber si con quien hablas es una IA o un humano. A lo mejor llegamos a un futuro en el que se estipule el derecho de las IA a no tener que definir su verdadera naturaleza para no ser discriminadas ¿Quién sabe?

Volvamos a la realidad: ¿Cómo las han hecho? Los ingenieros de NVIDIA han utilizado las redes generativas adversarias (GAN) de Ian Goodfellow. Tenemos dos redes de-convolucionales (redes convolucionales invertidas), que juegan al ratón y al gato. Una genera rostros y la otra juzga la calidad de éstos, de modo que la primera intenta, a cada iteración, que la segunda no sea capaz de discernir si el rostro es real o no, mientras que la segunda es, a cada iteración, “mejor policía” identificando rostros falsos. Al final de esa competición tenemos rostros sumamente realistas que pasarían, como podemos ver, el Test de Turing de los rostros sin el mayor problema( Aquí nos explican muy bien cómo funcionan).

 

 

Somos excepcionalmente buenos reconociendo rostros. Igual que nuestra memoria para recordar los nombres de las personas que acabamos de conocer es muy mala, la de reconocer sus caras es excelente. Así, aunque no sepamos el nombre de alguien sí que solemos decir “su cara me suena”.

Durante mucho tiempo se pensó en la hipótesis de la célula de la abuela (también llamada neurona de Jennifer Aniston tras los estudios de Rodrigo Quiroga), sosteniendo que teníamos una neurona especializada en el reconocimiento de cada rostro que conocíamos. Tendríamos una neurona sólo para reconocer a Justin Bieber a Cristiano Ronaldo, a cada uno de nuestros amigos y, por supuesto, para nuestra abuelita. Pero la solución parecía poco elegante: ¿disponemos de un “almacén” de neuronas “vírgenes” a la espera de cada rostro que, potencialmente, pueda conocer en mi vida? Parece muy poco elegante aunque hay evidencia a favor (véanse los experimentos del equipo de Christof Koch, mentor de Quiroga), pero quizá se pueden ver las cosas de otra forma…

Los biólogos del Caltech Doris Tsao y Steven Le Chang establecieron un espacio de cincuenta dimensiones al que llamaron “espacio facial”. De esas cincuenta, destinaron la mitad a parámetros longitudinales de la cara (distancia entre los ojos, anchura de la nariz, etc.), y la otra a aspectos cualitativos (colores, texturas, etc.). Con ellos se pueden describir potencialmente cualquier nuevo rostro que uno pueda conocer. Por así decirlo, este espacio es una excelente “gramática generativa de rostros”. Para trabajar con un espacio así solo se necesita una red neuronal artificial de poco más de doscientas neuronas (concretamente 205)… y, ¡tachán, tachán! los resultados fueron bastante espectaculares.

 

Se monitorizó la actividad eléctrica de las áreas faciales de macacos mientras contemplaban imágenes de rostros y a partir de ella y con su “espacio facial”, el equipo de Tsao podía predecir el rostro que veía el mono con una gran precisión; incluso lo podía reconstruir hasta hacerlo indistinguible del original. Así, las neuronas no codificarían cada rostro, ni siquiera un rasgo concreto de cada rostro, sino solo un vector en ese espacio de cincuenta dimensiones. En la imagen vemos la enorme precisión de la predicción. Es, sin duda, un nuevo logro de la IA conexionista y, a nivel más general, de la teoría computacional de la mente. Aunque, poniéndonos en el peor de los casos, estuviésemos ante una caso de infradeterminación de teorías, es decir, que obtenemos los mismos resultados que la realidad utilizando un modelo erróneo, diferente al real, sería muy absurdo pensar que la realidad funciona de un modo radicalmente diferente a nuestro modelo. En el peor de los casos, por ahí deben ir los tiros. A día de hoy, negar que el cerebro procesa información va siendo cada vez más difícil.

Nota final: y si generar caras mediante IA parece fascinante, Microsoft ya tiene lista una herramienta que genera imágenes de cualquier tipo a partir de instrucciones de texto:

 

Etiquetas de este artículo
More from Santiago Sánchez-Migallón

Killing time

Sé que sólo viviré unos años. Sólo soy un humano y mi...
Leer más