Los deepfakes son vídeos creados o modificados gracias a un tipo de Inteligencia Artificial (IA) llamado aprendizaje profundo (deep learning) hasta conseguir que parezcan reales. Esta tecnología permite generar imágenes falsas desde cero o modificar audios para crear lo que se conoce como ‘clones de voz’, con los que parece que figuras públicas pronuncien declaraciones que en realidad nunca han dicho.
¿Cómo se generan?
Investigadores universitarios y especialistas en efectos especiales están llegando cada vez más lejos en el campo de la manipulación de vídeo e imágenes. Una de las mejoras más importantes ha sido el face swaping o intercambio de caras. En primer lugar, se procesan miles de fotogramas de la cara de dos personas a través de un algoritmo de IA llamado codificador (encoder). El encoder aísla y aprende las similitudes entre ambas y las reduce a sus características comunes compartidas, comprimiendo esas imágenes. Un segundo algoritmo de AI, llamado decodificador (decoder), recupera las caras a partir de las imágenes comprimidas. Para realizar el intercambio los editores sólo tienen que introducir las imágenes codificadas en el decodificador contrario, así el resultado es un que los rasgos de una cara aparecen en la otra.
Existe un segundo método llamado Red Generativa Antagónica, o GAN. Una GAN enfrenta dos algoritmos de IA: el primero -generador- se alimenta de ruido aleatorio y lo convierte en una imagen. Esta imagen sintética se añade a un flujo de imágenes reales -de un famoso, por ejemplo- que se alimentan en el segundo algoritmo, conocido como discriminador. Al principio, las imágenes sintéticas no se parecerán en nada a las caras, pero si el proceso se repite muchas veces (con retroalimentación sobre el rendimiento) tanto el discriminador como el generador mejoran. Si se realizan suficientes ciclos de ensayo y error, ese generador comenzará a producir rostros totalmente realistas en situaciones inexistentes.
Para qué sirven
Según la empresa de inteligencia artificial Deeptrace el 96% de los deepfakes detectados en la Red eran pornográficos y el 99% de ellos mostraban rostros de famosas.
Sin embargo se teme que puedan ser utilizados cada vez más en estafas y en campañas de desinformación. El pasado mes de marzo, el jefe de la filial británica de una empresa energética alemana transfirió casi 220.000 euros a una cuenta bancaria húngara después de que un estafador le llamase con una imitación de la voz del director general, que se sospecha elaboró con un clon de voz. Se ha informado de que estafas similares han utilizado mensajes de voz grabados de WhatsApp.
Qué tecnología es necesaria
Es difícil lograr un buen deepfake con un ordenador estándar. La mayoría se crean en equipos de gama alta con potentes tarjetas gráficas o con potencia de computación en la nube. Eso reduce el tiempo de procesamiento de días y semanas a sólo horas para conseguir resultados sofisticados. Aunque también se necesita experiencia, sobre todo para retocar los vídeos terminados y reducir el parpadeo y otros defectos visuales. Dicho esto, cada vez hay más herramientas disponibles para ayudar a la gente a hacer deepfakes.
¿Cómo se desenmascara un deepfake?
Las falsificaciones de baja calidad son fáciles de detectar. La sincronización de los labios suele ser mala o el tono de la piel irregular. Los detalles más precisos, como el movimiento del cabello, son particularmente difíciles de reproducir. Joyas o dientes mal reproducidos también pueden ser una señal, al igual que los efectos de luz extraños, como la iluminación inconsistente y los reflejos en el iris.
Por otro lado, los gobiernos, las universidades y las empresas tecnológicas están financiando la investigación para detectar los deepfakes más sofisticados. El mes pasado se lanzó el primer Deepfake Detection Challenge, respaldado por Microsoft, Facebook y Amazon. Además, Facebook acaba de prohibir los deepfakes que puedan inducir a los espectadores a pensar que alguien “diga palabras que en realidad no ha dicho”, de cara a la próxima elección presidencial de EEUU en 2020.