Speech2Face es una red neuronal avanzada desarrollada por científicos del MIT y entrenada para reconocer ciertos rasgos faciales y reconstruir los rostros de las personas con sólo escuchar el sonido de sus voces.
Probablemente ya hayas oído hablar de las cámaras dotadas de IA que pueden reconocer a las personas sólo analizando sus rasgos faciales, pero ¿qué pasaría si hubiera una forma de que la inteligencia artificial averiguara cómo eres sólo por el sonido de tu voz y sin comparar tu voz con una base de datos? Eso es exactamente en lo que ha estado trabajando un equipo de científicos del MIT, y los resultados de su trabajo son impresionantes, más o menos. Aunque su red neuronal, llamada Speech2Face, todavía no puede averiguar los rasgos faciales exactos de un ser humano sólo por su voz, sí que acierta en muchos detalles.
«Nuestro modelo está diseñado para revelar las correlaciones estadísticas que existen entre los rasgos faciales y las voces de los hablantes en los datos de entrenamiento», dicen los creadores de Speech2Face. «Los datos de entrenamiento que utilizamos son una colección de vídeos educativos de YouTube, y no representan por igual a toda la población mundial. Por tanto, el modelo -como ocurre con cualquier modelo de aprendizaje automático- se ve afectado por esta distribución desigual de los datos.»
Se puede saber mucho de una persona sólo por su forma de hablar. Por ejemplo, lo más probable es que puedas saber si alguien es hombre o mujer, o si es joven o mayor, pero Speech2Face va más allá. Puede determinar con bastante precisión la forma de la nariz, los pómulos o la mandíbula de una persona a partir de su voz, porque la forma en que se estructuran la nariz y otros huesos de nuestra cara determina la forma en que sonamos.
El origen étnico también es uno de los aspectos que Speech2Face puede determinar con precisión al escuchar la voz de alguien durante unos pocos milisegundos, ya que las personas que proceden de los mismos grupos tienden a tener atributos similares. La IA tiene en cuenta diversos factores y a veces produce resultados impresionantes, pero todavía es un trabajo en curso.
En algunos casos, la IA tuvo dificultades para determinar el aspecto del hablante. Factores como el acento, el lenguaje hablado y el tono de la voz provocaron grandes desajustes entre el habla y el rostro en los que el género, la edad o la etnia eran completamente incorrectos. Por ejemplo, los hombres con una voz especialmente aguda solían ser identificados como mujeres, mientras que las mujeres con una voz grave eran identificadas como hombres. Los asiáticos que hablaban un inglés fluido también parecían menos asiáticos que cuando hablaban su lengua materna.
«En cierto modo, el sistema es un poco como tu tío racista. Cree que siempre puede distinguir la raza o la etnia de una persona por su forma de hablar, pero a menudo se equivoca», dice el fotógrafo Thomas Smith sobre Speech2Face.
Aun así, a pesar de sus limitaciones, Speech2Face ofrece una visión del futuro de la tecnología de inteligencia artificial que impresiona y aterroriza a la mayoría de la gente. Imagina un futuro en el que sólo basten unos milisegundos de voz para que una red neuronal elabore un retrato preciso. Seguro que podría ayudar a identificar a los delincuentes, pero ¿qué impide que los malos actores utilicen la misma tecnología con fines nefastos?
0 comentarios