Esta IA puede imitar tu voz perfectamente

IA VOZ

Ante un inminente invierno del metaverso, parece que 2023 será el año de las inteligencias artificiales. En un 2022 recién finalizado pudimos ver el arranque de potentes generadores de imágenes y de texto como ChatGPT, pero la cosa sigue avanzando. Microsoft ha presentado un nuevo e impresionante modelo de IA de texto a voz, llamado Vall-E. Esta puede escuchar una voz durante unos segundos y luego imitarla a la perfección.

Según explican los investigadores involucrados en el proyecto, la IA ha sido entrenada en unas 60.000 horas a través de narradores de audiolibros en inglés. Además, esta IA es capaz de reproducir matices como el tono emocional y la acústica con solo escuchar fragmentos de tres segundos.

Una IA que puede replicar el tono y el entorno

Vall-E se basa en la tecnología EnCodec que Meta anunció en octubre de 2022. Esta tecnología le permite desglosar la información de la voz en componentes y así sintetizar la forma en que sonaría si estuviera hablando en diferentes entornos.

Una de sus fortalezas es poder reproducir el entorno de audio de la muestra original. Por ejemplo, si esta ha sido grabada por teléfono, lo reproducirá como una llamada telefónica. Aseguran sus desarrolladores que también es muy buena con los acentos (americano o británico).

Aunque en ocasiones coloca los acentos en lugares raros, como puedes escuchar tú mismo en el tweet que compartimos a continuación, es casi imposible diferenciar la voz de la IA de la voz original.

«Los resultados del experimento muestran que Vall-E supera significativamente al sistema TTS de última generación (una IA que recrea voces que nunca ha escuchado) en términos de naturalidad del habla y similitud del hablante», explican los investigadores.

Aunque existen preocupaciones ante un posible mal uso de esta IA, Microsoft cree que Vall-E podría convertirse en una potente herramienta de texto a voz y de creación de audio si se combina con otras IA como GPT-3.

Deja una respuesta