El día de ayer, los desarrolladores de Microsoft anunciaron un nuevo modelo de inteligencia artificial de texto a voz llamado VALL-E que puede simular fielmente la voz de una persona cuando se le presenta una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede generar un sonido de esa persona diciendo cualquier cosa, y hacerlo de una manera que intenta preservar el tono emocional del hablante. Microsoft denomina a VALL-E como un ‘modelo de lenguaje de códec neural’ y se basa en una tecnología llamada EnCodec, que fue anunciada por Meta en octubre de 2022. A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el discurso manipulando formas de onda, VALL-E genera códecs de audio separados a partir de texto e indicaciones acústicas. Básicamente, analiza cómo suena una persona, descompone esa información en partes individuales y utiliza datos de entrenamiento para hacer coincidir lo que ‘sabe’ sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra de tres segundos. Un grupo de investigadores hicieron la prueba y utilizaron VALL-E para producir esos resultados, los investigadores solo introdujeron en VALL-E la grabación de tres segundos, y una cadena de texto (lo que querían que dijera la voz). En algunos casos, los dos audios son muy parecidos. Algunos resultados de VALL-E parecen generados por computadora, pero otros podrían confundirse con el habla propia de un ser humano, que es el objetivo del modelo.
Microsoft creó un simulador de voz con inteligencia artificial
0
Share.