FOLOU

Nueva investigación de Apple acelera la generación de voz con IA

En un nuevo estudio de Apple titulado Principled Coarse-Grained Acceptance for Speculative Decoding in Speech, los investigadores detallan un enfoque innovador para generar voz a partir de texto. Actualmente, existen varios métodos para convertir texto en voz, pero este equipo se centró en los modelos autoregresivos, que generan tokens de voz uno por uno, similar a cómo funcionan los grandes modelos de lenguaje.

Los modelos autoregresivos suelen ser estrictos, rechazando predicciones que podrían ser suficientes solo porque no coinciden exactamente con el token esperado, lo que ralentiza el proceso. Para solucionar esto, los investigadores propusieron un método llamado Principled Coarse-Graining (PCG), que agrupa tokens de voz similares, permitiendo al modelo aceptar tokens que pertenezcan al mismo grupo de similitud acústica.

TE PUEDE INTERESAR: Mozilla añade un interruptor para desactivar las funciones de IA en Firefox

Qué debes saber

Especificaciones técnicas

Contenido generado con IA y editado por el equipo editorial.

Foto: Apple.

Salir de la versión móvil