En un nuevo estudio de Apple titulado Principled Coarse-Grained Acceptance for Speculative Decoding in Speech, los investigadores detallan un enfoque innovador para generar voz a partir de texto. Actualmente, existen varios métodos para convertir texto en voz, pero este equipo se centró en los modelos autoregresivos, que generan tokens de voz uno por uno, similar a cómo funcionan los grandes modelos de lenguaje.
Los modelos autoregresivos suelen ser estrictos, rechazando predicciones que podrían ser suficientes solo porque no coinciden exactamente con el token esperado, lo que ralentiza el proceso. Para solucionar esto, los investigadores propusieron un método llamado Principled Coarse-Graining (PCG), que agrupa tokens de voz similares, permitiendo al modelo aceptar tokens que pertenezcan al mismo grupo de similitud acústica.
TE PUEDE INTERESAR: Mozilla añade un interruptor para desactivar las funciones de IA en Firefox
Qué debes saber
- El PCG aumenta la velocidad de generación de voz en un 40%.
- Mantiene tasas de error bajas y preserva la similitud del hablante.
- No requiere entrenar de nuevo los modelos, solo ajustes en tiempo de decodificación.
- Es práctico para dispositivos con memoria limitada, necesitando solo 37MB adicionales.
Especificaciones técnicas
- Tipo de modelo: Autoregresivo
- Aumento de velocidad: 40%
- Puntuación de naturalidad: 4.09 (escala 1-5)
- Memoria adicional requerida: 37MB
Contenido generado con IA y editado por el equipo editorial.
Foto: Apple.