OpenAI presentó nuevos modelos de inteligencia artificial (IA) diseñados para mejorar la generación y transcripción de voz. Estas actualizaciones buscan ofrecer mayor precisión y flexibilidad en diversas aplicaciones.
La compañía destaca que estos avances forman parte de su estrategia para desarrollar sistemas automatizados más eficientes. Según OpenAI, estos modelos facilitarán la creación de asistentes virtuales más naturales y funcionales.
Los nuevos sistemas incluyen mejoras significativas en la captura del habla en entornos ruidosos y en la reducción de errores. También permiten configurar la entonación y el estilo de la voz, adaptándolos a distintos escenarios.
TE PUEDE INTERESAR: Huawei Nova 13 Pro: ¿qué trae en su caja? Conócelo en su unboxing | VIDEO
Detalles de los nuevos modelos de OpenAI
- Mayor precisión en transcripción: el modelo ‘gpt-4o-transcribe’ supera a versiones anteriores como Whisper, con mejor reconocimiento de palabras en distintos acentos y fonéticas complejas.
- Optimización en entornos ruidosos: reducción de errores en grabaciones con interferencias, múltiples hablantes o variaciones en la velocidad del habla.
- Síntesis de voz más realista: gpt-4o-mini-tts permite ajustar entonación, emoción y estilo con instrucciones detalladas.
- Mayor eficiencia en aprendizaje: uso de aprendizaje por refuerzo para mejorar la fidelidad en la transcripción.
- Soporte para múltiples idiomas: mayor precisión en idiomas con estructuras gramaticales complejas.
- Integración en la API: disponible para desarrolladores sin necesidad de infraestructura adicional.
- No disponible como código abierto: OpenAI decidió no liberar estos modelos debido a su tamaño y requisitos computacionales.
Foto: OpenAI.