DeepSeek R2 podría ser más liviano, más rápido y multilingüe

Corren rumores de que DeepSeek está a punto de lanzar DeepSeek R2, un modelo de lenguaje de código abierto que busca mejorar la eficiencia sin reducir capacidad. Su diseño permite utilizar solo una parte del modelo en cada operación.

Fue entrenado para generar código, seguir instrucciones complejas y resolver problemas. Su entrenamiento incluyó 12 billones de tokens, tanto en inglés como en chino, lo que amplía su alcance multilingüe.

Según el sitio web DeepSeek AI, DeepSeek R2 tiene 236 mil millones de parámetros, pero solo activa 21 mil millones cada operación. Esto lo hace más ligero en procesamiento sin perder rendimiento.

TE PUEDE INTERESAR: WhatsApp Web se actualiza: pronto podrás hacer llamadas de voz y video

Datos sobre DeepSeek R2

  • Soporte multilingüe avanzado, incluyendo mandarín, ruso, árabe e hindi.
  • Generación de código en más de 30 lenguajes de programación, con comprensión de arquitectura de software y detección de vulnerabilidades.
  • Capacidades multimodales, procesando texto, imágenes, audio y video.
  • Uso de la arquitectura Mixture-of-Experts (MoE) para activar solo los expertos necesarios por token, mejorando la eficiencia
  • Implementación de Multihead Latent Attention (MLA) para una mejor comprensión contextual y reducción de errores.
  • Entrenamiento con 5,2 petabytes de datos de alta calidad, incluyendo información financiera, jurídica y de patentes.
  • Costos de entrenamiento e inferencia hasta 40 veces menores que modelos comparables, como GPT-4.
  • Integración en productos de consumo de empresas como Haier, Hisense y TCL Electronics.
  • Enfoque en la investigación fundamental y avances tecnológicos, priorizando la eficiencia y la innovación sobre la generación inmediata de ingresos.
  • Desarrollo de una cadena de suministro local para satisfacer las necesidades de hardware de IA, reduciendo la dependencia de socios externos.

Foto: DeepSeek.

Deja una respuesta