Grok, la IA de Elon Musk, ahora es multimodal

xAI lanzó recientemente Grok-1.5V, el modelo multimodal de primera generación que ofrece la empresa de Elon Musk. Esta versión es capaz de procesar imágenes y responder preguntas relacionadas. Ahora, ya está disponible oficialmente para desarrolladores, y pronto podría llegar a todo público. 

De acuerdo con los documentos para desarrolladores, Grok-1.5V puede comprender textos, diagramas científicos, cuadros, capturas de pantalla y fotografías. 

xAI publicó una gráfica con las puntuaciones en diversas pruebas de rendimiento, en donde su Inteligencia Artificial (IA) supera a GPT-4V en algunas tareas como lectura de texto, diagramas, matemáticas o comprensión del mundo real.

TE PUEDE INTERESAR: Los Ray-Ban Meta Pueden Subir Fotos Directamente A Instagram Stories

Más sobre la función multimodal de GroK

  • En las primeras pruebas, Grok-1.5V puede reconocer el tamaño y orientación de los objetos, analiza y compara espacios, o identifica texto en las imágenes para responder una pregunta. 
  • xAI mostró algunos ejemplos de lo que puede lograr su nuevo modelo multimodal de IA.
  • Grok analiza un diagrama de flujo en una pizarra y lo convierte a código fuente en Python, con todo y comentarios.
  • La IA también identifica una tabla con los valores nutricionales y responde a preguntas específicas sobre calorías. 
  • Otro ejemplo se centra en reconocer un bosquejo y escribir un cuento, explicar un meme o analizar una fotografía.

«Avanzar tanto en nuestra comprensión multimodal como en nuestras capacidades de generación son pasos importantes para construir una inteligencia artificial general (AGI) que pueda comprender el universo. En los próximos meses, anticipamos realizar mejoras significativas en ambas capacidades, en diversas modalidades, como imágenes, audio y video».

xAI.

Foto: FOLOU.

Deja una respuesta