Microsoft presenta Phi-3 vision, una IA que comprende imágenes y texto

Microsoft lanzó Phi-3-vision, un nuevo miembro de su familia de modelos de lenguaje. Esta Inteligencia Artificial (IA) puede entender tanto texto como imágenes, así como mirar imágenes y analizarlas. 

De acuerdo con la compañía, está diseñado para dispositivos con menor potencia de procesamiento. Tiene 4,2 mil millones de parámetros, lo que lo convierte en el modelo perfecto para dispositivos móviles y computadores portátiles.

A diferencia de otros modelos de IA centrados en imágenes, como DALL-E de OpenAI o Stable Diffusion de Stability AI, Phi-3-Vision no genera imágenes, sino que las analiza y las describe.

TE PUEDE INTERESAR: Grok Es Multimodal: La IA Reconoce Imágenes Para Responder Preguntas

Phi-3 vision: el modelo multimodal capaz de entender imágenes

  • Phi-3 vision puede comprender imágenes y responder preguntas sobre ellas. Esta IA es similar a lo que vemos con GPT-4o, aunque en una escala menor.
  • Este modelo es capaz de realizar tareas de razonamiento visual. Por ejemplo, puede comprender gráficos y diagramas y generar información a partir de ellos.
  • La nueva IA también razona sobre imágenes del mundo real y extrae texto. Lo único que no puede hacer es generar imágenes, como los modelos de OpenAI.
  • Microsoft Phi-3-vision está actualmente disponible en versión preliminar. Sin embargo, se puede acceder a los otros modelos de la familia Phi-3 a través de la biblioteca de modelos de Azure.
  • A pesar de su menor tamaño en comparación con otros modelos de IA, se afirma que ofrece una comprensión y análisis eficientes de las imágenes.
  • Este modelo forma parte de la familia Phi-3, que también incluye Phi-3-mini, Phi-3-small y Phi-3-medium con 3.800 millones, 7.000 millones y 14.000 millones de parámetros, respectivamente.

Foto: Gerd Altmann en Pixabay

Deja una respuesta