Microsoft presenta Phi-3 vision, una IA que comprende imágenes y texto

May 22, 2024, INTELIGENCIA ARTIFICIAL

Microsoft lanzó Phi-3-vision, un nuevo miembro de su familia de modelos de lenguaje. Esta Inteligencia Artificial (IA) puede entender tanto texto como imágenes, así como mirar imágenes y analizarlas.

De acuerdo con la compañía, está diseñado para dispositivos con menor potencia de procesamiento. Tiene 4,2 mil millones de parámetros, lo que lo convierte en el modelo perfecto para dispositivos móviles y computadores portátiles.

A diferencia de otros modelos de IA centrados en imágenes, como DALL-E de OpenAI o Stable Diffusion de Stability AI, Phi-3-Vision no genera imágenes, sino que las analiza y las describe.

TE PUEDE INTERESAR: Grok Es Multimodal: La IA Reconoce Imágenes Para Responder Preguntas

Phi-3 vision: el modelo multimodal capaz de entender imágenes

Phi-3 vision puede comprender imágenes y responder preguntas sobre ellas. Esta IA es similar a lo que vemos con GPT-4o, aunque en una escala menor.
Este modelo es capaz de realizar tareas de razonamiento visual. Por ejemplo, puede comprender gráficos y diagramas y generar información a partir de ellos.
La nueva IA también razona sobre imágenes del mundo real y extrae texto. Lo único que no puede hacer es generar imágenes, como los modelos de OpenAI.
Microsoft Phi-3-vision está actualmente disponible en versión preliminar. Sin embargo, se puede acceder a los otros modelos de la familia Phi-3 a través de la biblioteca de modelos de Azure.
A pesar de su menor tamaño en comparación con otros modelos de IA, se afirma que ofrece una comprensión y análisis eficientes de las imágenes.
Este modelo forma parte de la familia Phi-3, que también incluye Phi-3-mini, Phi-3-small y Phi-3-medium con 3.800 millones, 7.000 millones y 14.000 millones de parámetros, respectivamente.

Foto: Gerd Altmann en Pixabay

En este artículo:

IA de Microsoft, Microsoft Phi-3 vision, Microsoft Phi-3 vision imágenes y texto

Microsoft presenta Phi-3 vision, una IA que comprende imágenes y texto

TE PUEDE INTERESAR: Grok Es Multimodal: La IA Reconoce Imágenes Para Responder Preguntas

Phi-3 vision: el modelo multimodal capaz de entender imágenes

Escrito por Soramir Torres

Deja una respuesta Cancelar la respuesta

Welcome

TE PUEDE INTERESAR: Grok Es Multimodal: La IA Reconoce Imágenes Para Responder Preguntas

Phi-3 vision: el modelo multimodal capaz de entender imágenes

Comparte este artículo:

Escrito por Soramir Torres

También te puede interesar

Más artículos de: INTELIGENCIA ARTIFICIAL

Deja una respuesta Cancelar la respuesta