Microsoft lanzó Phi-3-vision, un nuevo miembro de su familia de modelos de lenguaje. Esta Inteligencia Artificial (IA) puede entender tanto texto como imágenes, así como mirar imágenes y analizarlas.
De acuerdo con la compañía, está diseñado para dispositivos con menor potencia de procesamiento. Tiene 4,2 mil millones de parámetros, lo que lo convierte en el modelo perfecto para dispositivos móviles y computadores portátiles.
A diferencia de otros modelos de IA centrados en imágenes, como DALL-E de OpenAI o Stable Diffusion de Stability AI, Phi-3-Vision no genera imágenes, sino que las analiza y las describe.
TE PUEDE INTERESAR: Grok Es Multimodal: La IA Reconoce Imágenes Para Responder Preguntas
Phi-3 vision: el modelo multimodal capaz de entender imágenes
- Phi-3 vision puede comprender imágenes y responder preguntas sobre ellas. Esta IA es similar a lo que vemos con GPT-4o, aunque en una escala menor.
- Este modelo es capaz de realizar tareas de razonamiento visual. Por ejemplo, puede comprender gráficos y diagramas y generar información a partir de ellos.
- La nueva IA también razona sobre imágenes del mundo real y extrae texto. Lo único que no puede hacer es generar imágenes, como los modelos de OpenAI.
- Microsoft Phi-3-vision está actualmente disponible en versión preliminar. Sin embargo, se puede acceder a los otros modelos de la familia Phi-3 a través de la biblioteca de modelos de Azure.
- A pesar de su menor tamaño en comparación con otros modelos de IA, se afirma que ofrece una comprensión y análisis eficientes de las imágenes.
- Este modelo forma parte de la familia Phi-3, que también incluye Phi-3-mini, Phi-3-small y Phi-3-medium con 3.800 millones, 7.000 millones y 14.000 millones de parámetros, respectivamente.
Foto: Gerd Altmann en Pixabay