FOLOU

Microsoft presenta Phi-3 vision, una IA que comprende imágenes y texto

Microsoft lanzó Phi-3-vision, un nuevo miembro de su familia de modelos de lenguaje. Esta Inteligencia Artificial (IA) puede entender tanto texto como imágenes, así como mirar imágenes y analizarlas. 

De acuerdo con la compañía, está diseñado para dispositivos con menor potencia de procesamiento. Tiene 4,2 mil millones de parámetros, lo que lo convierte en el modelo perfecto para dispositivos móviles y computadores portátiles.

A diferencia de otros modelos de IA centrados en imágenes, como DALL-E de OpenAI o Stable Diffusion de Stability AI, Phi-3-Vision no genera imágenes, sino que las analiza y las describe.

TE PUEDE INTERESAR: Grok Es Multimodal: La IA Reconoce Imágenes Para Responder Preguntas

Phi-3 vision: el modelo multimodal capaz de entender imágenes

Foto: Gerd Altmann en Pixabay

Salir de la versión móvil