Apple reveló un ambicioso avance en inteligencia artificial (IA) con la publicación de Pico-Banana-400K, un conjunto de datos de 400.000 imágenes reales diseñado para entrenar modelos de IA en edición de imágenes guiada por texto.
Este proyecto, presentado en octubre de 2025, busca que la IA entienda y ejecute instrucciones de edición de forma más natural, similar a cómo lo haría un humano.
Los investigadores concluyeron que la edición a gran escala es viable si se utilizan imágenes reales y se aplica un filtrado riguroso. Las ediciones de estilo —como cambiar el color o aplicar filtros— fueron las más exitosas. En cambio, mover objetos o modificar texto dentro de las imágenes presentó mayores desafíos técnicos.
El conjunto de datos está disponible para investigación en GitHub, aunque no tiene licencia comercial. Apple lo presenta como un recurso abierto para mejorar la precisión de modelos de IA en edición de imágenes.
TE PUEDE INTERESAR: Samsung presenta su primer teléfono tríptico con pantalla de 10 pulgadas
Qué contiene Pico-Banana-400K
- El dataset incluye 400.000 pares de imágenes con ediciones detalladas, organizadas en 35 tipos de transformación dentro de ocho categorías semánticas.
- Estas van desde ajustes de color y estilo hasta la adición de objetos, modificación de escenas y cambios de texto.
- Para construirlo, Apple utilizó tres modelos clave:
- Nano-Banana (Gemini-2.5-Flash Image): encargado de realizar las ediciones.
- Gemini-2.5-Flash: generador de instrucciones de edición.
- Gemini-2.5-Pro: evaluador de calidad de las ediciones.
- Este enfoque permite entrenar modelos multimodales que no solo entienden el lenguaje natural, sino que también aplican ediciones visuales con precisión y coherencia.
¿Cómo se aplicará en productos Apple?
- Aunque Apple aún no ha lanzado herramientas de edición de imágenes con IA tan avanzadas como las de Google o Samsung, este estudio podría ser la base para futuras funciones en Apple Intelligence y Siri.
- Se especula que en iOS 26, los usuarios podrían pedirle a Siri que recorte una imagen, ajuste el brillo o elimine elementos, todo mediante comandos de voz.
- Actualmente, Apple ofrece funciones como Clean Up e Image Playground, pero no ha integrado edición guiada por texto de forma nativa.
- Pico-Banana-400K podría cambiar eso, permitiendo una experiencia más intuitiva y personalizada para los usuarios.
Foto: Arxiv.