La Fundación Wikimedia lanzó el Wikidata Embedding Project. Se trata de una nueva base de datos vectorial diseñada para facilitar la integración de información en sistemas de inteligencia artificial (IA).
Liderado por Wikimedia Deutschland, el capítulo alemán de la fundación, este proyecto transforma los 119 millones de entradas de Wikidata en vectores semánticos que capturan el contexto y las relaciones entre conceptos.
Wikidata, el proyecto hermano de Wikipedia, ha sido durante años una fuente de datos legibles por máquinas, pero su formato tradicional —basado en consultas SPARQL y búsquedas por palabras clave— limitaba su uso por parte de desarrolladores de IA.
Ahora, el nuevo sistema convierte esas entradas en vectores, lo que permite a los modelos de lenguaje acceder no solo a los datos, sino también a su significado contextual. Por ejemplo, el escritor Douglas Adams ahora aparece conectado a conceptos como ‘humano’ y los títulos de sus obras, en una red semántica que puede ser interpretada por sistemas de IA.
TE PUEDE INTERESAR: Nothing lanza sistema operativo con IA para móviles
Ventaja para desarrolladores fuera de Big Tech
- Según Lydia Pintscher, líder de producto de Wikidata, el objetivo es nivelar el campo de juego para desarrolladores independientes y pequeños equipos que no cuentan con los recursos de gigantes como OpenAI o Anthropic.
- “Realmente, para mí, se trata de darles esa ventaja y al menos darles una oportunidad”, afirmó en entrevista con el sitio The Verge.
- El proyecto también busca mejorar la representación de temas de nicho en sistemas de IA, que suelen priorizar contenidos populares.
- Al facilitar el acceso a datos curados por voluntarios, se espera que los modelos puedan reflejar mejor la diversidad del conocimiento humano.
Infraestructura abierta y colaborativa
- La vectorización fue realizada con tecnología de Jina AI. Mientras que la base de datos se almacena en Astra DB, una plataforma de DataStax, subsidiaria de IBM, que ofrece la infraestructura de forma gratuita.
- El sistema es compatible con el Model Context Protocol (MCP), un estándar que permite a los modelos de IA comunicarse directamente con bases de datos externas. Esto facilita su integración en aplicaciones como chatbots, motores de búsqueda o sistemas de recomendación.
- La base de datos está disponible públicamente en Toolforge y se actualizará próximamente con nuevas entradas.
- Aunque por ahora solo incluye datos hasta septiembre de 2024, los desarrolladores pueden comenzar a experimentar con ella y enviar retroalimentación para futuras mejoras.
Foto: Oberon Copeland @veryinformed.com en Unsplash.