Saltar al contenido principal
Volver al glosario Glosario IA municipal

Base de datos vectorial

Sistema de almacenamiento especializado en vectores (embeddings). Permite búsqueda semántica eficiente a escala. Qdrant, Pinecone, Weaviate y pgvector son los más usados.

Definición completa

Una **base de datos vectorial** está optimizada para almacenar embeddings y responder a consultas del tipo "dame los 10 vectores más cercanos a este otro". Las bases relacionales clásicas (PostgreSQL, MySQL) no lo hacen eficientemente sobre millones de vectores.

Opciones populares en 2026:

- **Qdrant** — open source, escrito en Rust, rápido. Pueblania la usa.
- **Pinecone** — SaaS cerrado, muy escalable.
- **Weaviate** — open source con grafos.
- **pgvector** — extensión de PostgreSQL para casos pequeños/medianos.
- **Chroma** — pensado para prototipado rápido.

Una BD vectorial bien configurada combina:

- **Índices ANN** (Approximate Nearest Neighbor) — HNSW es el estándar.
- **Filtros estructurados** — buscar solo dentro de los embeddings del tenant X (crítico para multi-tenant).
- **Metadatos** — atributos asociados al vector (fecha, autor, categoría).
- **Híbrido** — combinar búsqueda vectorial y léxica.

En Pueblania, cada Ayuntamiento tiene su colección Qdrant aislada con índices HNSW + filtros estrictos por `tenant_id`.

Ejemplos prácticos

  • Una ordenanza de 30 páginas se trocea en 500 embeddings que se guardan en Qdrant con metadatos (artículo, sección, fecha).
  • Búsqueda: encuentra los 5 fragmentos más relevantes para la pregunta del vecino en 30 ms sobre 100.000 vectores.