Base de datos vectorial
Sistema de almacenamiento especializado en vectores (embeddings). Permite búsqueda semántica eficiente a escala. Qdrant, Pinecone, Weaviate y pgvector son los más usados.
Definición completa
Una **base de datos vectorial** está optimizada para almacenar embeddings y responder a consultas del tipo "dame los 10 vectores más cercanos a este otro". Las bases relacionales clásicas (PostgreSQL, MySQL) no lo hacen eficientemente sobre millones de vectores.
Opciones populares en 2026:
- **Qdrant** — open source, escrito en Rust, rápido. Pueblania la usa.
- **Pinecone** — SaaS cerrado, muy escalable.
- **Weaviate** — open source con grafos.
- **pgvector** — extensión de PostgreSQL para casos pequeños/medianos.
- **Chroma** — pensado para prototipado rápido.
Una BD vectorial bien configurada combina:
- **Índices ANN** (Approximate Nearest Neighbor) — HNSW es el estándar.
- **Filtros estructurados** — buscar solo dentro de los embeddings del tenant X (crítico para multi-tenant).
- **Metadatos** — atributos asociados al vector (fecha, autor, categoría).
- **Híbrido** — combinar búsqueda vectorial y léxica.
En Pueblania, cada Ayuntamiento tiene su colección Qdrant aislada con índices HNSW + filtros estrictos por `tenant_id`.
Ejemplos prácticos
- Una ordenanza de 30 páginas se trocea en 500 embeddings que se guardan en Qdrant con metadatos (artículo, sección, fecha).
- Búsqueda: encuentra los 5 fragmentos más relevantes para la pregunta del vecino en 30 ms sobre 100.000 vectores.
Términos relacionados