Context window
Cantidad máxima de texto (medida en tokens) que un LLM puede procesar en una sola interacción. Determina cuánta información puede tener en mente a la vez.
Definición completa
La **context window** (ventana de contexto) es el límite de cuántos tokens — fragmentos de palabras, aproximadamente 3-4 caracteres cada uno — puede procesar un LLM de una sola vez. Incluye el prompt de sistema, el histórico de conversación y la respuesta que va a generar.
Tamaños típicos en 2026:
- Gemini 2.5 Flash Lite: **1.000.000 tokens** (Pueblania usa este).
- Claude Opus 4: 200.000 tokens.
- GPT-5: 200.000 tokens.
- Llama 4: 128.000 tokens.
**Implicación práctica para sector público:**
Una ventana de 1M de tokens permite procesar una ordenanza municipal completa (típicamente 5.000-30.000 tokens) **junto con** el histórico de la conversación y otras referencias. Antes (modelos con 4K-8K tokens) había que hacer chunking agresivo.
Ventana grande NO es siempre mejor:
- A más contexto, más latencia.
- A más contexto, más coste.
- A más contexto, más posibilidad de que el modelo "se pierda" entre información irrelevante.
Por eso se sigue usando [[rag]] para filtrar lo relevante antes de pasarlo al modelo.
Ejemplos prácticos
- Un alcalde sube el PDF de su ordenanza municipal de 80 páginas. Cabe entero en la ventana de Gemini 2.5 Flash Lite sin chunking.
- Un secretario quiere que la IA "lea" 5 actas plenarias para resumirlas. Cabe en 1 sola llamada.