Volver al glosario Glosario IA municipal

IA multimodal

Modelo de IA capaz de procesar simultáneamente texto, imagen, audio y vídeo. Una IA multimodal entiende cuando un vecino manda foto del bache + nota de voz explicando.

Definición completa

Un modelo **multimodal** procesa más de un tipo de entrada o salida. Los LLM modernos (Gemini, GPT-4o, Claude 4) son nativamente multimodales: entienden texto, imágenes y audio dentro del mismo flujo.

**Modalidades soportadas en Pueblania:**

- **Texto** — chat habitual.
- **Voz** — mensaje de audio por WhatsApp. La IA transcribe y entiende.
- **Imagen** — foto del bache, del recibo, del documento. La IA aplica OCR + comprensión visual.
- **PDF** — el vecino sube un documento. La IA lo lee como si fuera texto.

**Casos de uso reales:**

1. Un vecino fotografía un poste de luz roto y manda foto. Pueblania reconoce el problema, geolocaliza (si la foto tiene EXIF), abre incidencia.
2. Una vecina envía audio: "soy la madre de Pepe, ¿cuándo se cierra la inscripción a la escuela de verano?" — la IA transcribe y responde.
3. Un secretario sube un PDF de proveedor para preguntar a la IA si cumple las condiciones de un pliego.

**Límite operativo en Pueblania:** 200 MB al día por usuario en archivos adjuntos.

Ejemplos prácticos

Foto + voz combinadas: "te mando audio explicando lo del bache y foto" → Pueblania transcribe, analiza imagen, crea incidencia única.
PDF de proveedor + pregunta: "¿este presupuesto incluye IVA?" → Pueblania lee el PDF y responde con cita.

Términos relacionados

LLM Tool calling Capacidades