Presupuestos y caché
Límites de velocidad y presupuestos por clave, topes de organización y las dos cachés de respuesta.
Presupuestos y límites
Cada clave lleva límites de tasa (peticiones y tokens por minuto) y un presupuesto de gasto con un periodo: total, daily o monthly. Un límite agregado para toda la organización se sitúa por encima de cada clave.
La aplicación ocurre en la pasarela, en dinero real: cada petición se tarifica con el libro de precios en vivo y se descuenta antes de despachar. Superado el límite de tasa, la llamada devuelve 429; superado el presupuesto, 402. La petición nunca llega a un proveedor. Si los contadores llegan a ser inaccesibles, la comprobación falla en cerrado y se reconcilia con el registro de auditoría inmutable en lugar de adivinar.
Caché
Dos cachés de respuesta opcionales: exacta (una coincidencia de petición normalizada) y semántica (similitud vectorial con un umbral conservador). Ambas están estrictamente aisladas por organización, cifradas en reposo y requieren retención de contenido. Actívelas en la vista Cache de la Consola.
Cada fila de auditoría registra cómo se sirvió la llamada: none | exact | semantic.