Budget e caching
Limiti di velocità e budget per chiave, tetti di organizzazione e le due cache di risposta.
Budget e limiti
Ogni chiave porta rate limit (richieste e token al minuto) e un budget di spesa con un periodo: total, daily o monthly. Un tetto aggregato per l'intera organizzazione sta sopra ogni chiave.
L'applicazione avviene al gateway, in denaro reale: ogni richiesta viene prezzata dal listino prezzi in tempo reale e addebitata prima dell'inoltro. Superato il rate limit la chiamata restituisce 429; superato il budget, 402. La richiesta non raggiunge mai un provider. Se i contatori diventano irraggiungibili, il controllo fallisce in chiuso e si riconcilia con il registro di audit immutabile invece di tirare a indovinare.
Caching
Due cache di risposta opzionali: esatta (una corrispondenza sulla richiesta normalizzata) e semantica (similarità vettoriale con una soglia conservativa). Entrambe sono rigorosamente isolate per organizzazione, cifrate a riposo e richiedono la conservazione dei contenuti. Abilitale nella vista Cache della Console.
Ogni riga di audit registra come è stata servita la chiamata: none | exact | semantic.