Documentazione

Budget e caching

Limiti di velocità e budget per chiave, tetti di organizzazione e le due cache di risposta.

Budget e limiti

Ogni chiave porta rate limit (richieste e token al minuto) e un budget di spesa con un periodo: total, daily o monthly. Un tetto aggregato per l'intera organizzazione sta sopra ogni chiave.

L'applicazione avviene al gateway, in denaro reale: ogni richiesta viene prezzata dal listino prezzi in tempo reale e addebitata prima dell'inoltro. Superato il rate limit la chiamata restituisce 429; superato il budget, 402. La richiesta non raggiunge mai un provider. Se i contatori diventano irraggiungibili, il controllo fallisce in chiuso e si riconcilia con il registro di audit immutabile invece di tirare a indovinare.

Caching

Due cache di risposta opzionali: esatta (una corrispondenza sulla richiesta normalizzata) e semantica (similarità vettoriale con una soglia conservativa). Entrambe sono rigorosamente isolate per organizzazione, cifrate a riposo e richiedono la conservazione dei contenuti. Abilitale nella vista Cache della Console.

Ogni riga di audit registra come è stata servita la chiamata: none | exact | semantic.