Budgets & Caching
Rate-Limits und Budgets pro Schlüssel, Organisations-Obergrenzen und die beiden Antwort-Caches.
Budgets & Limits
Jeder Key trägt Rate-Limits (Requests und Tokens pro Minute) und ein Ausgabenbudget mit einem Zeitraum: total, daily oder monthly. Eine organisationsweite Gesamtobergrenze steht über jedem Key.
Die Durchsetzung erfolgt am Gateway, in echtem Geld: jede Anfrage wird anhand des Live-Preisbuchs bepreist und vor dem Versand abgebucht. Über dem Rate-Limit gibt der Aufruf 429 zurück; über dem Budget 402. Die Anfrage erreicht nie einen Anbieter. Sind die Zähler einmal nicht erreichbar, schlägt die Prüfung nach dem Fail-closed-Prinzip fehl und gleicht sich mit dem unveränderlichen Audit-Register ab, statt zu raten.
Caching
Zwei optionale Response-Caches: exakt (Treffer bei normalisiertem Request) und semantisch (Vektorähnlichkeit mit konservativem Schwellenwert). Beide sind streng pro Organisation isoliert, im Ruhezustand verschlüsselt und setzen Inhaltsaufbewahrung voraus. Aktivieren Sie sie in der Cache-Ansicht der Console.
Jede Audit-Zeile hält fest, wie der Aufruf bedient wurde: none | exact | semantic.