Dokumentation

Budgets & Caching

Rate-Limits und Budgets pro Schlüssel, Organisations-Obergrenzen und die beiden Antwort-Caches.

Budgets & Limits

Jeder Key trägt Rate-Limits (Requests und Tokens pro Minute) und ein Ausgabenbudget mit einem Zeitraum: total, daily oder monthly. Eine organisationsweite Gesamtobergrenze steht über jedem Key.

Die Durchsetzung erfolgt am Gateway, in echtem Geld: jede Anfrage wird anhand des Live-Preisbuchs bepreist und vor dem Versand abgebucht. Über dem Rate-Limit gibt der Aufruf 429 zurück; über dem Budget 402. Die Anfrage erreicht nie einen Anbieter. Sind die Zähler einmal nicht erreichbar, schlägt die Prüfung nach dem Fail-closed-Prinzip fehl und gleicht sich mit dem unveränderlichen Audit-Register ab, statt zu raten.

Caching

Zwei optionale Response-Caches: exakt (Treffer bei normalisiertem Request) und semantisch (Vektorähnlichkeit mit konservativem Schwellenwert). Beide sind streng pro Organisation isoliert, im Ruhezustand verschlüsselt und setzen Inhaltsaufbewahrung voraus. Aktivieren Sie sie in der Cache-Ansicht der Console.

Jede Audit-Zeile hält fest, wie der Aufruf bedient wurde: none | exact | semantic.