Documentation

Budgets & cache

Limites de débit et budgets par clé, plafonds d'organisation et les deux caches de réponse.

Budgets et limites

Chaque clé porte des limites de débit (requêtes et tokens par minute) et un budget de dépense avec une période : total, daily ou monthly. Un plafond agrégé à l'échelle de l'organisation chapeaute chaque clé.

L'application se fait à la passerelle, en argent réel : chaque requête est tarifée d'après le carnet de prix en direct et débitée avant l'envoi. Au-delà de la limite de débit, l'appel renvoie 429 ; au-delà du budget, 402. La requête n'atteint jamais un fournisseur. Si les compteurs deviennent inaccessibles, la vérification échoue en mode fermé et se réconcilie à partir du registre d'audit immuable plutôt que de deviner.

Mise en cache

Deux caches de réponse optionnels : exact (correspondance de requête normalisée) et sémantique (similarité vectorielle avec un seuil conservateur). Les deux sont strictement isolés par organisation, chiffrés au repos, et exigent la rétention du contenu. Activez-les dans la vue Cache de la Console.

Chaque ligne d'audit consigne comment l'appel a été servi : none | exact | semantic.