Dokumentation

API-Referenz

Authentifizierung, die OpenAI-kompatible Endpoint-Oberfläche, Streaming, Reasoning und die Fehler-Taxonomie.

Authentifizierung

Jede Anfrage an /v1/* authentifiziert sich mit einem virtuellen Key im Header Authorization: Bearer. Erzeugen Sie Keys in der Console; das Secret wird nur einmal angezeigt und nur sein Hash wird gespeichert. Ein Key trägt eigene Rate-Limits, ein Budget, Tags und eine optionale Modell-Allow-List (leer = jedes Modell).

Eine Anfrage, deren Modell nicht auf der nicht leeren Allow-List des Keys steht, wird mit einem versiegelten 403 permission_error abgewiesen, bevor irgendetwas versendet wird; die Abweisung selbst landet in der Audit-Kette.

Das Erzeugen eines Produktions-Keys erfordert eine verifizierte E-Mail-Adresse.

curl https://api.sluis.ai/v1/models \
  -H "Authorization: Bearer $SLUIS_KEY"

# a model outside the key's allow-list never dispatches:
# → 403 permission_error · the refusal is sealed in the audit chain

Endpunkte

Sluis stellt die unten stehende OpenAI-kompatible Oberfläche bereit. Endpunkte ohne First-Class-Handler werden unverändert an den gerouteten Anbieter weitergereicht, Streaming inbegriffen, sodass OpenAI-kompatible Upstreams volle Fidelität behalten.

EndpunktZweck
POST /v1/chat/completionsChat Completions, die primäre Oberfläche: Routing, Datenschutz, Caching, Streaming.
POST /v1/completionsLegacy-Text-Completions.
POST /v1/embeddingsEmbeddings; speist auch den semantischen Cache.
POST /v1/moderationsModerations-Klassifikation.
POST /v1/responsesDie OpenAI Responses API.
GET /v1/modelsDie Modelle, die Ihre Policy und Ihre Zugangsdaten tatsächlich erreichen können, nichts Hypothetisches.
GET /v1/models/{id}Die Metadaten eines Modells.
POST /v1/audio/*Transkription, Übersetzung, Sprache · an den gerouteten Anbieter weitergereicht.
POST /v1/images/*Bildgenerierung und -bearbeitung · weitergereicht.
POST /v1/video/generationsVideogenerierung · weitergereicht.
/v1/filesDateioperationen · weitergereicht.

Streaming

Setzen Sie stream: true und die Antwort kommt als Server-Sent Events: jedes Frame ist ein chat.completion.chunk-Delta, und der Stream endet mit data: [DONE]. Streams werden im Gateway nie gepuffert: sie werden durchgeschleust, und Audit-Siegel und Metering erfolgen selbst dann, wenn der Client früh auflegt.

Fordern Sie stream_options.include_usage an, und das letzte Frame trägt die exakte Token-Nutzung, dieselben Zahlen, die das Gateway zählt und abrechnet.

stream = client.chat.completions.create(
    model="mistral/mistral-large-latest",
    messages=[{"role": "user", "content": "Write a haiku"}],
    stream=True,
    stream_options={"include_usage": True},
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")

Reasoning

Übergeben Sie den OpenAI-Parameter reasoning_effort (minimal | low | medium | high) bei jedem reasoning-fähigen Modell. Sluis übersetzt ihn je Anbieter (Geminis Thinking-Level, Claudes adaptiver Thinking-Effort) und lässt ihn weg, wo ein Modell ihn ablehnen würde, sodass ein einziger Parameter über den gesamten Katalog funktioniert.

resp = client.chat.completions.create(
    model="vertex/claude-opus-4-8",
    messages=[{"role": "user", "content": "Prove it step by step…"}],
    reasoning_effort="high",  # minimal | low | medium | high
)

Fehlercodes

Fehler verwenden das OpenAI-Fehler-Envelope; der Wert error.type spiegelt den HTTP-Status, sodass die Fehlerbehandlung Ihres SDK unverändert weiterarbeitet.

CodeWann
400 invalid_request_errorFehlerhafter Request-Body oder Parameter.
400 invalid_request_errorModell-ID ohne Provider-Präfix. Jede aufrufbare ID ist provider/model, z. B. mistral/mistral-large-latest; der Body meldet: model must be provider-prefixed.
401 authentication_errorFehlender oder unbekannter API-Key.
402 insufficient_quotaFreikontingent aufgebraucht oder Budget erreicht. Aktivieren Sie einen Plan oder erhöhen Sie das Budget; die Anfrage erreicht nie einen Anbieter.
403 permission_errorDem Key fehlt die Berechtigung, etwa weil das Modell nicht auf seiner Allow-List steht.
422 invalid_request_errorVor dem Versand abgewiesen, etwa weil der Datenschutz im block-Modus die Anfrage erfasst hat.
429 rate_limit_errorRate-Limit erreicht. Am Gateway durchgesetzt; die Anfrage erreicht nie einen Anbieter.
451 permission_errorDurch die Residency-Policy blockiert: keine erlaubte Jurisdiktion bedient die Anfrage. Der Body enthält den Grund.
5xx api_errorAusfall des Upstream-Anbieters nach Wiederholungsversuchen; der Circuit Breaker lenkt den Traffic an fehlerhaften Anbietern vorbei.