Misurate, non promesse.
L'overhead del gateway, misurato su hardware identico davanti a un upstream con keep-alive, ogni esecuzione verificata al 100 % HTTP 200. La chiusa costa un millisecondo alla mediana; contro un modello reale, nulla di misurabile.
L'intero data plane è scritto in Rust (axum, tokio, senza garbage collector): così, a 256 connessioni simultanee, la chiusa di conformità aggiunge un millisecondo alla mediana, e contro un modello reale sparisce nel rumore del fornitore.
Un upstream, hardware identico, lo stesso carico.
Ogni gateway si pone davanti allo stesso upstream fittizio con keep-alive sulla rete interna (una risposta OpenAI predefinita dietro un ritardo fisso di 60 ms), caricato dallo stesso strumento, oha, con la stessa concorrenza, per la stessa finestra. Questo isola l'overhead del gateway dalla varianza del fornitore. Una seconda corsia, a tasso limitato, gira contro un fornitore reale per verificare che la storia regga fuori dal laboratorio.
Un solo upstream fittizio condiviso
Tutti e quattro i gateway instradano allo stesso upstream fittizio Node sulla rete interna (keep-alive attivo, stesso ritardo fisso di 60 ms, stesso corpo predefinito), quindi nessuno ha un backend più veloce. Le differenze di latenza sono l'overhead proprio dei gateway.
Isolato, hardware identico
Ogni gateway gira in un container fissato su CPU/memoria, caricato da oha con 256 connessioni sulla stessa finestra, dopo un warmup scartato uguale. Stesso carico, stessi limiti, ogni volta.
Riferimento a chiusa aperta
Politica permetti-tutto, DLP in sola osservazione, contenuto di audit disattivato: Sluis come semplice proxy compatibile con OpenAI.
Chiusa chiusa: il prodotto reale
Politica di residenza UE, mascheramento DLP, ritenzione dei contenuti e un registro di audit concatenato tramite hash: ogni chiusa attiva sul percorso critico.
Costruito perché il risultato non possa essere truccato in silenzio.
Ogni configurazione è fissata e identica su tutti i gateway, così il confronto non può essere sbilanciato di nascosto.
- Tutti i gateway fissati a cgroups identici di CPU e memoria.
- L'upstream fittizio è identico byte per byte e condiviso; un unico ritardo fisso per tutti.
- LiteLLM e Bifrost girano con configurazioni identiche, senza flag nascosti.
- Stesso warmup scartato e stessa finestra di misura per ogni gateway.
- Ogni esecuzione è convalidata sui suoi codici di stato: tutto ciò che non è 100 % HTTP 200 viene scartato, mai pubblicato.
I numeri, esattamente come misurati.
Due colonne Sluis: chiusa aperta, un confronto di proxy ad armi pari; chiusa chiusa, l'overhead di conformità rispetto al nostro riferimento.
| Metrica | Sluis chiusa aperta | Sluis chiusa chiusa | LiteLLM | Bifrost |
|---|---|---|---|---|
| Throughput (RPS) | 4,046 | 3,678 | 298 | 3,148 |
| Latenza p50 (ms) | 62 | 63 | 743 | 80 |
| Latenza p99 (ms) | 77 | 130 | 4,584 | 118 |
| RSS di picco (MiB) | TBD | TBD | TBD | TBD |
| Tasso di successo | 100% | 100% | 100% | 100% |
La latenza è misurata end-to-end attraverso il gateway, sullo stesso mock a latenza fissa: le differenze sono l'overhead proprio dei gateway.
La colonna chiusa chiusa è overhead di conformità rispetto a chiusa aperta, non un duello.
Contro un modello reale (a tasso limitato a 10 RPS perché il fornitore non strozzi mai), la chiusa non aggiunge nulla alla mediana: 289 ms chiusa contro 291 ms aperta. Le code p99 di quella corsia appartengono al fornitore, non ai gateway.
Un'affermazione onesta, o nessuna.
Un benchmark di cui non ci si può fidare è peggio di nessun benchmark. Perciò ci vincoliamo ad alcune regole, scritte prima che esca qualsiasi numero.
- L'affermazione «il più veloce» in duello riguarda solo la chiusa aperta: Sluis come semplice proxy contro LiteLLM e Bifrost, che non hanno una chiusa di conformità.
- La chiusa chiusa non viene mai spacciata per una vittoria sui concorrenti. È overhead rispetto al nostro riferimento, detto senza giri di parole: un millisecondo alla mediana, il nove per cento di throughput ceduto a saturazione sintetica, e un p99 di 130 ms contro 77 ms.
- La corsia dal vivo contro un vero fornitore UE è a tasso limitato ed etichettata con onestà: la chiusa non aggiunge nulla alla mediana, e le code p99 sono varianza del fornitore, non overhead del gateway. Un controllo di plausibilità, non il titolo.
- Se Sluis a chiusa aperta non è chiaramente più veloce, il titolo diventa «conformità a costo trascurabile». L'inquadratura onesta, non quella più rumorosa.
Costruito per il regolatore nella stanza, non solo per il test di carico.
Leggi come funziona il gateway, poi osserva come si comporta la chiusa di conformità.