Wydajność

Zmierzona, nie obiecana.

Narzut bramy zmierzony na identycznym sprzęcie, przed upstreamem z keep-alive, każdy przebieg zweryfikowany na 100 % HTTP 200. Brama kosztuje jedną milisekundę w medianie; wobec prawdziwego modelu, nic mierzalnego.

Przeczytaj metodologię Przeczytaj przewodnik startowy

4,046 RPSSzczytowa przepustowość

+1 msMedianowy narzut bramy

13.6×Przepustowość vs LiteLLM

Cała płaszczyzna danych jest napisana w Rust (axum, tokio, bez garbage collectora), dlatego przy 256 równoczesnych połączeniach brama zgodności dodaje jedną milisekundę w medianie, a wobec prawdziwego modelu znika w szumie dostawcy.

Jeden upstream, identyczny sprzęt, to samo obciążenie.

Każda brama staje przed tym samym pozorowanym upstreamem z keep-alive w sieci wewnętrznej (gotowa odpowiedź OpenAI za stałym opóźnieniem 60 ms), obciążana tym samym narzędziem, oha, przy tej samej współbieżności, przez to samo okno. To izoluje narzut bramy od zmienności dostawcy. Drugi tor, o ograniczonym tempie, biegnie wobec prawdziwego dostawcy i sprawdza, czy historia trzyma się poza laboratorium.

Jeden współdzielony pozorowany upstream
Wszystkie cztery bramy kierują do tego samego pozorowanego upstreamu Node w sieci wewnętrznej (keep-alive włączony, to samo stałe opóźnienie 60 ms, to samo gotowe ciało), więc żadna nie ma szybszego backendu. Różnice opóźnień to własny narzut bram.
Odizolowane, identyczny sprzęt
Każda brama działa w kontenerze przypiętym do CPU/pamięci, obciążana przez oha przy 256 połączeniach przez to samo okno, po jednakowym odrzuconym rozgrzaniu. To samo obciążenie, te same limity, za każdym razem.
Punkt odniesienia przy wrotach otwartych
Polityka zezwól-na-wszystko, DLP tylko w trybie obserwacji, treść audytu wyłączona: Sluis jako zwykłe proxy zgodne z OpenAI.
Wrota zamknięte: prawdziwy produkt
Polityka rezydencji UE, maskowanie DLP, retencja treści i rejestr audytu łączony haszem: każde wrota aktywne na ścieżce krytycznej.

Zbudowane tak, by wyniku nie dało się po cichu zmanipulować.

Każda konfiguracja jest przypięta i identyczna we wszystkich bramach, więc porównania nie da się po cichu przechylić.

Wszystkie bramy przypięte do identycznych cgroup CPU i pamięci.
Pozorowany upstream jest identyczny co do bajta i współdzielony; jedno stałe opóźnienie dla wszystkich.
LiteLLM i Bifrost działają na identycznych konfiguracjach, bez żadnych ukrytych flag.
Jednakowe odrzucone rozgrzewanie i jednakowe okno pomiaru dla każdej bramy.
Każdy przebieg jest sprawdzany po kodach statusu: wszystko poza 100 % HTTP 200 jest odrzucane, nigdy nie publikowane.

Wyniki

Liczby, dokładnie tak jak zmierzone.

Dwie kolumny Sluis: wrota otwarte, porównanie proxy na równych zasadach; wrota zamknięte, narzut zgodności wobec naszego własnego punktu odniesienia.

Zmierzono 2026-07-04 na identycznym sprzęcie (jeden Mac Apple Silicon, Docker) przy 256 połączeniach; porównanie względne. Każdy przebieg zweryfikowany na 100 % HTTP 200, wariancja między przebiegami poniżej 1 %. Szczytowego RSS nie zarejestrowano w tym przebiegu, więc ten wiersz pozostaje TBD.

Metryka	Sluis wrota otwarte	Sluis wrota zamknięte	LiteLLM	Bifrost
Przepustowość (RPS)	4,046	3,678	298	3,148
Opóźnienie p50 (ms)	62	63	743	80
Opóźnienie p99 (ms)	77	130	4,584	118
Szczytowy RSS (MiB)	TBD	TBD	TBD	TBD
Wskaźnik powodzenia	100%	100%	100%	100%

Opóźnienie mierzymy od końca do końca przez bramę, na tym samym mocku o stałym opóźnieniu: różnice to własny narzut bram.

Kolumna wrota zamknięte to narzut zgodności wobec wrót otwartych, nie pojedynek.

Wobec prawdziwego modelu (tempo ograniczone do 10 RPS, by dostawca nigdy nie dławił), brama nie dodaje nic w medianie: 289 ms z wrotami zamkniętymi wobec 291 ms z otwartymi. Ogony p99 tego toru należą do dostawcy, nie do bram.

Uczciwe twierdzenie albo żadne.

Benchmark, któremu nie można ufać, jest gorszy niż jego brak. Dlatego wiążemy się kilkoma regułami, spisanymi, zanim ukaże się jakakolwiek liczba.

Twierdzenie „najszybszy” w pojedynku dotyczy tylko wrót otwartych: Sluis jako zwykłe proxy wobec LiteLLM i Bifrost, które nie mają wrót zgodności.
Wrót zamkniętych nigdy nie przedstawiamy jako zwycięstwa nad konkurentami. To narzut wobec naszego własnego punktu odniesienia, powiedziany wprost: jedna milisekunda w medianie, dziewięć procent przepustowości oddane przy syntetycznym nasyceniu i p99 równe 130 ms wobec 77 ms.
Tor na żywo wobec prawdziwego dostawcy z UE ma ograniczone tempo i jest oznaczony uczciwie: brama nie dodaje nic w medianie, a ogony p99 to wariancja dostawcy, nie narzut bramy. Kontrola zdrowego rozsądku, nie nagłówek.
Jeśli Sluis przy wrotach otwartych nie jest wyraźnie szybszy, nagłówek brzmi „zgodność przy znikomym koszcie”. Ujęcie uczciwe, nie głośniejsze.

Zbudowany dla regulatora w pokoju, nie tylko pod test obciążeniowy.

Przeczytaj, jak działa brama, a potem zobacz, jak spisuje się wrota zgodności.

Przeczytaj przewodnik startowy Jak to działa

Zmierzona, nie obiecana.

Jeden upstream, identyczny sprzęt, to samo obciążenie.

Jeden współdzielony pozorowany upstream

Odizolowane, identyczny sprzęt

Punkt odniesienia przy wrotach otwartych

Wrota zamknięte: prawdziwy produkt

Zbudowane tak, by wyniku nie dało się po cichu zmanipulować.

Liczby, dokładnie tak jak zmierzone.

Uczciwe twierdzenie albo żadne.

Zbudowany dla regulatora w pokoju, nie tylko pod test obciążeniowy.