LLM-orkestrering.
Rätt modell
för rätt uppgift.
Ni har ett AI-system i produktion men kostnaderna skenar, svarstiderna är oberäkneliga eller en leverantör går ned och hela systemet faller. Vi bygger orkestreringslagret som löser det.
Problemet ni förmodligen känner igen
Ni började med en enda LLM — GPT-4 eller Claude — kopplad direkt till er applikation. Det fungerade bra i prototyp. I produktion upptäcker ni tre saker: 1. Token-kostnaderna är högre än ni planerat. 2. Svarstiden varierar mellan 800ms och 15 sekunder. 3. När leverantörens API är nere är hela ert system nere.
Orkestrering är lagret mellan er applikation och modellerna som löser alla tre.
Vad vi bygger
- Routing-logik: enkla klassificeringsfrågor går till liten modell, komplexa resonemang till stor
- Multi-provider fallback: primärt Anthropic, fallback till OpenAI, sekundär fallback till self-hosted
- Caching av identiska eller semantiskt liknande prompts — kan minska kostnad med 30–60%
- Prompt-komprimering som tar bort redundant kontext innan anropet
- Batchning av oberoende anrop för att spara på overhead
- Rate limiting och kostnadsbegränsning per användare, per endpoint, per dygn
- Observability: full trace av varje anrop — vilken modell, tokens in/ut, latens, kostnad
- Streaming-stöd för långa svar, med tidig ansluten timeout
Vad ni får ut
- 20–60% lägre token-kostnader (mätbart första månaden)
- Deterministisk latens — P95 under er SLA
- 99.9% uptime även när enskilda leverantörer har avbrott
- Full visibility — ni ser exakt var tiden och pengarna tar vägen
När detta är rätt investering
Orkestrering är värt det när ni redan har en LLM-baserad applikation i produktion med ≥10 000 anrop per månad, eller när kostnaden överstiger 5 000 kr/månad. Under det är direktkoppling oftast billigare att underhålla.
Investeringsnivå
Implementation: 150 000–400 000 kr beroende på komplexitet och antalet modeller som ska orkestreras. ROI-breakeven sker ofta inom 2–4 månader via minskade API-kostnader. Fri förstudie — vi börjar med att mäta era nuvarande kostnader och latens.
Vanliga frågor
Kan ni använda LangChain eller är det egen kod?
Vi använder gärna etablerade ramverk (LangChain, Vercel AI SDK, LlamaIndex) när de tjänar syftet — men vi skriver egen orkestreringslogik när de är för generella eller för svårdiagnostiserade. Vi väljer utifrån projektets behov, inte teknikpreferens.
Låser ni in oss hos en viss modellleverantör?
Tvärtom. Hela syftet med orkestreringslagret är att göra er oberoende — ni ska kunna byta från OpenAI till Anthropic till Mistral utan att ändra en enda rad i er applikationskod.
Stöds self-hosted modeller?
Ja. Llama, Mistral, Qwen via vLLM eller TGI. Ofta bygger vi hybrid-setup där känslig data går till en self-hosted SLM och lågriskfrågor till API-leverantör för bättre kvalitet.
Vi mäter först, bygger sedan.
En veckas kostnads- och latensanalys visar om orkestrering är värt investeringen för er.