Hoppa till innehåll

Små språkmodeller vs stora: när GPT-5 är overkill

SLM:er som Llama 4 och Mistral är tillräckligt bra för de flesta produktionsuppgifter — till en tiondel av kostnaden. Guide för när små vs stora modeller är rätt val.

Små språkmodeller vs stora: när GPT-5 är overkill

Det här är den minst diskuterade arkitekturfrågan för AI-system i produktion 2026: när behöver ni faktiskt en frontier-modell, och när räcker en mycket mindre? McKinsey och BCG tjatar alltmer om "small language models" som vägen till verklig ROI. De har rätt, men mellan diagrammen försvinner det konkreta. Den här artikeln fyller gapet.

Förtydligande: vi diskuterar moderna SLM:er (små språkmodeller, 1–70 miljarder parametrar) jämfört med frontier-LLM:er som GPT-5, Claude 4.7 och Gemini Ultra (hundratals miljarder till biljoner parametrar).

Varför SLM-diskussionen dyker upp nu

Tre saker har hänt 2025–2026:

  • Små modeller har blivit radikalt bättre. Llama 4 8B, Phi-4 och Mistral Small 3 når prestanda som för två år sedan krävde 500B+-modeller på många konkreta uppgifter.
  • Inferenskostnaden för stora modeller har inte sjunkit i takt med användningen. Många företag får månadsfakturor på 50 000–500 000 kr för GPT-4-användning.
  • EU-datalokalitet och GDPR har skapat ökad efterfrågan på self-hosted — vilket är mycket billigare med SLM:er.

Resultatet: en klass av problem där det tidigare "självklart" valet av frontier-modell inte längre är självklart.

När små modeller räcker

SLM:er presterar idag jämbördigt eller bättre än frontier-modeller på uppgifter där:

  • Uppgiften är specifik och repeteras ofta (t.ex. klassificering, struktur­extraktion, rutinsvar)
  • Indata är förutsägbar i format
  • Output är kort och strukturerad
  • Domänen är avgränsad (en bransch, en produkttyp, en processtyp)

Konkreta exempel:

  • Klassificering av inkommande e-post eller supportärenden
  • Extraktion av strukturerad data ur ostrukturerad text (fakturor, avtal, rapporter)
  • Sammanfattning enligt fast mall
  • Översättning mellan likartade språk
  • Standard-svar i kundservice (med fallback till människa för kantfall)
  • Embedding-generering för vektordatabas

När stora modeller fortfarande är bäst

Frontier-modeller dominerar där:

  • Uppgiften kräver komplext, flerstegs­resonemang
  • Kontexten är bred eller tvetydig
  • Output är kreativ eller kräver nyansering
  • Korrekthet är kritiskt och misstag är dyra
  • Domänen är öppen (allmänt kunnande krävs)

Konkreta exempel:

  • Strategisk analys och rådgivning
  • Komplex kodgenerering och -debugging
  • Vetenskaplig eller juridisk resonemang
  • Kreativ textgenerering där kvalitet är avgörande
  • Agenter som ska välja bland många möjliga handlingsvägar

Kostnadsjämförelse (april 2026)

Ungefärliga siffror per miljon tokens (input + output blandade):

  • GPT-5: ~40–80 kr
  • Claude 4.7 Sonnet: ~30–60 kr
  • Gemini 2 Pro: ~15–30 kr
  • Llama 4 8B self-hosted (AWS g5.xlarge): ~0,50–2 kr
  • Mistral Small 3 self-hosted: ~1–4 kr
  • Phi-4 self-hosted: ~0,30–1,50 kr

Skillnaden är alltså 10–100x. För ett system med 50 miljoner tokens/månad är det skillnaden mellan 2000 kr och 200 000 kr.

Hybrid-arkitektur: det bästa av båda

I produktion kombinerar vi nästan alltid modeller:

  1. En liten modell klassificerar inkommande frågan: "enkel", "medel", "komplex"
  2. Enkla går till SLM — snabbt, billigt
  3. Medel går till en mid-tier modell (Haiku, GPT-5 mini)
  4. Komplexa går till frontier-modell
  5. Om frontier-modellen är osäker, eskaleras det till människa

Resultat: 70–90% av trafiken går genom billig modell. Kvalitet bibehållen för de komplexa fallen. Total kostnad sjunker ofta med 60–80% jämfört med att skicka allt till frontier.

Detta kräver ett ordentligt orkestreringslager, men investeringen betalar sig snabbt.

Andra fördelar med små modeller

Utöver kostnad finns praktiska skäl:

  • Latens: SLM:er svarar ofta på 100–400ms. Frontier-modeller 1–5 sekunder.
  • Datalokalitet: Self-hosted SLM aldrig lämnar er infrastruktur. Ren EU-compliance.
  • Deterministi: SLM:er med låg temperatur är mer förutsägbara — bra för strukturerad output.
  • Oberoende: Ni är inte utlämnade till OpenAI:s prissättning eller strömavbrott.
  • Fine-tuning är billigt: Fine-tuning av SLM tar timmar, inte veckor. Kan göras ombord med moderat GPU.

När stora modeller fortfarande är kostnadseffektiva

Kontra­intuitivt: vid låg volym är frontier-modeller oftast billigare totalt. Att sätta upp och underhålla self-hosted inference kostar i infrastruktur och expertis. Tumregel:

  • Under 5 miljoner tokens/månad: använd frontier-API
  • 5–50 miljoner tokens/månad: utvärdera hybrid
  • 50+ miljoner tokens/månad: SLM self-hosted är nästan alltid värt det

Vanliga fel vi ser

Fel 1: "Vi använder GPT-5 för allt eftersom det är bäst"

Kostar ofta 10x mer än nödvändigt. Och "bäst" för en komplex fråga är inte "bäst" för en enkel klassificering där deterministisk SLM är mer pålitlig.

Fel 2: "Vi använder Llama eftersom det är gratis"

Llama är open-source, inte gratis. Drift av self-hosted inference kostar i molninstans, ingenjörs­tid och monitoring. Under viss skala är API-kostnaden lägre än driftkostnaden.

Fel 3: "Vi startade med GPT-4 och nu är vi inlåsta"

Ni är inte inlåsta om ni bygger med abstraktion. Ett ordentligt orkestreringslager låter er byta modell per anrop utan att ändra applikationskod. Om ni är inlåsta är det ett arkitektur­fel, inte en modellfråga.

Konkret rekommendation för svenska mellanföretag

Om ni står inför en arkitekturfråga:

  1. Börja med frontier-API för att bevisa att use casen fungerar.
  2. När den är i produktion: mät vilken typ av frågor som går igenom. Klassificera dem i enkel/medel/komplex.
  3. När enkla frågor står för ≥40% av volymen, överväg hybrid med SLM för just dem.
  4. Bygg in möjlighet att byta modell per endpoint från dag 1. Det är billigt då, dyrt senare.

Om ni vill ha hjälp att utvärdera vad som är rätt mix för er — det är en del av vad vi gör i förstudien. Fri, konkret, ärlig.