Vad menas med vektorisering, tokens och RAG?

Start

AI-kunskap

Kunskapsbank

Om Kunskapsbanken

Få hjälp av @Saia-supporten

Ibland vilar Saia

Driftnformation (status)

Aktuella buggar

Om Saia-projektet

AI-kunskap

Vad menas med vektorisering, tokens och RAG?

Vad är tokens, vad menas med vektorisering av information och vad är RAG för något egentligen?

Detta är en lite mer djupgående artikel om hur stora språkmodeller fungerar i sin grundaste form (men skrivet på ett – förhoppningsvis – begripligt vis). Häng med så får du veta hur hela fråga-svar-kedjan fungerar — från att du skriver in en prompt eller laddar upp ett dokument till en chattkonversation till att du får ett relevant svar.

Siavash Vatanijalal

Uppdaterad:

2025-12-10

•

5 min lästid

Från text till matematik – så förstår generativ AI det du matar in

Varje gång du skickar in något i Saia-appen – en fråga/instruktion eller ett dokument– börjar en process som är helt osynlig för dig: texten omvandlas till matematiska strukturer. Till skillnad från oss människor kan stora språkmodeller inte "läsa" ord – istället översätter de allt till siffror som de kan beräkna med.

Denna transformation sker i flera steg, och det är den som gör att AI kan förstå sammanhang, hitta relevant information och ge träffsäkra svar.

Steg 1: Tokens – texten delas upp i bitar

Först delar AI:n upp all information (text) i små bitar och ger varje bit ett unikt ID-nummer. Dessa ID-nummer kallas tokens.

Processen ser ut så här:

Texten delas upp i ord, delord eller tecken
Varje bit får direkt ett token-ID (ett heltal)

Exempel:‍

"studiecirkel" delas upp och kan bli 4 tokens:

"stud" → 41433
"ie" → 396
"cir" → 31224
"kel" → 13507

Tokens är alltså siffror som pekar ut textbitar, men dessa siffror är bara etiketter – de säger inget om vad orden betyder eller hur de hänger ihop.

Olika språkmodeller har sitt egna token-vokabulär, och token-ID för respektive textbit är alltså olika för olika modeller.

💡 Vill du testa och se hur din egen text omvandlas till tokens? Du kan testa här!

Steg 2: Vektorisering – där siffror får betydelse

Nu kommer den avgörande delen: varje token-ID omvandlas till en så kallad vektor – en lång lista med siffror som beskriver ordets betydelse och relationer till andra ord.

Detta kallas vektorisering (eller embedding).

Varför är detta viktigt?

Vektorerna skapas av AI-modellen så att:

Ord med liknande betydelse får liknande vektorer, exempelvis:
"studiecirkel" och "kurs" får vektorer som ligger nära varandra i "sifferrymden"
"studiecirkel" och "apelsinskal" får vektorer som ligger långt ifrån varandra

Skillnaden mellan token och vektor:

Token-ID "9283" = bara en etikett för en textbit
Vektor "[0.25, -0.43, 0.87, ...]" = fångar betydelsen av "textbiten" och dess relation till andra ord

Det är vektorerna som gör att AI:n kan förstå mening och sammanhang, inte bara känna igen teckenföljder.

Steg 3: RAG – hur Saia hittar och använder rätt information

RAG står för Retrieval-Augmented Generation och är metoden som generativa språkmodeller använder för att ge så korrekta och relevanta svar som möjligt baserat på den kunskap vi ger modellen, exempelvis i form av ett uppladdat dokument.

Så här fungerar det:

Du laddar upp ett dokument i en chattkonversation i Saia
Dokumentinnehållet tas ut, konverteras till tokens, vektoriseras och sparas i en cool databas som kan hålla ordning på alla de här sifferkombinationerna
Du ställer nu en fråga i Saia
Din fråga tokeniseras och vektoriseras (görs om till en meningsfull sifferlista)
Saia jämför din frågas sifferlista med alla sifferlistor i den coola databasen
Saia hämtar ut de mest relevanta textavsnitten (de med mest lika vektorer) och tar in det i kontexten i konversationen
AI:n genererar nu ett svar baserat på just den informationen

Det är som att AI:n först letar upp rätt sidor i din boksamling genom att känna igen betydelsen av din fråga, och sedan formulerar ett svar utifrån det den hittat – istället för att gissa eller hitta på.

Varför är detta viktigt?

Genom tokenisering och vektorisering kan AI:

Förstå vad som menas i en fråga som ställs, oavsett om den formuleras på olika sätt

Genom vektorisering och RAG kan AI:

Hitta rätt information snabbt i stora mängder information
Svara baserat på innehållet som hämtas från det tidigare uppladdade informationen, inte bara generell kunskap
Minimera att AI:n hittar på svar (så kallad "hallucination")

Detta är grunden för hur ett flöde för källhänvisade AI-svar hanteras i den generativa AI-världen.

Saia kunskapsbank

Kunskapsbank

Grundläggande

Avancerade funktioner

AI-kunskap

Tips och tricks

Administration

Dataskydd och integritet

Vad menas med vektorisering, tokens och RAG?

Från text till matematik – så förstår generativ AI det du matar in

Steg 1: Tokens – texten delas upp i bitar

Steg 2: Vektorisering – där siffror får betydelse

Varför är detta viktigt?

Steg 3: RAG – hur Saia hittar och använder rätt information

Varför är detta viktigt?