AI-kunskap

Vad menas med vektorisering, tokens och RAG?

Vad är tokens, vad menas med vektorisering av information och vad är RAG för något egentligen?

Detta är en lite mer djupgående artikel om hur stora språkmodeller fungerar i sin grundaste form (men skrivet på ett – förhoppningsvis – begripligt vis). Häng med så får du veta hur hela fråga-svar-kedjan fungerar — från att du skriver in en prompt eller laddar upp ett dokument till en chattkonversation till att du får ett relevant svar.

Från text till matematik – så förstår generativ AI det du matar in

Varje gång du skickar in något i Saia-appen – en fråga/instruktion eller ett dokument– börjar en process som är helt osynlig för dig: texten omvandlas till matematiska strukturer. Till skillnad från oss människor kan stora språkmodeller inte "läsa" ord – istället översätter de allt till siffror som de kan beräkna med.

Denna transformation sker i flera steg, och det är den som gör att AI kan förstå sammanhang, hitta relevant information och ge träffsäkra svar.

Steg 1: Tokens – texten delas upp i bitar

Först delar AI:n upp all information (text) i små bitar och ger varje bit ett unikt ID-nummer. Dessa ID-nummer kallas tokens.

Processen ser ut så här:

  • Texten delas upp i ord, delord eller tecken
  • Varje bit får direkt ett token-ID (ett heltal)

Exempel:

"studiecirkel" delas upp och kan bli 4 tokens:

  • "stud" → 41433
  • "ie" →  396  
  • "cir" → 31224
  • "kel" → 13507

Tokens är alltså siffror som pekar ut textbitar, men dessa siffror är bara etiketter – de säger inget om vad orden betyder eller hur de hänger ihop.

Olika språkmodeller har sitt egna token-vokabulär, och token-ID för respektive textbit är alltså olika för olika modeller.

💡 Vill du testa och se hur din egen text omvandlas till tokens? Du kan testa här!

Steg 2: Vektorisering – där siffror får betydelse

Nu kommer den avgörande delen: varje token-ID omvandlas till en så kallad vektor – en lång lista med siffror som beskriver ordets betydelse och relationer till andra ord.

Detta kallas vektorisering (eller embedding).

Varför är detta viktigt?

Vektorerna skapas av AI-modellen så att:

  • Ord med liknande betydelse får liknande vektorer, exempelvis:
  • "studiecirkel" och "kurs" får vektorer som ligger nära varandra i "sifferrymden"
  • "studiecirkel" och "apelsinskal" får vektorer som ligger långt ifrån varandra

Skillnaden mellan token och vektor:

  • Token-ID "9283" = bara en etikett för en textbit
  • Vektor "[0.25, -0.43, 0.87, ...]" = fångar betydelsen av "textbiten" och dess relation till andra ord

Det är vektorerna som gör att AI:n kan förstå mening och sammanhang, inte bara känna igen teckenföljder.

Steg 3: RAG – hur Saia hittar och använder rätt information

RAG står för Retrieval-Augmented Generation  och är metoden som generativa språkmodeller använder för att ge så korrekta och relevanta svar som möjligt baserat på den kunskap vi ger modellen, exempelvis i form av ett uppladdat dokument.

Så här fungerar det:

  1. Du laddar upp ett dokument i en chattkonversation i Saia
  2. Dokumentinnehållet tas ut, konverteras till tokens, vektoriseras och sparas i en cool databas som kan hålla ordning på alla de här sifferkombinationerna
  3. Du ställer nu en fråga i Saia
  4. Din fråga tokeniseras och vektoriseras (görs om till en meningsfull sifferlista)
  5. Saia jämför din frågas sifferlista med alla sifferlistor i den coola databasen
  6. Saia hämtar ut de mest relevanta textavsnitten (de med mest lika vektorer) och tar in det i kontexten i konversationen
  7. AI:n genererar nu ett svar baserat på just den informationen

Det är som att AI:n först letar upp rätt sidor i din boksamling genom att känna igen betydelsen av din fråga, och sedan formulerar ett svar utifrån det den hittat – istället för att gissa eller hitta på.

Varför är detta viktigt?

Genom tokenisering och vektorisering kan AI:

  • Förstå vad som menas i en fråga som ställs, oavsett om den formuleras på olika sätt

Genom vektorisering och RAG kan AI: 

  • Hitta rätt information snabbt i stora mängder information
  • Svara baserat på innehållet som hämtas från det tidigare uppladdade informationen, inte bara generell kunskap
  • Minimera att AI:n hittar på svar (så kallad "hallucination")

Detta är grunden för hur ett flöde för källhänvisade AI-svar hanteras i den generativa AI-världen.