MENY

Hva er en LLM? Forklaring av Large Language Models (LLM) – trening, bruk og begrensninger

LLM forklart: hva det er, og hva det ikke er

Publisert:

Av:

Erik Holand

,

Byråleder

Kategorier:

En LLM (Large Language Model) er en maskinlæringsmodell som kan generere tekst ved å beregne hva som mest sannsynlig kommer neste i en tekstsekvens. Den brukes til å skrive, oppsummere, klassifisere og svare på tekstbaserte oppgaver.

Hvordan fungerer en LLM på høyt nivå?

  • Trening på store tekstmengder: Modellen trenes på store mengder tekst (og ofte kode). Under trening justeres interne parametere for å bli bedre til å forutsi neste tekstbit.

  • Sannsynlighetsbasert neste-token-prediksjon: Tekst deles i tokens (biter av ord/tegn). Modellen beregner sannsynligheten for neste token gitt konteksten, og bygger svar token for token.

  • Transformer og attention: De fleste moderne LLM-er bruker transformer-arkitektur. Attention lar modellen vekte hvilke deler av inputen som er viktigst når den predikerer neste token.

Viktige skiller du bør forstå

Trening vs. bruk (inference)

  • Trening: Lang prosess der modellen lærer statistiske mønstre fra store datasett og lagrer dette i parametere.

  • Bruk (inference): Når du sender inn en prompt, bruker modellen parametrene til å generere et svar. Normalt endrer den ikke parametere eller “lærer” permanent av samtalen.

“Kunnskap” vs. mønstergjenkjenning/statistikk

  • En LLM har ikke “kunnskap” som et oppslagsverk med verifiserte fakta.

  • Den har statistisk lærte mønstre fra treningsdata, og kan gjengi eller kombinere dem på plausible måter.

  • Derfor kan den virke kunnskapsrik, men fortsatt ta feil når mønsteret peker i feil retning.

Tekstgenerering vs. “forståelse”

  • En LLM er primært en tekstgenerator som lager sammenhengende og ofte nyttig tekst.

  • Den har ikke nødvendigvis robust forståelse slik mennesker har (f.eks. av fysisk verden, hensikt, eller hva som er sant uten støtte i kontekst/data).

  • Den kan likevel løse mange oppgaver godt fordi språk inneholder mye struktur og regularitet.

3 bruksområder i jobb/forretning

  1. Kundeservice og intern support: Utkast til svar, kunnskapsbase-søk, triagering og kategorisering av henvendelser.

  2. Dokument- og møtearbeid: Oppsummering, omforming av notater til beslutningspunkter, kvalitetssikring av språk og struktur.

  3. Utvikling og analyse: Hjelp med kodeutkast, forklaring av feil, forslag til SQL/spørringer, og oversetting mellom teknisk og forretningsspråk.

3 typiske begrensninger og risikoer

  • Hallusinasjoner: Modellen kan finne på fakta, tall eller kilder når den mangler sikker støtte i kontekst.

  • Bias og skjevheter: Treningsdata kan inneholde skjevheter som påvirker svar, vurderinger og prioriteringer.

  • Datalekkasjer og personvern + oppdateringsproblem: Sensitiv info i prompt kan bli håndtert feil i systemer uten riktig kontroll. I tillegg kan modellen være utdatert og mangle ferske fakta.

Hva er “kontekstvindu”, og hvorfor betyr det noe?

Kontekstvindu er maks mengde tekst (i tokens) modellen kan ta hensyn til samtidig: prompt, historikk og vedlegg som er “inne” i vinduet.
Det betyr noe fordi:

  • For lite kontekst gir høyere feilrate og mer generelle svar.

  • Lang kontekst kan også forstyrre hvis den inneholder støy.

  • Lange dokumenter må ofte deles opp (chunking) eller oppsummeres.

Mini-ordliste (LLM-begreper)

  • LLM: Språkmodell trent på store tekstmengder.

  • Token: Tekstbit modellen regner på (ikke alltid et helt ord).

  • Prompt: Instruksen og konteksten du gir modellen.

  • Transformer: Arkitektur som muliggjør effektiv tekstbehandling i LLM-er.

  • Attention: Mekanisme som vektlegger relevante deler av kontekst.

  • Parametere: Tallverdier som representerer det modellen har lært statistisk.

  • Trening (training): Læringsfasen der parametere justeres på store datasett.

  • Inference: Bruksfasen der modellen genererer svar uten å endre parametere.

  • Hallusinasjon: Overbevisende, men feilaktig innhold.

  • Kontekstvindu: Token-grensen for hvor mye modellen kan ta hensyn til samtidig.

Har du spørsmål?

Ofte stilte spørsmål om LLMer

Hva kan vi realistisk bruke en LLM til i en virksomhet?

Hva må til for at svarene skal bli gode nok til produksjon?

Kan en LLM brukes som “sannhetsmotor” for fakta?

Hvorfor “hallusinerer” en LLM?

Hvordan reduserer vi risikoen for feil og hallusinasjoner?

Er LLM-er trygge å bruke med sensitive data?

Hva er forskjellen på en generell modell og en “RAG”-løsning?

Hold deg oppdatert

Vi deler innsikt, analyser og erfaringer fra vårt arbeid med selskaper i endring.

Ved å melde deg på godtar du vår personvernerklæring.

Vi kombinerer strategi, kreativitet, teknologi og annonsering for å hjelpe ambisiøse selskaper i endring.

Hold deg oppdatert: Vi deler innsikt, meninger, nyheter og erfaringer fra vårt arbeid med selskaper i endring.

Ved å melde deg på godtar du vår personvernerklæring.

Layer er en del av Layer Gruppen

Våre søsterselskaper:

Vi kombinerer strategi, kreativitet, teknologi og annonsering for å hjelpe ambisiøse selskaper i endring.

Hold deg oppdatert: Vi deler innsikt, analyser og erfaringer fra vårt arbeid med selskaper i endring.

Ved å melde deg på godtar du vår personvernerklæring.

Karenslyst Allé 9A, 0278 Oslo