Artikel

GPT-2 og tidlig generativ AI — Springet til transformer-baseret tekstgenerering

GPT-2 (2019) genererede overbevisende tekst med 1,5 mia. parametre. OpenAI tøvede med fuld udgivelse. Startpunktet for æraen af LLM-baseret tekstgenerering.

I 2017 publicerede Google researchers “Attention Is All You Need” — papiret der introducerede transformer-arkitekturen. Det var ikke en chatbot, ikke et produkt, men en arkitektonisk idé. Inden for to år havde den idé fundamentalt ændret NLP.

Den direkte konsekvens var to parallelle projekter med modsatte mål: BERT (Google, 2018) optimerede til forståelse — givet en tekst, hvad er den mest sandsynlige manglende del? GPT (OpenAI, 2018) og dets efterfølger GPT-2 (2019) optimerede til generering — givet en tekst, hvad er det mest sandsynlige næste stykke?

GPT-2: Tekst der overraskede

GPT-2 med 1,5 milliarder parametre producerede output der var kvalitativt anderledes end alt der var kommet fra Markov-modeller eller Word2Vec-baserede systemer. Givet prompten “The researchers worked side by side in the lab” fortsatte modellen med en grammatisk, sammenhængende og faktisk læsbar passage om videnskabeligt laboratoriearbejde — ikke bare statistisk plausibel ordsekvens.

OpenAI udgav ikke GPT-2 fuldt ud ved launch. Begrundelsen var bekymring for misbrug — desinformation, spam, automatiseret propaganda. I stedet udgav de modellen i etaper og afventede reaktioner på de løbende releases. Det var første gang en AI-virksomhed eksplicit tilbageholdt et system af frygt for skadevirkninger.

Retrospektivt virker den bekymring overdrevet — GPT-2 er i dag trivielt at køre lokalt og er langt fra det mest avancerede system tilgængeligt. Men i 2019 var det en ny slags advarsel.

Perioden 2019-2022

Mellem GPT-2 og ChatGPT skete meget:

GPT-3 (2020): 175 milliarder parametre. Demonstration af few-shot learning — modellen kunne løse opgaver den aldrig var specifikt trænet på, blot ved at se eksempler i prompten. API-adgang åbnede for en generation af GPT-3-baserede produkter.

GitHub Copilot (2021): Første masseadopterede AI-kodegenererings-produkt, baseret på Codex (en GPT-3 fintunet på kode). Introducerede AI-assistance som et praktisk arbejdsredskab for millioner af udviklere.

InstructGPT (2022): OpenAI introducerede RLHF (Reinforcement Learning from Human Feedback) — modellen trænedes til at følge instruktioner frem for blot at fortsætte tekst. Det var den afgørende tekniske forskel der muliggjorde ChatGPT.

Hvad der adskilte GPT-2 fra spintax og Markov

Forskellen er ikke bare skala — den er arkitektonisk. Transformer-modeller har attention-mekanismer der tillader hvert token at tage hensyn til alle andre tokens i konteksten. Det giver langsigtet sammenhæng som hverken spintax, Markov-kæder eller Word2Vec kunne opnå.

Resultatet er tekst der er sammenhængende over hele passager, der husker detaljer fra indledningen, og der kan følge komplekse instruktioner. Det er en kvalitativ — ikke blot kvantitativ — forskel fra det der kom før.

Andre artikler i samme emne

Placering i ordbogen