Hoe leert ChatGPT?

Datum: 19 juli 2023

Auteur: Ilona Mathijsen

In dit artikel een toelichting op hoe ChatGPT leert en hoe dat verschilt van mensen. Schuin en in paars gedrukte zinnen zijn gebaseerd op het antwoord dat ChatGPT zelf heeft gegeven op de vraag om leerprincipes van een taalmodel te vergelijken met de leerprincipes van menselijk leren. ChatGPT geeft desgevraagd een antwoord vanuit vier perspectieven:

Input en verwerking
Feedback en correctie
Begripsvorming en abstractie
Sociaal leren en leren in interactie

ChatGPT impliciet ook naar het behaviorisme, cognitivisme en sociaal constructivisme. Dergelijke en andere toevoegingen zijn van eigen hand.

Het is allereerst belangrijk om op te merken dat taalmodellen zoals ChatGPT gebaseerd zijn op algoritmen en machinaal leren, terwijl menselijk leren een complex proces is dat wordt beïnvloed door biologische, psychologische en sociale factoren. Hoewel taalmodellen kunnen worden getraind om taalkundige taken uit te voeren, kunnen ze niet dezelfde diepgang van begrip, ervaring en creativiteit bereiken als menselijke leerprocessen. Aldus chatGPT.

Input en verwerking

Een taalmodel zoals ChatGPT ontvangt grote hoeveelheden tekstuele gegevens als input. Het model verwerkt deze gegevens met behulp van algoritmen en statistische methoden om patronen en structuren te identificeren. Menselijk leren begint vaak met zintuiglijke waarneming en ervaring. Mensen gebruiken hun zintuigen om informatie te verzamelen en verwerken deze informatie met behulp van cognitieve processen, zoals perceptie, aandacht, geheugen en denken.

Feedback en correctie

Tijdens het trainingsproces krijgt een taalmodel feedback op basis van voorbeeldgegevens. Het model past zich aan door op basis van feedback bepaalde verbanden te versterken. Mensen ontvangen feedback en correctie van leraren, ouders, peers en de omgeving. Deze feedback helpt bij het corrigeren van fouten, het versterken van juist gedrag en het aanpassen van ons begrip van de wereld.

De mogelijkheid om elk antwoord van ChatGPT te waarderen met een duimpje omhoog of een duimpje omlaag, is gebaseerd op het behaviorisme. Zonder toelichting wordt een goed antwoord ‘beloond’ en een fout antwoord ‘bestraft’ vanuit de veronderstelling dat dit leidt tot bekrachtiging van verbindingen in het netwerk en daarmee herhaling van goede antwoorden.

Echter de wijze en intensiteit van bekrachtiging en daarmee het daadwerkelijke leren, is van een andere orde. De mens allereerst ervaart niet alleen bekrachtiging of correctie op de inhoud, het ervaart dit in context. Het doet er mogelijk toe wie de feedback geeft, met welke intonatie etc. Daarnaast wordt de feedback door een mens mogelijk verkeerd of anders geïnterpreteerd dan bedoeld. Ook is de feedback in het geval van AI ingebed in het mechanisme van voorspellingen op basis van heel veel data. Mensen hebben soms aan één keer feedback voldoende om tot leren te komen. Hoewel dat ook afhankelijk is van hetgeen geleerd wordt. En ten aanzien van sommige leerinhouden en – momenten zouden we onszelf wellicht meer feedback moeten gunnen. Als kinderen leren lezen, dan moeten ze, zoals we weten, ‘kilometers maken’. Feedback op het lezen, op een kind dat individueel leest, is echter marginaal omdat dit of hardop lezen veronderstelt of omdat feedback verloopt via correctie op antwoorden over een gelezen tekst. AI zal in de toekomst wellicht kunnen helpen door te luisteren naar de tekst die een lerende leest en ‘met veel geduld’ de lerende lezer van feedback voorzien.

Ten slotte is feedback ‘normatief’ in de zin dat de feedbackgever bepaalt wat de norm, wat goed of fout is en daarmee ook de afwijking van de norm. In het geval van een taalmodel, zoals ChatGPT, bepalen de trainingsdata, of voorbeeldgegevens de norm. Dus als ChatGPT veel vaker de combinatie soep-lepel heeft gezien dan de combinatie soep-vork, dan is de soep-lepel combinatie “beter” dan de combinatie soep-vork. ChatGPT heeft daarbij ook geen last van twijfel. Met ‘de grootste overtuiging’ kan het onzin presenteren en corrigeert zichzelf pas na daar expliciet te worden uitgenodigd.

Begripsvorming en abstractie

Taalmodellen zoals ChatGPT zijn in staat om semantische relaties en conceptuele representaties te leren door grote hoeveelheden tekst te verwerken. Ze kunnen patronen herkennen en contextueel begrip ontwikkelen. Mensen hebben de capaciteit om concepten te begrijpen en abstracte ideeën te vormen. Dit vermogen wordt ondersteund door hogere cognitieve functies, zoals redeneren, logica en analogieën.

In dit antwoord is het cognitivisme herkenbaar omdat ChatGPT als het ware veel data en cognitieve representaties nodig heeft om te leren. Vergelijk het met een concept-map waarbij verbindingen tussen begrippen worden bekrachtigt wanneer deze vaak voorkomen. De mens is sneller in staat tot conclusies en gevolgtrekkingen, op basis van minder data. Wanneer we zien dat een ander pijn heeft wanneer hij of zij per ongeluk een hete pan die op het vuur staat, aanraakt, dan leren we dat het aanraken van zo’n pan, pijn kan veroorzaken. Van zo’n observatie hebben we er maar weinig nodig.

Sociaal leren, leren in interactie

Taalmodellen leren niet op basis van directe interactie met anderen. Ze gebruiken wel indirect informatie die is gegenereerd door menselijke interactie en taalgebruik om te leren en te verbeteren. Mensen leren vaak door directe interactie met anderen. Sociale interactie, zoals discussies, samenwerking en observatie van anderen, speelt een belangrijke rol bij het verwerven van nieuwe kennis, gedrag en culturele normen.

Sociaal leren, leren in sociale interactie maakt de mens uniek. In zijn theorie van sociaal leren heeft Bandura (1963) het bijvoorbeeld over ‘vicarious experience’; het leren door het observeren van anderen. Denk aan de observatie van de hete pan op het vuur. Sociaal constructivisme vertrekt vanuit de aanname dat mensen betekenis geven aan informatie en ervaring, kennis opbouwen in de sociale interactie. Samenwerkend leren doet hier een beroep op.

Interactie met ChatGPT is eigenlijk fake. Dat wil zeggen daar waar ChatGPT bijvoorbeeld excuses geeft voor een eerder gemaakte misser, is dat alleen maar omdat het de voorspelling maakt dat excuses aan de orde zijn omdat de gebruiker daar in een prompt aanleiding toe heeft gegeven. Daar zal ChatGPT wellicht steeds geraffineerder in worden, want zelfs zonder te zeggen dat een vorig antwoord ‘de plank missloeg’ zal het mogelijk uit kleine nuances in taalgebruik, kunnen afleiden dat de gebruiker niet tevreden is.

Het risico bestaat dat wanneer ChatGPT dermate op een natuurlijke manier beleefdheid in de interactie simuleert, de gebruiker menselijke kwaliteiten aan AI toedicht. In het geval dat antwoorden niet correct zijn, leidt dit mogelijk tot onterechte waardering van een incorrect antwoord.

Kortom, het menselijk leren is gebaseerd op een meer beperkte input aan data en vindt in een sociale context plaats. Het leren door AI is gebaseerd op een grote hoeveelheid data waarbij de datapunten interacteren.