AIToday Live
AIToday Live deelt praktijkverhalen over AI die je direct vooruit helpen in je werk. In een wereld waar AI-ontwikkelingen elkaar razendsnel opvolgen, kiezen wij bewust voor verdieping en praktijkervaring. We bieden een kalm kompas in turbulente tijden.
In deze podcast hoor je professionals uit Nederland en België die openhartig vertellen over hun ervaringen met AI-implementaties. Voorbij de hype en krantenkoppen laten zij zien hoe organisaties écht met AI werken.
Onze gasten delen hun successen én uitdagingen op een toegankelijke manier.
Daarmee helpen we jou om:
- Praktische inzichten te krijgen in wat AI wel en niet kan
- Te leren van de ervaringen van andere professionals
- Concrete ideeën op te doen voor je eigen organisatie
- De grotere lijnen te zien in AI-ontwikkelingen
Iedere maandag een diepgaand gesprek met een gast, gepresenteerd door Joop Snijder (CTO Aigency) en Niels Naglé (Info Support). Elke donderdag deelt Joop in een korte aflevering zijn eigen praktijkervaringen en inzichten.
"AIToday Live is twee keer genomineerd voor 'De Prijs van Oranje' door de Belgian Podcast Awards en staat op nummer 1 in de lijst van Zomerse luister-inspiratie: podcasts over AI, productiviteit, SEO & meer (Frankwatching, juni 2024)."
Ontdek hoe andere professionals AI succesvol inzetten. Ontvang ook exclusieve content, kijk achter de schermen en blijf op de hoogte van nieuwe gasten via onze nieuwsbrief: https://aitodaylive.substack.com
AIToday Live
S06E90 - De onzichtbare leraar: hoe AI leert om ons te begrijpen
Joop Snijder bespreekt in deze aflevering van AIToday Live twee belangrijke technieken die moderne AI-taalmodellen helpen menselijke communicatie beter te begrijpen: Reinforcement Learning en Reinforcement Learning from Human Feedback. Deze methoden stellen AI in staat om niet alleen informatie te verwerken, maar ook de context en bedoeling van menselijke vragen te begrijpen.
De podcast belicht hoe deze technieken fungeren als onzichtbare leraren die AI-systemen constant bijsturen en verbeteren. Er wordt ook ingegaan op de uitdagingen die deze methoden met zich meebrengen, zoals mogelijke bias en culturele verschillen in AI-training.
Onderwerpen
- Reinforcement Learning
- Reinforcement Learning from Human Feedback (RLHF)
- Evolutie van AI-begrip
- Invloed van AI-leveranciers
- Culturele verschillen in AI-training
- Podcast: AIToday Live podcast
- Techniek: Reinforcement Learning
- Techniek: Reinforcement Learning from Human Feedback
- Artikel: AlphaGo en Reinforcement Learning
- Kaartspel: AI Game Changer - Generative AI editie
Genoemde entiteiten: OpenAI - Google - Anthropic
AigencyAigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.
Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).
Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.
Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!
1
00:00:00,001 --> 00:00:08,280
Hoi, welkom bij AIToday Live. De podcast waar we praten over de nieuwste ontwikkelingen
2
00:00:08,280 --> 00:00:13,120
in kunstmatige intelligentie en hoe jij ze kunt toepassen in je werk. Mijn naam is Joop
3
00:00:13,120 --> 00:00:19,280
Snijder, CTO bij Aigency. Vandaag leg ik twee technieken uit die achter de slimheid van
4
00:00:19,280 --> 00:00:26,840
moderne AI taalmodellen zoals ChatGPT zit. Want hoe leren deze machines om echt te begrijpen
5
00:00:26,840 --> 00:00:32,160
wat wij mensen bedoelen en wat gebeurt er als menselijke waarden, vooral vanuit een
6
00:00:32,160 --> 00:00:38,240
westerse perspectief, hun antwoorden sturen? Voor iedereen die AI tools gebruikt is het
7
00:00:38,240 --> 00:00:43,800
waardevol om te begrijpen waarom ze soms bepaalde antwoorden geven. Deze kennis helpt je namelijk
8
00:00:43,800 --> 00:00:49,760
bij het beter inschatten van de betrouwbaarheid en mogelijke vooroordelen in AI antwoorden.
9
00:00:49,760 --> 00:00:54,000
Dus blijf luisteren om te ontdekken hoe dit alles werkt en waarom het belangrijk is om
10
00:00:54,000 --> 00:01:00,760
juist dit te weten. Stel je voor je hebt net een gloednieuwe smartphone
11
00:01:00,760 --> 00:01:05,920
gekocht. Vol verwachting pak je hem uit, zet hem aan en begin te praten tegen de spraakassistent.
12
00:01:05,920 --> 00:01:12,160
"Hé" zeg je "wat wordt het weer morgen?" Tot je verbazing antwoordt de assistent "de
13
00:01:12,160 --> 00:01:17,840
wortel van 144 is 12". Vond je wenkbrauwen en probeerde het opnieuw. "Nee, ik vroeg
14
00:01:17,840 --> 00:01:23,200
naar het weer van morgen." De assistent zou reageren met "de hoofdstad van Frankrijk
15
00:01:23,200 --> 00:01:26,960
is Parijs". Nou, dat zou heel frustrerend zijn, nietwaar?
16
00:01:26,960 --> 00:01:31,600
Een AI die perfect in staat is om correcte informatie te geven, maar volledig de plank
17
00:01:31,600 --> 00:01:35,640
misslaat als het gaat om het begrijpen van jouw vraag.
18
00:01:35,640 --> 00:01:40,640
Dit scenario lijkt misschien wat vergezocht en met de komst van ChatGPT zijn we dit
19
00:01:40,640 --> 00:01:45,880
soort antwoorden ook helemaal niet meer gewend. Taalmodellen begrijpen nu veel beter wat we
20
00:01:45,880 --> 00:01:50,200
bedoelen. Maar de vraag is dan hoe leren we machines
21
00:01:50,200 --> 00:01:55,200
om niet alleen informatie te verwerken, maar juist ook om ons te begrijpen.
22
00:01:55,200 --> 00:02:02,160
Het antwoord op deze vraag ligt in een specifieke tak van machine learning. En die heet Reinforcement
23
00:02:02,160 --> 00:02:08,840
Learning en nog specifieker, in het geval van taalmodellen, Reinforcement Learning from
24
00:02:08,840 --> 00:02:12,560
Human Feedback. Zou je dit vertalen naar het Nederlands, dan
25
00:02:12,560 --> 00:02:16,560
zeg je eigenlijk "het versterkend leren door menselijke terugkoppeling".
26
00:02:16,560 --> 00:02:23,440
Deze technieken, Reinforcement Learning en Reinforcement Learning from Human Feedback,
27
00:02:23,440 --> 00:02:28,920
vormen de ruggengraat van moderne taalmodellen die wel snappen wat je bedoelt als je naar
28
00:02:28,920 --> 00:02:33,000
het weer vraagt. Maar hoe werken ze dan precies en waarom zijn
29
00:02:33,000 --> 00:02:39,720
ze zo belangrijk om ze te begrijpen? Laten we beginnen bij de basis, bij het begin,
30
00:02:39,720 --> 00:02:45,040
namelijk Reinforcement Learning. In essentie is dit een techniek, een manier
31
00:02:45,040 --> 00:02:50,280
om machines te leren door middel van trial-and-error, net zoals mensen en dieren leren.
32
00:02:50,280 --> 00:03:01,320
Kijk, ik heb een aantal jaren puppy les gegeven, hondentraining. En als je dan zo'n hond wil
33
00:03:01,320 --> 00:03:06,560
leren iets uit te voeren, als hij iets goed doet, geef je hem bijvoorbeeld dan een koekje,
34
00:03:06,560 --> 00:03:12,160
een aai, iets positiefs. Doet hij iets fout, dan corrigeer je dat gedrag.
35
00:03:12,160 --> 00:03:17,760
En na verloop van tijd leert de puppy welk gedrag beloond wordt en welk gedrag niet.
36
00:03:17,760 --> 00:03:22,800
Reinforcement Learning werkt op een vergelijkbare manier, maar dan in de digitale wereld.
37
00:03:22,800 --> 00:03:30,160
Een AI agent, je zou het even tussen aanhalingstekens het brein van het AI kunnen noemen, voert acties
38
00:03:30,160 --> 00:03:36,440
uit binnen een bepaalde omgeving. En voor elke actie krijgt die agent een beloning of een
39
00:03:36,440 --> 00:03:42,160
straf. En het doel van de agent is om zoveel mogelijk beloningen te verzamelen.
40
00:03:42,160 --> 00:03:48,880
Door dit proces steeds te herhalen, leert de agent welke acties het beste zijn om het doel
41
00:03:48,880 --> 00:03:53,960
te bereiken. Dit klinkt misschien simpel, maar Reinforcement Learning heeft geleid tot
42
00:03:53,960 --> 00:04:01,000
enkele van de meest indrukwekkende prestaties in de AI wereld. Denk aan Schaarcomputers of
43
00:04:01,000 --> 00:04:08,480
AlphaGo, dat programma dat wereldkampioen werd in het ontzettend complexe bordspel Go, waarbij
44
00:04:08,480 --> 00:04:15,520
hij de mens versloeg. AlphaGo gebruikte Reinforcement Learning om miljoenen potjes tegen zichzelf
45
00:04:15,520 --> 00:04:19,320
te spelen en zo te leren welke zetten het meest kansrijk waren.
46
00:04:19,320 --> 00:04:24,720
Maar hoe komen we dan van dit soort spelletjes naar taal?
47
00:04:24,720 --> 00:04:30,760
Hier wordt het interessant. Taalmodellen zoals Chedjipiti, Claude en Google Gemini worden
48
00:04:30,760 --> 00:04:38,200
in eerste instantie getraind op enorme hoeveelheden tekst. Ze leren patronen in taal te herkennen
49
00:04:38,200 --> 00:04:41,640
en kunnen op basis daarvan nieuwe, coherente tekst produceren.
50
00:04:41,640 --> 00:04:48,240
Maar alleen tekstpatronen herkennen is niet genoeg om echt te begrijpen wat mensen bedoelen.
51
00:04:48,240 --> 00:04:53,400
Hier komt Reinforcement Learning weer om de hoek kijken. Door Reinforcement Learning toe
52
00:04:53,400 --> 00:04:59,560
te passen, straffen en belonen op taalmodellen, kunnen we ze leren om niet alleen grammaticaal
53
00:04:59,560 --> 00:05:05,120
correcte zinnen te produceren, maar ook antwoorden te geven die daadwerkelijk nuttig en relevant
54
00:05:05,120 --> 00:05:11,920
zijn voor jou als gebruiker. Die omgeving waarin het model opereert is
55
00:05:11,920 --> 00:05:17,240
nu een conversatie. En de beloningen zijn gebaseerd op hoe goed het model de intentie
56
00:05:17,240 --> 00:05:22,800
van de gebruiker begrijpt en beantwoordt. Dat geeft een beetje de menselijke touch.
57
00:05:22,800 --> 00:05:29,840
Maar hier stuiten we wel op het probleem. Want hoe definieer je wat een goed antwoord is
58
00:05:29,840 --> 00:05:35,440
in een gesprek? Taal is immers subjectief en sterk afhankelijk van de context. Wat in
59
00:05:35,440 --> 00:05:40,640
de ene situatie een perfect antwoord is, kan in een andere situatie volledig ongepast zijn.
60
00:05:40,640 --> 00:05:47,080
Dat is waar Reinforcement Learning from Human Feedback in beeld komt.
61
00:05:47,080 --> 00:05:52,520
Deze techniek voegt een cruciale menselijke component toe aan het leerproces van AI.
62
00:05:52,520 --> 00:05:58,120
In plaats van dat het systeem zelf bepaalt wat een goed of slecht antwoord is, worden
63
00:05:58,120 --> 00:06:01,320
mensen ingeschakeld om de output van het model te beoordelen.
64
00:06:01,320 --> 00:06:06,840
Stel je voor, een team van menselijke beoordelaars krijgt verschillende antwoorden van het AI-model
65
00:06:06,840 --> 00:06:13,160
te zien op een bepaalde vraag die gesteld is. Ze beoordelen welk antwoord het beste
66
00:06:13,160 --> 00:06:19,840
is, welk antwoord beleefd is, of welk antwoord het meest behulpzaam is, enzovoort.
67
00:06:19,840 --> 00:06:24,800
Deze menselijke beoordelingen worden vervolgens gebruikt om het model verder te trainen.
68
00:06:24,800 --> 00:06:29,840
Het model leert zo niet alleen om feitelijk correcte antwoorden te geven, maar ook om
69
00:06:29,840 --> 00:06:34,520
antwoorden te geven die mensen als nuttig, beleefd en gepast ervaren.
70
00:06:34,520 --> 00:06:40,840
Het is alsof je een buitenaardse bezoeker niet alleen de grammatica van onze taal zou
71
00:06:40,840 --> 00:06:45,640
leren, maar ook de sociale regels en normen die bij de communicatie komen kijken.
72
00:06:45,640 --> 00:06:53,320
Het is wel cruciaal om te begrijpen dat Reinforcement Learning from Human Feedback niet zozeer het
73
00:06:53,320 --> 00:06:59,420
basismodel van een AI-systeem verandert, maar eerder fungeert als een extra laag die bovenop
74
00:06:59,420 --> 00:07:08,860
het ruwe, voorgetrainde model wordt aangebracht. Deze RLHF, ik kort het even af, laag, werkt
75
00:07:08,860 --> 00:07:14,740
als een verfijningsproces waarbij het basismodel wordt bijgestuurd op basis van de menselijke
76
00:07:14,740 --> 00:07:19,500
feedback. Het is in deze fase dat de AI-leverancier
77
00:07:19,500 --> 00:07:24,820
een aanzienlijke invloed uitoefent op het uiteindelijke gedrag en de output van het taalmodel.
78
00:07:24,820 --> 00:07:30,620
Door zorgvuldig te selecteren welke feedback wel gebruikt wordt, welke niet, en hoe deze
79
00:07:30,620 --> 00:07:37,860
wordt toegepast, kan de leverancier, OpenAI, Google en Anthropic, het model afstemmen op specifieke
80
00:07:37,860 --> 00:07:44,580
doelen, ethische richtlijnen of gebruikscenario's. Dit betekent dat twee identieke basismodellen
81
00:07:44,580 --> 00:07:50,740
na verschillende RLHF-trainingen radicaal verschillende outputs kunnen produceren.
82
00:07:50,740 --> 00:07:58,140
Deze kennis stelt je in staat om beter te beoordelen of een bepaald taalmodel aansluit bij specifieke
83
00:07:58,140 --> 00:08:04,500
behoeften, waarden en bedrijfsculturen en om potentiële vooringenomenheid of beperkingen
84
00:08:04,500 --> 00:08:11,380
in het taalmodel te identificeren. We moeten wel realiseren dat Reinforcement
85
00:08:11,380 --> 00:08:16,580
Learning from Human Feedback, RLHF, brengt ook uitdagingen met zich mee.
86
00:08:16,580 --> 00:08:21,460
Ten eerste is het verzamelen van menselijke feedback een tijdrovend en kostbaar proces.
87
00:08:21,460 --> 00:08:26,300
Het vereist grote teams van beoordelaars die duizenden interacties moeten beoordelen.
88
00:08:26,300 --> 00:08:31,620
Ten tweede kan menselijke feedback inconsistent zijn. Wat de ene persoon als een goed antwoord
89
00:08:31,620 --> 00:08:37,500
beschouwt kan voor een ander totaal onacceptabel zijn. Dit kan leiden tot verwarring in het
90
00:08:37,500 --> 00:08:42,180
leerproces van de AI. Daarnaast is er het risico van onbedoelde
91
00:08:42,180 --> 00:08:45,580
bias. Als de groep mensen die feedback geeft niet
92
00:08:45,580 --> 00:08:51,580
divers genoeg is, kan het AI-systeem vooroordelen overnemen die niet representatief zijn voor
93
00:08:51,580 --> 00:08:55,340
de hele samenleving. Dit is vooral problematisch omdat veel van
94
00:08:55,340 --> 00:09:00,940
de toonaangevende AI-bedrijven gevestigd zijn in het Westen, wat kan leiden tot een overwegend
95
00:09:00,940 --> 00:09:06,900
westerse blik in de training van AI-systemen. Om te begrijpen hoe lastig dit is, hoef je
96
00:09:06,900 --> 00:09:10,740
maar te kijken naar de volgende twee eenvoudige voorbeelden.
97
00:09:10,740 --> 00:09:16,940
De eerste kleur-associaties. Kleuren kunnen verschillende betekenissen
98
00:09:16,940 --> 00:09:22,380
hebben in verschillende culturen. Terwijl wit in onze westerse culturen wordt
99
00:09:22,380 --> 00:09:27,180
geassocieerd met zuiverheid en bruiloften, wordt het in sommige oosterse culturen vaak
100
00:09:27,180 --> 00:09:31,780
gekoppeld aan rouw. Of gebaren, een duim omhoog gebaar is over
101
00:09:31,780 --> 00:09:36,380
het algemeen positief in westerse culturen, maar kan in sommige landen in het Midden-Oosten
102
00:09:36,380 --> 00:09:40,860
juist heel beledigend zijn. Je kunt je voorstellen, afhankelijk van de
103
00:09:40,860 --> 00:09:47,260
herkomst van de data, dat er dan enorme culturele verschillen aanwezig zijn en dat deze doorsijpelen
104
00:09:47,260 --> 00:09:53,940
in de uitkomsten van het taalmodel. Zo zie je dat een onzichtbare leraar behoorlijke
105
00:09:53,940 --> 00:09:57,700
invloeden heeft op de taalmodellen die wij gebruiken.
106
00:09:57,700 --> 00:10:02,340
Dat is het voor deze aflevering waarin je twee begrippen geleerd hebt.
107
00:10:02,340 --> 00:10:07,100
Reinforcement Learning en Reinforcement Learning from Human Feedback.
108
00:10:07,100 --> 00:10:13,740
Die als onzichtbare leraren functioneren, die constant over de schouder van taalmodellen
109
00:10:13,740 --> 00:10:22,460
meekijken, ze bijsturen en verbeteren. Ze vormen de brug tussen de koude logica van
110
00:10:22,460 --> 00:10:28,700
computers en de warme, rommelige realiteit van menselijke communicatie.
111
00:10:28,700 --> 00:10:34,620
De volgende keer dat je met een digitale assistent praat, die je vragen perfect begrijpt of een
112
00:10:34,620 --> 00:10:39,380
chatbot gebruikt die verrassend menselijk aanvoelt, weet je dat er achter de schermen
113
00:10:39,380 --> 00:10:44,060
een complex systeem van beloning en feedback aan het werk is.
114
00:10:44,060 --> 00:10:49,420
Reinforcement Learning from Human Feedback is een techniek die als een geduldige leraar
115
00:10:49,420 --> 00:10:55,140
het taalmodel steeds weer leert om beter te luisteren, beter te begrijpen en beter te
116
00:10:55,140 --> 00:11:05,380
communiceren.
117
00:11:05,380 --> 00:11:13,860
[Muziek]