AIToday Live

S06E90 - De onzichtbare leraar: hoe AI leert om ons te begrijpen

Aigency by Info Support Season 6 Episode 90

Joop Snijder bespreekt in deze aflevering van AIToday Live twee belangrijke technieken die moderne AI-taalmodellen helpen menselijke communicatie beter te begrijpen: Reinforcement Learning en Reinforcement Learning from Human Feedback. Deze methoden stellen AI in staat om niet alleen informatie te verwerken, maar ook de context en bedoeling van menselijke vragen te begrijpen.

De podcast belicht hoe deze technieken fungeren als onzichtbare leraren die AI-systemen constant bijsturen en verbeteren. Er wordt ook ingegaan op de uitdagingen die deze methoden met zich meebrengen, zoals mogelijke bias en culturele verschillen in AI-training.

Onderwerpen

  • Reinforcement Learning
  • Reinforcement Learning from Human Feedback (RLHF)
  • Evolutie van AI-begrip
  • Invloed van AI-leveranciers
  • Culturele verschillen in AI-training
Links

Genoemde entiteiten: OpenAI - Google - Anthropic

Stuur ons een bericht

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:00,001 --> 00:00:08,280
Hoi, welkom bij AIToday Live. De podcast waar we praten over de nieuwste ontwikkelingen

2
00:00:08,280 --> 00:00:13,120
in kunstmatige intelligentie en hoe jij ze kunt toepassen in je werk. Mijn naam is Joop

3
00:00:13,120 --> 00:00:19,280
Snijder, CTO bij Aigency. Vandaag leg ik twee technieken uit die achter de slimheid van

4
00:00:19,280 --> 00:00:26,840
moderne AI taalmodellen zoals ChatGPT zit. Want hoe leren deze machines om echt te begrijpen

5
00:00:26,840 --> 00:00:32,160
wat wij mensen bedoelen en wat gebeurt er als menselijke waarden, vooral vanuit een

6
00:00:32,160 --> 00:00:38,240
westerse perspectief, hun antwoorden sturen? Voor iedereen die AI tools gebruikt is het

7
00:00:38,240 --> 00:00:43,800
waardevol om te begrijpen waarom ze soms bepaalde antwoorden geven. Deze kennis helpt je namelijk

8
00:00:43,800 --> 00:00:49,760
bij het beter inschatten van de betrouwbaarheid en mogelijke vooroordelen in AI antwoorden.

9
00:00:49,760 --> 00:00:54,000
Dus blijf luisteren om te ontdekken hoe dit alles werkt en waarom het belangrijk is om

10
00:00:54,000 --> 00:01:00,760
juist dit te weten. Stel je voor je hebt net een gloednieuwe smartphone

11
00:01:00,760 --> 00:01:05,920
gekocht. Vol verwachting pak je hem uit, zet hem aan en begin te praten tegen de spraakassistent.

12
00:01:05,920 --> 00:01:12,160
"Hé" zeg je "wat wordt het weer morgen?" Tot je verbazing antwoordt de assistent "de

13
00:01:12,160 --> 00:01:17,840
wortel van 144 is 12". Vond je wenkbrauwen en probeerde het opnieuw. "Nee, ik vroeg

14
00:01:17,840 --> 00:01:23,200
naar het weer van morgen." De assistent zou reageren met "de hoofdstad van Frankrijk

15
00:01:23,200 --> 00:01:26,960
is Parijs". Nou, dat zou heel frustrerend zijn, nietwaar?

16
00:01:26,960 --> 00:01:31,600
Een AI die perfect in staat is om correcte informatie te geven, maar volledig de plank

17
00:01:31,600 --> 00:01:35,640
misslaat als het gaat om het begrijpen van jouw vraag.

18
00:01:35,640 --> 00:01:40,640
Dit scenario lijkt misschien wat vergezocht en met de komst van ChatGPT zijn we dit

19
00:01:40,640 --> 00:01:45,880
soort antwoorden ook helemaal niet meer gewend. Taalmodellen begrijpen nu veel beter wat we

20
00:01:45,880 --> 00:01:50,200
bedoelen. Maar de vraag is dan hoe leren we machines

21
00:01:50,200 --> 00:01:55,200
om niet alleen informatie te verwerken, maar juist ook om ons te begrijpen.

22
00:01:55,200 --> 00:02:02,160
Het antwoord op deze vraag ligt in een specifieke tak van machine learning. En die heet Reinforcement

23
00:02:02,160 --> 00:02:08,840
Learning en nog specifieker, in het geval van taalmodellen, Reinforcement Learning from

24
00:02:08,840 --> 00:02:12,560
Human Feedback. Zou je dit vertalen naar het Nederlands, dan

25
00:02:12,560 --> 00:02:16,560
zeg je eigenlijk "het versterkend leren door menselijke terugkoppeling".

26
00:02:16,560 --> 00:02:23,440
Deze technieken, Reinforcement Learning en Reinforcement Learning from Human Feedback,

27
00:02:23,440 --> 00:02:28,920
vormen de ruggengraat van moderne taalmodellen die wel snappen wat je bedoelt als je naar

28
00:02:28,920 --> 00:02:33,000
het weer vraagt. Maar hoe werken ze dan precies en waarom zijn

29
00:02:33,000 --> 00:02:39,720
ze zo belangrijk om ze te begrijpen? Laten we beginnen bij de basis, bij het begin,

30
00:02:39,720 --> 00:02:45,040
namelijk Reinforcement Learning. In essentie is dit een techniek, een manier

31
00:02:45,040 --> 00:02:50,280
om machines te leren door middel van trial-and-error, net zoals mensen en dieren leren.

32
00:02:50,280 --> 00:03:01,320
Kijk, ik heb een aantal jaren puppy les gegeven, hondentraining. En als je dan zo'n hond wil

33
00:03:01,320 --> 00:03:06,560
leren iets uit te voeren, als hij iets goed doet, geef je hem bijvoorbeeld dan een koekje,

34
00:03:06,560 --> 00:03:12,160
een aai, iets positiefs. Doet hij iets fout, dan corrigeer je dat gedrag.

35
00:03:12,160 --> 00:03:17,760
En na verloop van tijd leert de puppy welk gedrag beloond wordt en welk gedrag niet.

36
00:03:17,760 --> 00:03:22,800
Reinforcement Learning werkt op een vergelijkbare manier, maar dan in de digitale wereld.

37
00:03:22,800 --> 00:03:30,160
Een AI agent, je zou het even tussen aanhalingstekens het brein van het AI kunnen noemen, voert acties

38
00:03:30,160 --> 00:03:36,440
uit binnen een bepaalde omgeving. En voor elke actie krijgt die agent een beloning of een

39
00:03:36,440 --> 00:03:42,160
straf. En het doel van de agent is om zoveel mogelijk beloningen te verzamelen.

40
00:03:42,160 --> 00:03:48,880
Door dit proces steeds te herhalen, leert de agent welke acties het beste zijn om het doel

41
00:03:48,880 --> 00:03:53,960
te bereiken. Dit klinkt misschien simpel, maar Reinforcement Learning heeft geleid tot

42
00:03:53,960 --> 00:04:01,000
enkele van de meest indrukwekkende prestaties in de AI wereld. Denk aan Schaarcomputers of

43
00:04:01,000 --> 00:04:08,480
AlphaGo, dat programma dat wereldkampioen werd in het ontzettend complexe bordspel Go, waarbij

44
00:04:08,480 --> 00:04:15,520
hij de mens versloeg. AlphaGo gebruikte Reinforcement Learning om miljoenen potjes tegen zichzelf

45
00:04:15,520 --> 00:04:19,320
te spelen en zo te leren welke zetten het meest kansrijk waren.

46
00:04:19,320 --> 00:04:24,720
Maar hoe komen we dan van dit soort spelletjes naar taal?

47
00:04:24,720 --> 00:04:30,760
Hier wordt het interessant. Taalmodellen zoals Chedjipiti, Claude en Google Gemini worden

48
00:04:30,760 --> 00:04:38,200
in eerste instantie getraind op enorme hoeveelheden tekst. Ze leren patronen in taal te herkennen

49
00:04:38,200 --> 00:04:41,640
en kunnen op basis daarvan nieuwe, coherente tekst produceren.

50
00:04:41,640 --> 00:04:48,240
Maar alleen tekstpatronen herkennen is niet genoeg om echt te begrijpen wat mensen bedoelen.

51
00:04:48,240 --> 00:04:53,400
Hier komt Reinforcement Learning weer om de hoek kijken. Door Reinforcement Learning toe

52
00:04:53,400 --> 00:04:59,560
te passen, straffen en belonen op taalmodellen, kunnen we ze leren om niet alleen grammaticaal

53
00:04:59,560 --> 00:05:05,120
correcte zinnen te produceren, maar ook antwoorden te geven die daadwerkelijk nuttig en relevant

54
00:05:05,120 --> 00:05:11,920
zijn voor jou als gebruiker. Die omgeving waarin het model opereert is

55
00:05:11,920 --> 00:05:17,240
nu een conversatie. En de beloningen zijn gebaseerd op hoe goed het model de intentie

56
00:05:17,240 --> 00:05:22,800
van de gebruiker begrijpt en beantwoordt. Dat geeft een beetje de menselijke touch.

57
00:05:22,800 --> 00:05:29,840
Maar hier stuiten we wel op het probleem. Want hoe definieer je wat een goed antwoord is

58
00:05:29,840 --> 00:05:35,440
in een gesprek? Taal is immers subjectief en sterk afhankelijk van de context. Wat in

59
00:05:35,440 --> 00:05:40,640
de ene situatie een perfect antwoord is, kan in een andere situatie volledig ongepast zijn.

60
00:05:40,640 --> 00:05:47,080
Dat is waar Reinforcement Learning from Human Feedback in beeld komt.

61
00:05:47,080 --> 00:05:52,520
Deze techniek voegt een cruciale menselijke component toe aan het leerproces van AI.

62
00:05:52,520 --> 00:05:58,120
In plaats van dat het systeem zelf bepaalt wat een goed of slecht antwoord is, worden

63
00:05:58,120 --> 00:06:01,320
mensen ingeschakeld om de output van het model te beoordelen.

64
00:06:01,320 --> 00:06:06,840
Stel je voor, een team van menselijke beoordelaars krijgt verschillende antwoorden van het AI-model

65
00:06:06,840 --> 00:06:13,160
te zien op een bepaalde vraag die gesteld is. Ze beoordelen welk antwoord het beste

66
00:06:13,160 --> 00:06:19,840
is, welk antwoord beleefd is, of welk antwoord het meest behulpzaam is, enzovoort.

67
00:06:19,840 --> 00:06:24,800
Deze menselijke beoordelingen worden vervolgens gebruikt om het model verder te trainen.

68
00:06:24,800 --> 00:06:29,840
Het model leert zo niet alleen om feitelijk correcte antwoorden te geven, maar ook om

69
00:06:29,840 --> 00:06:34,520
antwoorden te geven die mensen als nuttig, beleefd en gepast ervaren.

70
00:06:34,520 --> 00:06:40,840
Het is alsof je een buitenaardse bezoeker niet alleen de grammatica van onze taal zou

71
00:06:40,840 --> 00:06:45,640
leren, maar ook de sociale regels en normen die bij de communicatie komen kijken.

72
00:06:45,640 --> 00:06:53,320
Het is wel cruciaal om te begrijpen dat Reinforcement Learning from Human Feedback niet zozeer het

73
00:06:53,320 --> 00:06:59,420
basismodel van een AI-systeem verandert, maar eerder fungeert als een extra laag die bovenop

74
00:06:59,420 --> 00:07:08,860
het ruwe, voorgetrainde model wordt aangebracht. Deze RLHF, ik kort het even af, laag, werkt

75
00:07:08,860 --> 00:07:14,740
als een verfijningsproces waarbij het basismodel wordt bijgestuurd op basis van de menselijke

76
00:07:14,740 --> 00:07:19,500
feedback. Het is in deze fase dat de AI-leverancier

77
00:07:19,500 --> 00:07:24,820
een aanzienlijke invloed uitoefent op het uiteindelijke gedrag en de output van het taalmodel.

78
00:07:24,820 --> 00:07:30,620
Door zorgvuldig te selecteren welke feedback wel gebruikt wordt, welke niet, en hoe deze

79
00:07:30,620 --> 00:07:37,860
wordt toegepast, kan de leverancier, OpenAI, Google en Anthropic, het model afstemmen op specifieke

80
00:07:37,860 --> 00:07:44,580
doelen, ethische richtlijnen of gebruikscenario's. Dit betekent dat twee identieke basismodellen

81
00:07:44,580 --> 00:07:50,740
na verschillende RLHF-trainingen radicaal verschillende outputs kunnen produceren.

82
00:07:50,740 --> 00:07:58,140
Deze kennis stelt je in staat om beter te beoordelen of een bepaald taalmodel aansluit bij specifieke

83
00:07:58,140 --> 00:08:04,500
behoeften, waarden en bedrijfsculturen en om potentiële vooringenomenheid of beperkingen

84
00:08:04,500 --> 00:08:11,380
in het taalmodel te identificeren. We moeten wel realiseren dat Reinforcement

85
00:08:11,380 --> 00:08:16,580
Learning from Human Feedback, RLHF, brengt ook uitdagingen met zich mee.

86
00:08:16,580 --> 00:08:21,460
Ten eerste is het verzamelen van menselijke feedback een tijdrovend en kostbaar proces.

87
00:08:21,460 --> 00:08:26,300
Het vereist grote teams van beoordelaars die duizenden interacties moeten beoordelen.

88
00:08:26,300 --> 00:08:31,620
Ten tweede kan menselijke feedback inconsistent zijn. Wat de ene persoon als een goed antwoord

89
00:08:31,620 --> 00:08:37,500
beschouwt kan voor een ander totaal onacceptabel zijn. Dit kan leiden tot verwarring in het

90
00:08:37,500 --> 00:08:42,180
leerproces van de AI. Daarnaast is er het risico van onbedoelde

91
00:08:42,180 --> 00:08:45,580
bias. Als de groep mensen die feedback geeft niet

92
00:08:45,580 --> 00:08:51,580
divers genoeg is, kan het AI-systeem vooroordelen overnemen die niet representatief zijn voor

93
00:08:51,580 --> 00:08:55,340
de hele samenleving. Dit is vooral problematisch omdat veel van

94
00:08:55,340 --> 00:09:00,940
de toonaangevende AI-bedrijven gevestigd zijn in het Westen, wat kan leiden tot een overwegend

95
00:09:00,940 --> 00:09:06,900
westerse blik in de training van AI-systemen. Om te begrijpen hoe lastig dit is, hoef je

96
00:09:06,900 --> 00:09:10,740
maar te kijken naar de volgende twee eenvoudige voorbeelden.

97
00:09:10,740 --> 00:09:16,940
De eerste kleur-associaties. Kleuren kunnen verschillende betekenissen

98
00:09:16,940 --> 00:09:22,380
hebben in verschillende culturen. Terwijl wit in onze westerse culturen wordt

99
00:09:22,380 --> 00:09:27,180
geassocieerd met zuiverheid en bruiloften, wordt het in sommige oosterse culturen vaak

100
00:09:27,180 --> 00:09:31,780
gekoppeld aan rouw. Of gebaren, een duim omhoog gebaar is over

101
00:09:31,780 --> 00:09:36,380
het algemeen positief in westerse culturen, maar kan in sommige landen in het Midden-Oosten

102
00:09:36,380 --> 00:09:40,860
juist heel beledigend zijn. Je kunt je voorstellen, afhankelijk van de

103
00:09:40,860 --> 00:09:47,260
herkomst van de data, dat er dan enorme culturele verschillen aanwezig zijn en dat deze doorsijpelen

104
00:09:47,260 --> 00:09:53,940
in de uitkomsten van het taalmodel. Zo zie je dat een onzichtbare leraar behoorlijke

105
00:09:53,940 --> 00:09:57,700
invloeden heeft op de taalmodellen die wij gebruiken.

106
00:09:57,700 --> 00:10:02,340
Dat is het voor deze aflevering waarin je twee begrippen geleerd hebt.

107
00:10:02,340 --> 00:10:07,100
Reinforcement Learning en Reinforcement Learning from Human Feedback.

108
00:10:07,100 --> 00:10:13,740
Die als onzichtbare leraren functioneren, die constant over de schouder van taalmodellen

109
00:10:13,740 --> 00:10:22,460
meekijken, ze bijsturen en verbeteren. Ze vormen de brug tussen de koude logica van

110
00:10:22,460 --> 00:10:28,700
computers en de warme, rommelige realiteit van menselijke communicatie.

111
00:10:28,700 --> 00:10:34,620
De volgende keer dat je met een digitale assistent praat, die je vragen perfect begrijpt of een

112
00:10:34,620 --> 00:10:39,380
chatbot gebruikt die verrassend menselijk aanvoelt, weet je dat er achter de schermen

113
00:10:39,380 --> 00:10:44,060
een complex systeem van beloning en feedback aan het werk is.

114
00:10:44,060 --> 00:10:49,420
Reinforcement Learning from Human Feedback is een techniek die als een geduldige leraar

115
00:10:49,420 --> 00:10:55,140
het taalmodel steeds weer leert om beter te luisteren, beter te begrijpen en beter te

116
00:10:55,140 --> 00:11:05,380
communiceren.

117
00:11:05,380 --> 00:11:13,860
[Muziek]


People on this episode