
AIToday Live
AIToday Live deelt praktijkverhalen over AI die je direct vooruit helpen in je werk. In een wereld waar AI-ontwikkelingen elkaar razendsnel opvolgen, kiezen wij bewust voor verdieping en praktijkervaring. We bieden een kalm kompas in turbulente tijden.
In deze podcast hoor je professionals uit Nederland en België die openhartig vertellen over hun ervaringen met AI-implementaties. Voorbij de hype en krantenkoppen laten zij zien hoe organisaties écht met AI werken.
Onze gasten delen hun successen én uitdagingen op een toegankelijke manier.
Daarmee helpen we jou om:
- Praktische inzichten te krijgen in wat AI wel en niet kan
- Te leren van de ervaringen van andere professionals
- Concrete ideeën op te doen voor je eigen organisatie
- De grotere lijnen te zien in AI-ontwikkelingen
Iedere maandag een diepgaand gesprek met een gast, gepresenteerd door Joop Snijder (CTO Aigency) en Niels Naglé (Info Support). Elke donderdag deelt Joop in een korte aflevering zijn eigen praktijkervaringen en inzichten.
"AIToday Live is twee keer genomineerd voor 'De Prijs van Oranje' door de Belgian Podcast Awards en staat op nummer 1 in de lijst van Zomerse luister-inspiratie: podcasts over AI, productiviteit, SEO & meer (Frankwatching, juni 2024)."
Ontdek hoe andere professionals AI succesvol inzetten. Ontvang ook exclusieve content, kijk achter de schermen en blijf op de hoogte van nieuwe gasten via onze nieuwsbrief: https://aitodaylive.substack.com
AIToday Live
S07E54 - De illusie van begrip: wat taalmodellen echt missen
In een recente aflevering van AIToday Live staat het onderwerp taalmodellen en de illusie van begrip centraal. De podcast bespreekt twee publicaties die de beperkingen van taalmodellen onderzoeken, waaronder een artikel van neurowetenschapper professor Veena Dwivedi en een onderzoek van Apple-onderzoekers.
De aflevering gaat in op het verschil tussen menselijk taalgebruik en de manier waarop AI-modellen tekst verwerken. Er wordt uitgelegd waarom taalmodellen geen echt begrip hebben, maar slechts patronen herkennen in data.
De presentatoren bespreken ook de nieuwste redeneermodellen en hun beperkingen bij het oplossen van complexe puzzels. Deze inzichten zijn relevant voor organisaties die AI-technologie willen inzetten.
Onderwerpen
- Beperkingen van taalmodellen
- Verschil tussen tekst en natuurlijke taal
- Context en emotie in communicatie
- Misleidende terminologie in AI
- Prestaties van redeneermodellen
- Podcast: S06E76 - De kracht en beperkingen van o1-preview ontrafeld
- Podcast: S06E90 - De onzichtbare leraar: hoe AI leert om ons te begrijpen
- Podcast: S06E16 - Hoe uitlegbaar zijn menselijke beslissingen?
- Podcast: S07E02 - 2025 de doorbraak van AI agents: hoe werken ze?
- Artikel: A neuroscientist explains why it's impossible for AI to understand language - Veena D. Dwivedi
- Onderzoek: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models - Apple Research
- AI Model: OpenAI o1-preview - Large Reasoning Model
- Persoon: Geoffrey Hinton - Nobelprijswinnaar en AI-pionier
- Linguïstiek: Noam Chomsky - Chomskyaanse taalkunde en universele grammatica
Genoemde entiteiten: Brock University - Apple
AigencyAigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.
Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).
Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.
Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!
1
00:00:02,040 --> 00:00:05,180
Hoi, leuk dat je weer luistert naar de korte aflevering van AIToday Live.
2
00:00:05,600 --> 00:00:07,600
Mijn naam is Joop Snijder, CTO bij Aigency.
3
00:00:08,580 --> 00:00:12,640
En vandaag gaan we het hebben over redeneren van taalmodellen.
4
00:00:14,260 --> 00:00:19,420
Want heb jij wel eens het gevoel gehad dat je met een geavanceerde chatbot spreekt die jou echt begrijpt?
5
00:00:19,840 --> 00:00:27,580
Die perfect lijkt aan te sluiten bij wat je bedoelt en antwoorden geeft die zo mensen klinken dat je even vergeet dat je tegen een machine praat?
6
00:00:28,320 --> 00:00:29,540
Ik snap dat gevoel heel goed.
7
00:00:30,120 --> 00:00:34,220
Want deze systemen worden steeds beter in het nabootsen van menselijke communicatie.
8
00:00:35,120 --> 00:00:43,260
Maar vandaag wil ik je meenemen in een verhaal dat misschien je perspectief op deze taalmodellen chatbots misschien zal veranderen.
9
00:00:43,780 --> 00:00:47,860
Want afgelopen week las ik twee publicaties die me echt aan het denken hebben gezet.
10
00:00:48,520 --> 00:00:55,360
Ten eerste een artikel van professor, en ik hoop dat ik het goed uitspreek, Veena Dwivedi.
11
00:00:56,210 --> 00:00:57,060
Niet heel erg makkelijk.
12
00:00:57,900 --> 00:01:05,660
aan de Brock University, waarin ze uitlegt waarom het onmogelijk is voor taalmodellen om taal echt te begrijpen.
13
00:01:06,520 --> 00:01:13,560
En daarnaast kwam er een interessant onderzoek van Apple-onderzoekers uit over de beperkingen van de nieuwste redeneermodellen.
14
00:01:14,240 --> 00:01:22,100
En wat me zo opviel is hoe deze twee publicaties vanuit compleet verschillende hoeken tot best wel vergelijkbare conclusies komen.
15
00:01:22,700 --> 00:01:27,060
Het ene perspectief is geredeneerd vanuit de biologie en de evolutie van onze taal,
16
00:01:27,160 --> 00:01:31,460
Terwijl het onderzoek van Apple gebaseerd is op juist de technische werking van taalmodellen.
17
00:01:32,100 --> 00:01:37,420
En toch komen beide tot dezelfde conclusie over namelijk de illusie van begrip bij taalmodellen.
18
00:01:38,240 --> 00:01:42,880
Want achter die indrukwekkende conversatie schuilt een misverstand.
19
00:01:43,300 --> 00:01:47,840
En een misverstand dat zo diep geworteld is dat zelfs Nobelprijswinnaar Geoffrey Hinton,
20
00:01:48,400 --> 00:01:50,720
hij is een van de grondleggers van de moderne AI,
21
00:01:51,320 --> 00:01:56,960
zich nog steeds verbaast over hoe goed neurale netwerken natuurlijke taal lijken te begrijpen.
22
00:01:57,140 --> 00:01:59,660
Waarbij begrijpen tussen aanhalingstekens is.
23
00:02:00,820 --> 00:02:04,000
Want wat als ik je vertel dat dit begrip een illusie is.
24
00:02:04,320 --> 00:02:10,100
Dat zelfs de meest geavanceerde taalmodellen van vandaag de dag niet werkelijk begrijpen wat ze zeggen.
25
00:02:11,320 --> 00:02:21,480
Laten we beginnen met het punt dat professor Dwivedi, die neurowetenschapper, wat ik al zei aan de Brock University, naar voren brengt in haar onderzoek.
26
00:02:22,620 --> 00:02:25,580
Ze legt uit dat we vaak een vergissing maken.
27
00:02:25,960 --> 00:02:29,840
We verwarren tekst op een scherm met natuurlijk taal zelf.
28
00:02:30,520 --> 00:02:33,840
En dat klinkt misschien als haarkloverij, maar het verschil is enorm.
29
00:02:35,600 --> 00:02:38,660
Neem bijvoorbeeld de talen Hindi en Urdu.
30
00:02:40,020 --> 00:02:45,880
De professor schrijft dat als je deze talen hoort in een gesprek, ze grotendeels wederzijds verstaanbaar zijn.
31
00:02:46,260 --> 00:02:50,500
En mensen die Hindi spreken, kunnen Urdu-sprekers prima verstaan en andersom.
32
00:02:51,140 --> 00:02:55,240
Maar zodra je naar de geschreven vorm kijkt, zie je compleet verschillende schriftsystemen.
33
00:02:56,000 --> 00:02:59,220
En hetzelfde geldt voor Servisch en Kroatisch zegt ze.
34
00:02:59,980 --> 00:03:03,960
Gesproken, bijna identiek, maar geschreven in verschillende alfabetten.
35
00:03:04,660 --> 00:03:10,680
En dit toont aan dat taal veel rijker en dieper is dan alleen de visuele representatie ervan.
36
00:03:11,760 --> 00:03:16,180
Taalmodellen werken echter uitsluitend met die visuele representatie.
37
00:03:16,220 --> 00:03:18,540
Met tekst, symbolen en patronen op een scherm.
38
00:03:19,280 --> 00:03:24,920
Ze hebben geen toegang tot de contextuele laag die menselijke communicatie zo krachtig maakt.
39
00:03:26,540 --> 00:03:29,540
Kijk, stel je voor dat je vrouw of vriendin tegen je zegt
40
00:03:30,060 --> 00:03:30,620
Ik ben zwanger
41
00:03:31,280 --> 00:03:32,280
Drie simpele woorden
42
00:03:33,040 --> 00:03:35,060
Voor een taalmodel zijn dit gewoon tokens
43
00:03:35,260 --> 00:03:38,220
Die statistisch gerelateerd zijn aan andere tokens
44
00:03:38,880 --> 00:03:39,540
Delen van woorden
45
00:03:40,260 --> 00:03:43,900
Maar voor jou als mens verandert de betekenis compleet
46
00:03:44,140 --> 00:03:45,300
Afhankelijk van de context
47
00:03:46,440 --> 00:03:50,000
Is het een tina die in paniek haar vriendje belt over een ongeplande zwangerschap?
48
00:03:50,560 --> 00:03:53,180
Dan roept de zin totaal andere emoties en reacties op
49
00:03:53,140 --> 00:04:00,160
dan wanneer het een echtpaar betreft dat een jaren van vruchtbaarheidsbehandelingen eindelijk goed nieuws heeft.
50
00:04:01,260 --> 00:04:04,300
Of misschien was het wel gezegd door een oude persoon als grap.
51
00:04:05,040 --> 00:04:11,100
Exact dezelfde woorden, maar drie compleet verschillende betekenissen en emotionele ladingen.
52
00:04:11,900 --> 00:04:17,000
Wij mensen begrijpen dit omdat onze hersenen nooit zonder emotionele context werken.
53
00:04:17,739 --> 00:04:25,940
Elke communicatie die we hebben is doordrengt van persoonlijke ervaringen, emoties en de complexe sociale omgeving waarin we leven.
54
00:04:26,900 --> 00:04:32,800
We lezen lichaamstaal, horen de stemtonen, zien gezichtsuitdrukkingen.
55
00:04:33,640 --> 00:04:41,020
Het blijkt dat zelfs baby's, die nog geen taalexperts zijn, kunnen deze textuele signalen oppikken en interpreteren.
56
00:04:41,980 --> 00:04:44,460
Taalmodellen missen al deze lagen volledig.
57
00:04:44,760 --> 00:04:51,180
Ze zien alleen de tekst, geen toon, geen emotie, geen gedeelde geschiedenis tussen gesprekspartners.
58
00:04:54,240 --> 00:04:58,500
En dan hebben we nog een ander probleem, de terminologie die we gebruiken.
59
00:04:58,920 --> 00:05:06,740
Als we praten over neurale netwerken in AI gebruiken we bewust of onbewust termen die ons doen denken aan de menselijke hersenen.
60
00:05:07,800 --> 00:05:09,120
En dit is een gevaarlijke vergissing.
61
00:05:09,860 --> 00:05:12,000
De professor waarschuwt voor deze verwarring.
62
00:05:12,580 --> 00:05:16,580
Taalmodellen hebben namelijk neurale netwerken die computeralgoritmes zijn.
63
00:05:17,020 --> 00:05:19,800
Wiskundige formules die patronen herkennen in data.
64
00:05:20,160 --> 00:05:24,280
Ze hebben niets te maken met de biologische neurale netwerken in onze hersenen.
65
00:05:24,920 --> 00:05:28,840
En de menselijke hersenen zijn biologische organische systemen.
66
00:05:29,120 --> 00:05:31,920
Die zijn geëvolueerd over miljoenen jaren heen.
67
00:05:32,740 --> 00:05:37,720
Ze werken met biochemische processen, hormonen, complexe interacties tussen miljarden neuronen.
68
00:05:38,800 --> 00:05:42,300
Taalmodellen zijn wiskundige berekeningen die draaien op siliciumchips.
69
00:05:43,050 --> 00:05:49,220
Ze kunnen indrukwekkende resultaten leveren, maar het onderliggende mechanisme is fundamenteel anders.
70
00:05:50,300 --> 00:05:53,980
Dit brengt me bij een interessant onderzoek van de Apple-onderzoekers.
71
00:05:54,700 --> 00:06:01,720
Want zij hebben gekeken naar de nieuwste generatie AI-modellen, de zogenaamde Large Reasoning Models of Redeneer-modellen.
72
00:06:02,360 --> 00:06:10,200
En deze systemen zoals OpenAI's 01 claimen dat ze kunnen nadenken en redeneren voordat ze antwoord geven.
73
00:06:10,810 --> 00:06:16,480
En om dit verschil te begrijpen, kijk gewone taalmodellen zoals GPT-4 geven direct antwoord op je vraag.
74
00:06:17,240 --> 00:06:20,720
Ze genereren meteen tekst gebaseerd op wat ze hebben geleerd.
75
00:06:21,860 --> 00:06:24,300
Redeneermodellen daaraan tegen nemen bewust meer tijd.
76
00:06:24,940 --> 00:06:28,220
Ze genereren eerst een interne soort van gedachtengang.
77
00:06:28,760 --> 00:06:34,600
Een werkgeheugen waar ze stap voor stap door een probleem heen lopen voordat ze hun antwoord geven.
78
00:06:36,100 --> 00:06:40,840
Het is alsof je iemand vraagt om hardop te denken voordat ze antwoord geven.
79
00:06:41,680 --> 00:06:50,660
In seizoen 6 aflevering 76 over O-1 Preview hebben we al besproken hoe verleidelijk het is om te denken dat deze modellen echt redeneren.
80
00:06:51,460 --> 00:06:55,880
Ze schrijven zelfs dat ze 40 seconden hebben nagedacht over een probleem.
81
00:06:56,820 --> 00:07:00,880
Maar zoals we toen al zeiden, dat betekent dat ze 40 seconden hebben gerekend.
82
00:07:01,300 --> 00:07:02,480
Helemaal niet hebben nagedacht.
83
00:07:03,300 --> 00:07:06,940
En het Apple onderzoek onthult nog diepere problemen.
84
00:07:07,480 --> 00:07:12,680
Ze testen deze redeneermodellen op controleerbare puzzels zoals de torens van Hanoi.
85
00:07:12,680 --> 00:07:18,100
Je kent ze wel met die schijven en dat je die op de juiste manier moet verplaatsen.
86
00:07:18,680 --> 00:07:20,220
Volgens specifieke regels.
87
00:07:20,940 --> 00:07:26,860
Dit soort puzzels is perfect omdat je precies kunt meten of het model de logische stappen correct uitvoert.
88
00:07:28,020 --> 00:07:32,820
De resultaten waren verrassend en misschien ook wel een klein beetje onthutsend.
89
00:07:33,370 --> 00:07:41,460
Ten eerste ondervonden deze geavanceerde redeneermodellen een complete instorting van hun nauwkeurigheid bij toenemende complexiteit.
90
00:07:42,100 --> 00:07:49,940
Zodra de puzzels iets moeilijker werden, storten de prestaties volledig in, ondanks alle geavanceerde zogenaamde denkprocessen.
91
00:07:51,140 --> 00:07:55,240
En ten tweede vertoonden ze toch wel verschillende prestatiepatronen.
92
00:07:55,940 --> 00:08:06,760
Bij eenvoudige problemen presteerden de gewone taalmodellen, dus die direct antwoord geven zonder interne redenering, juist vaak beter dan de redenermodellen die eerst een hele denkstap doorlopen.
93
00:08:07,520 --> 00:08:16,580
En bij matig complexe problemen hadden de redenermodellen voordeel, maar bij hoge complexiteit faalden beide types even hard.
94
00:08:17,300 --> 00:08:20,080
Het meest verrassende was misschien wel de derde bevinding.
95
00:08:20,800 --> 00:08:25,840
Wanneer onderzoekers het exacte algoritme voor de puzzel in de pont graven.
96
00:08:26,000 --> 00:08:29,640
En dus letterlijk stap voor stap uitlegden hoe ze het probleem moesten oplossen.
97
00:08:30,520 --> 00:08:32,800
Verbeterde de prestatie niet.
98
00:08:33,820 --> 00:08:39,860
Zelfs met een complete handleiding faalden de modellen met dezelfde complexiteit.
99
00:08:41,219 --> 00:08:42,820
Dit vond ik wel echt wel verrassend.
100
00:08:43,140 --> 00:08:48,900
Want je zou verwachten dat het volgen van duidelijke instructies veel makkelijker zou zijn dan zelf een oplossing bedenken.
101
00:08:49,600 --> 00:08:57,180
Als iemand je precies vertelt, z schrijf A op paal B, dan schrijf C op paal A, dan hoef je eigenlijk alleen maar die stappen uit te voeren.
102
00:08:57,660 --> 00:09:01,840
En dat zou veel eenvoudiger moeten zijn dan zelf uitzoeken hoe je die puzzel oplost.
103
00:09:02,480 --> 00:09:08,460
Maar de redeneermodellen presteerden niet beter, zelfs niet met deze expliciete handleiding.
104
00:09:09,320 --> 00:09:14,560
Dit toont aan dat deze modellen serieuze beperkingen hebben in logische redenering.
105
00:09:14,850 --> 00:09:20,420
Ze kunnen zelfs simpele instructies niet betrouwbaar opvolgen wanneer een probleem te complex wordt.
106
00:09:21,720 --> 00:09:24,260
Dit alles brengt ons terug naar het centrale punt.
107
00:09:25,180 --> 00:09:29,260
Menselijk begrip is toch echt wel anders dan wat taalmodellen doen.
108
00:09:29,510 --> 00:09:35,380
En wij begrijpen niet alleen de woorden, maar ook de intentie erachter, de emotionele lading, de sociale context.
109
00:09:36,160 --> 00:09:41,300
Wij kunnen het tussen de regels doorlezen en aannames maken gebaseerd op onze levenservaring.
110
00:09:42,140 --> 00:09:50,700
In aflevering 16 van seizoen 6 hebben we zelfs gezien dat menselijke besluitvorming heel erg complex en soms heel irrationeel is.
111
00:09:51,780 --> 00:09:55,900
En dat onze eigen denkprocessen al heel erg lastig zijn te begrijpen.
112
00:09:56,660 --> 00:09:59,700
Want emoties spelen een cruciale rol in onze besluitvorming.
113
00:09:59,860 --> 00:10:05,200
En vaak rechtvaardigen we emotionele keuzes achteraf met logische redeneringen.
114
00:10:05,760 --> 00:10:11,580
En het maakt ons misschien niet altijd consistent, maar wel rijker en genuanceerder in ons begrip van de wereld.
115
00:10:12,460 --> 00:10:15,440
Taalmodellen missen deze emotionele component volledig.
116
00:10:15,900 --> 00:10:20,220
Ze kunnen emoties simuleren in hun output, maar ze voelen niks.
117
00:10:20,660 --> 00:10:23,940
En ze hebben geen persoonlijke ervaringen, geen angsten, geen hoop.
118
00:10:24,560 --> 00:10:30,800
Ze zijn in de woorden van professor Dwivedi sophisticated pattern matching machines.
119
00:10:31,560 --> 00:10:35,160
Oftewel hele geavanceerde patroonherkenningsmachines.
120
00:10:35,620 --> 00:10:36,940
Niet meer, maar ook niet minder.
121
00:10:38,340 --> 00:10:42,840
Wat betekent het allemaal voor hoe we taalmodellen in onze organisatie inzetten?
122
00:10:43,460 --> 00:10:48,600
Daarvoor is het belangrijk om te begrijpen wat ze wel en niet kunnen.
123
00:10:48,920 --> 00:10:52,040
Taalmodellen zijn uitstekend in het herkennen van patronen.
124
00:10:52,040 --> 00:10:56,040
Het genereren van coherente tekst en het uitvoeren van repetitieve taken.
125
00:10:56,600 --> 00:11:02,080
Ze kunnen ons helpen met onderzoek, eerste versies van teksten schrijven en complexe datasets analyseren.
126
00:11:02,780 --> 00:11:06,480
Maar ze begrijpen niet wat ze doen in de menselijke zin van het woord.
127
00:11:07,270 --> 00:11:12,100
Dit betekent dat we voorzichtig moeten zijn met het toeschrijven van menselijke eigenschappen aan deze systemen.
128
00:11:12,640 --> 00:11:19,060
Ze denken niet, ze begrijpen niet en ze hebben geen echte intenties.
129
00:11:19,480 --> 00:11:28,760
Ze zijn krachtige tools die patronen kunnen herkennen, manipuleren, maar ze missen echt het diepere begrip dat menselijke communicatie zo rijk maakt.
130
00:11:29,900 --> 00:11:31,740
Betekent dit dat taalmodellen waardeloos zijn?
131
00:11:32,500 --> 00:11:32,960
Zeker niet.
132
00:11:33,580 --> 00:11:36,980
Maar het probleem ontstaat wanneer we hun capaciteiten overschatten
133
00:11:37,130 --> 00:11:40,280
of verwachten dat ze dingen kunnen die ze fundamenteel niet kunnen.
134
00:11:42,160 --> 00:11:46,760
Dus, de volgende keer dat je in gesprek bent met een geavanceerd taalmodel
135
00:11:46,830 --> 00:11:49,080
en het lijkt alsof het systeem je echt begrijpt,
136
00:11:49,960 --> 00:11:51,660
onthoud dan wat je vandaag hebt gehoord.
137
00:11:52,360 --> 00:11:54,500
Het is een indrukwekkende imitatie van begrip,
138
00:11:55,020 --> 00:11:57,680
maar echte begrip, dat blijft iets puur
139
00:11:57,680 --> 00:11:58,020
menselijk.
140
00:12:01,480 --> 00:12:02,400
de gebruikte bronnen
141
00:12:02,660 --> 00:12:03,640
vind je in de show notes
142
00:12:04,580 --> 00:12:05,080
en bedenk
143
00:12:05,710 --> 00:12:06,740
AI is niet de oplossing
144
00:12:06,750 --> 00:12:07,520
voor elk probleem
145
00:12:07,860 --> 00:12:09,200
maar onmisbaar waar het past
146
00:12:10,240 --> 00:12:11,120
tot de volgende keer