AIToday Live
AIToday Live deelt praktijkverhalen over AI die je direct vooruit helpen in je werk. In een wereld waar AI-ontwikkelingen elkaar razendsnel opvolgen, kiezen wij bewust voor verdieping en praktijkervaring. We bieden een kalm kompas in turbulente tijden.
In deze podcast hoor je professionals uit Nederland en België die openhartig vertellen over hun ervaringen met AI-implementaties. Voorbij de hype en krantenkoppen laten zij zien hoe organisaties écht met AI werken.
Onze gasten delen hun successen én uitdagingen op een toegankelijke manier.
Daarmee helpen we jou om:
- Praktische inzichten te krijgen in wat AI wel en niet kan
- Te leren van de ervaringen van andere professionals
- Concrete ideeën op te doen voor je eigen organisatie
- De grotere lijnen te zien in AI-ontwikkelingen
Iedere maandag een diepgaand gesprek met een gast, gepresenteerd door Joop Snijder (CTO Aigency) en Niels Naglé (Info Support). Elke donderdag deelt Joop in een korte aflevering zijn eigen praktijkervaringen en inzichten.
"AIToday Live is twee keer genomineerd voor 'De Prijs van Oranje' door de Belgian Podcast Awards en staat op nummer 1 in de lijst van Zomerse luister-inspiratie: podcasts over AI, productiviteit, SEO & meer (Frankwatching, juni 2024)."
Ontdek hoe andere professionals AI succesvol inzetten. Ontvang ook exclusieve content, kijk achter de schermen en blijf op de hoogte van nieuwe gasten via onze nieuwsbrief: https://aitodaylive.substack.com
AIToday Live
S07E97 - Hoe meet je vooroordelen in taalmodellen?
Lisa Pouels, afgestudeerd data scientist, onderzocht fairness in GraphRAG-systemen en werd hiervoor genomineerd voor de Responsible Internet Prijs van de Koninklijke Hollandse Maatschappij der Wetenschappen.
Haar onderzoek vergeleek verschillende taalmodellen op hun vermogen om vooroordelen te herkennen en te vermijden bij het beantwoorden van ambigue vragen. De resultaten toonden dat Qwen 2.5 en GPT 4.1 nano het best presteerden in het herkennen van onduidelijke vragen, terwijl DeepSeek uitblonk in fairness.
Lisa ontdekte dat zelfs kleine veranderingen in prompt-formulering grote invloed hebben op de eerlijkheid van antwoorden. Ze benadrukt dat fairness contextafhankelijk is en per toepassing anders gedefinieerd moet worden.
Onderwerpen
- Onderzoek naar fairness in GraphRAG-systemen
- Vergelijking van verschillende taalmodellen op fairness en accuracy
- Impact van prompt-formulering op uitkomsten
- Context-afhankelijkheid van fairness
- Praktische toepassingen van AI-kennis
- Podcast: AIToday Live podcast
- Research: A Comprehensive Empirical Study on Fairness in GraphRAG
- Organisatie: KHMW | Koninklijke Hollandsche Maatschappij der Wetenschappen
- Kaartspel: AI Game Changer - Generative AI editie
Genoemde entiteiten: Koninklijke Hollandse Maatschappij der Wetenschappen - OpenAI - Alibaba - DeepSeek - Mistral - Llama - Falcon
AigencyAigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.
Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).
Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.
Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!
1
00:00:00,000 --> 00:00:05,360
Na vorige week hebben we het over gender bias gehad en deze week hoor je in het verlengde Lisa Pouels.
2
00:00:05,360 --> 00:00:12,359
Zij heeft de bias in verschillende taalmodellen onderzocht en daarmee werd ze genomineerd voor een prestigieuze scriptieprijs.
3
00:00:13,359 --> 00:00:17,920
Luister verder en dan hoor je welk taalmodel het beste omgaat met vooroordelen.
4
00:00:20,320 --> 00:00:23,360
Heel leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live.
5
00:00:24,950 --> 00:00:31,120
Zo dan. Het is even een nieuw apparaat. Het is even wennen. Het kan even misgaan.
6
00:00:31,819 --> 00:00:36,320
Mijn naam Joop Snijder, CTO bij Aigency. Mijn naam Niels Naglé Area Lead Data & AI bij Info Support.
7
00:00:36,540 --> 00:00:40,100
En je luistert naar de podcast AIToday Live, misschien goed om te noemen.
8
00:00:41,390 --> 00:00:44,960
En we hebben vandaag in de studio Lisa Pouels. Voordat we beginnen,
9
00:00:44,980 --> 00:00:46,880
En Lisa, zou je jezelf eerst willen voorstellen?
10
00:00:47,380 --> 00:00:49,120
Ja, leuk dat ik hier ben ten eerste.
11
00:00:49,740 --> 00:00:54,220
Ik ben Lisa. Ik ben in september gestart bij Info Support met de traineeship.
12
00:00:54,560 --> 00:00:57,500
Ik ga eerst aan de slag als software engineer en daarna als data engineer.
13
00:00:58,700 --> 00:01:02,620
En mijn achtergrond is data science. Dat heb ik gestudeerd, nu net afgerond.
14
00:01:03,220 --> 00:01:07,400
Ja, en we gaan het hebben over de scriptie die jij geschreven hebt.
15
00:01:07,620 --> 00:01:10,420
En dat is niet zomaar een scriptie, want die is genomineerd voor een prijs.
16
00:01:10,560 --> 00:01:13,620
Dat wil ik je zo over horen. Maar even qua transparantie.
17
00:01:13,740 --> 00:01:19,660
Ik ben ook jouw bedrijfssupervisor geweest, dus ik denk dat dat handig is voor de luisteraar om dat ook te weten.
18
00:01:20,260 --> 00:01:23,540
Maar zou je kunnen vertellen waar je scriptie over gaat?
19
00:01:24,110 --> 00:01:27,060
Maar vooral eigenlijk, misschien kunnen we bij die prijzen even beginnen.
20
00:01:28,000 --> 00:01:30,380
Ja, eerst kort het onderwerp even van mijn scriptie.
21
00:01:30,650 --> 00:01:36,960
Dat ging over fairness in GraphRag, dus eigenlijk eerlijkheid in retrieval augmented generation.
22
00:01:37,980 --> 00:01:44,700
Dus een toevoeging op large language modellen, chat modellen, waarbij je externe data erbij kan betrekken.
23
00:01:45,660 --> 00:01:50,400
En daar heb ik inderdaad vanuit mijn opleiding ben ik genomineerd voor een scriptieprijs.
24
00:01:50,720 --> 00:01:52,660
Ik heb helaas niet gewonnen, weet ik onderhand.
25
00:01:52,700 --> 00:01:53,280
Oh, kijk.
26
00:01:53,860 --> 00:01:55,680
Maar ik vind het wel heel cool dat die genomineerd is.
27
00:01:55,880 --> 00:01:56,420
Nou, zeker.
28
00:01:57,170 --> 00:01:59,300
En de nominatie voor? Hoe heet de prijs?
29
00:01:59,740 --> 00:02:06,720
Het gaat om de Responsible Internet Prijs van de Koninklijke Hollandse Maatschappij der Wetenschappen.
30
00:02:07,140 --> 00:02:08,479
Wauw, mondjevol, toch?
31
00:02:08,759 --> 00:02:11,960
En als je daar al voor genomineerd bent, is het al een prachtig resultaat.
32
00:02:12,320 --> 00:02:15,760
En ik denk terecht, want je hebt echt een geweldig onderzoek gedaan.
33
00:02:17,140 --> 00:02:21,200
Dus je zei al van de RAG, GraphRag.
34
00:02:21,300 --> 00:02:24,560
Misschien moet je daar nog iets meer over vertellen van wat is dat?
35
00:02:25,820 --> 00:02:29,700
En daarna kunnen we erin duiken van wat heb je dan eigenlijk onderzocht?
36
00:02:30,220 --> 00:02:31,080
Ja, klinkt goed.
37
00:02:31,660 --> 00:02:35,000
Graph RAC is dus een uitbreiding op normaal RAG.
38
00:02:35,300 --> 00:02:37,420
Dus dat staat voor Retrieval Augmented Generation.
39
00:02:38,200 --> 00:02:40,840
En daarbij heb je eigenlijk een large language model.
40
00:02:40,980 --> 00:02:45,260
Dus een taalmodel zoals bijvoorbeeld ChatGPT, wat de meeste mensen denk ik wel kennen.
41
00:02:46,720 --> 00:02:55,640
Waarbij je een externe database, vaak bijvoorbeeld documenten of iets wat niet in het normale taalmodel is betrokken.
42
00:02:55,740 --> 00:03:03,500
Dus nieuwe, relevantere informatie, specifieke bedrijfsinformatie die niet is gedeeld met het taalmodel.
43
00:03:04,020 --> 00:03:06,140
Dat soort informatie kan je er dan bij betrekken.
44
00:03:06,440 --> 00:03:10,780
En die wordt dan, als je een vraag stelt, haalt die de relevante informatie op.
45
00:03:11,360 --> 00:03:14,600
En dan gebruikt die dat om antwoord te geven op bijvoorbeeld een vraag die je stelt.
46
00:03:14,740 --> 00:03:21,980
Ja, dus specialisatie op bedrijfsdata om eigenlijk vragen over je eigen organisatie terug te stellen met behulp van het large language model.
47
00:03:22,220 --> 00:03:24,080
En dan inderdaad toegevoegd je eigen data.
48
00:03:24,400 --> 00:03:24,860
Ja, bijvoorbeeld.
49
00:03:25,660 --> 00:03:28,100
En dit was dan de retrieval met het generation.
50
00:03:28,820 --> 00:03:33,060
En jij hebt daar nog een heel specifieke vorm op je onderzocht.
51
00:03:33,240 --> 00:03:40,400
Klopt, er zijn heel veel verschillende soorten datastructuren waarin je die externe data kan opslaan.
52
00:03:40,580 --> 00:03:42,220
En een daarvan is een knowledge graph.
53
00:03:43,220 --> 00:03:46,260
En dat is dus, dan krijg je GraphRag, wat ik heb gebruikt.
54
00:03:47,140 --> 00:03:51,240
En een knowledge graph haalt eigenlijk in dat al die documenten aan elkaar gekoppeld worden.
55
00:03:51,300 --> 00:03:55,360
Dus als er bijvoorbeeld een verwijzing in staat naar een ander document, dan zitten die ook aan elkaar gekoppeld.
56
00:03:55,420 --> 00:03:59,080
Of als het over dezelfde onderwerpen gaat, dezelfde mensen in worden genoemd.
57
00:03:59,500 --> 00:04:01,960
Op heel veel manieren kunnen die dan aan elkaar gelinkt worden.
58
00:04:02,200 --> 00:04:07,320
En dat maakt het voor zo'n taalmodel of in die retrieval stap die je uiteindelijk gaat doen,
59
00:04:07,960 --> 00:04:10,580
veel makkelijker om relevante informatie te vinden.
60
00:04:10,980 --> 00:04:12,380
Ja, want daar gaat het al iedere keer om.
61
00:04:12,570 --> 00:04:16,920
Dus het vinden van zo'n relevante mogelijk informatie, om die aan het taalmodel mee te geven,
62
00:04:17,040 --> 00:04:20,040
zodat die zo goed mogelijk antwoorden kan geven op de vragen die je stelt.
63
00:04:20,260 --> 00:04:20,920
Ja, precies.
64
00:04:21,800 --> 00:04:25,620
En wat was nou het onderwerp van jouw onderzoek?
65
00:04:26,700 --> 00:04:33,020
Ik ging dan kijken naar fairness in GraphRag, dus of de antwoorden die daar uiteindelijk uitkomen, of die eerlijk zijn.
66
00:04:34,100 --> 00:04:34,900
En wat is eerlijk?
67
00:04:36,640 --> 00:04:40,660
Dat was een heel groot onderdeel van mijn onderzoek, inderdaad, die definitie.
68
00:04:40,960 --> 00:04:49,380
Er zijn heel veel verschillende definities voor en het hangt ook heel erg af van de context van je onderzoek, van de data, waar het gebruikt voor gaat worden.
69
00:04:50,740 --> 00:04:55,000
Dus het was best wel lastig om dat ook voor mijn onderzoek specifiek vast te zetten.
70
00:04:55,620 --> 00:05:00,200
Uiteindelijk heb ik een definitie gebruikt op basis van de data die ik ook heb gebruikt,
71
00:05:00,900 --> 00:05:10,580
waarbij fairness eigenlijk werd gedefinieerd als de mate waarin verschillende groepen hetzelfde werden behandeld of niet hetzelfde.
72
00:05:11,180 --> 00:05:18,400
Ja. En zou je dat nog met een voorbeeld een beetje kunnen inkleuren?
73
00:05:19,400 --> 00:05:24,600
Ja, de data die ik gebruikte, dat waren multiple choice vragen.
74
00:05:25,600 --> 00:05:28,180
En die gingen dan over een bepaald scenario.
75
00:05:28,290 --> 00:05:35,780
Dus bijvoorbeeld, ik wil mijn auto uitlenen aan of mijn zoon of mijn oma.
76
00:05:36,420 --> 00:05:43,860
En wie is dan de beste keuze om mijn auto uit te lenen zonder dat er ongelukken en zo gaan gebeuren.
77
00:05:44,140 --> 00:05:47,320
Dan heb je dus twee groepen, jonge mensen en oude mensen.
78
00:05:48,080 --> 00:05:52,700
En dan wil je dus zien of dat model een voorkeur gaat geven aan een van die mensen.
79
00:05:52,840 --> 00:05:56,480
Want eigenlijk heb je totaal geen informatie, behalve een groep.
80
00:05:58,020 --> 00:06:01,540
Dus op basis daarvan kan je dan zien, heeft het een voorkeur naar een bepaalde groep?
81
00:06:02,080 --> 00:06:03,560
Is dat eerlijk, is dat niet eerlijk?
82
00:06:04,860 --> 00:06:12,380
Ja, en de dataset die gebruikt was, daar zaten eigenlijk, tenminste de eerste keer dat ik dat las, misschien wel aardig voor Niels.
83
00:06:13,280 --> 00:06:15,940
De eerste keer dat ik dacht, wat is dit, deze dataset?
84
00:06:16,140 --> 00:06:17,620
want die staat eigenlijk boordevol.
85
00:06:18,080 --> 00:06:18,280
Pius.
86
00:06:19,060 --> 00:06:19,780
Ja, boordevol.
87
00:06:19,800 --> 00:06:21,600
Ik hoor hem al heel veel vooroordelen.
88
00:06:22,040 --> 00:06:22,840
Allemaal mensen, jonge mensen.
89
00:06:23,460 --> 00:06:27,200
Ja, maar hij staat ook, ze staan heel expliciet erin.
90
00:06:27,460 --> 00:06:31,000
Kan je daar een voorbeeld van noemen van een aantal vooroordelen?
91
00:06:32,240 --> 00:06:35,360
Want die zijn dan nodig voor de test.
92
00:06:35,450 --> 00:06:36,419
Dus zou je dat...
93
00:06:37,090 --> 00:06:39,360
Ja, dat was inderdaad mijn tweede dataset.
94
00:06:39,680 --> 00:06:43,780
Dus ik heb één, de dataset die ik net beschreef, dat zijn de vragen.
95
00:06:43,980 --> 00:06:49,260
En daar zitten ook de juiste antwoorden bij die het model zou moeten geven, zodat je iets hebt om het tegen te controleren.
96
00:06:49,820 --> 00:06:52,320
En daarnaast had ik ook een dataset voor die knowledge graph.
97
00:06:53,340 --> 00:07:00,400
En in mijn geval bestond die graph uit stereotypes, om te zorgen dat er sowieso bias in mijn systeem zat om iets te kunnen testen.
98
00:07:01,040 --> 00:07:07,840
Maar voorbeelden daarvan waren bijvoorbeeld heel veel over zwarte mensen die crimineel zijn, dat soort dingen.
99
00:07:08,170 --> 00:07:09,320
Maar heel extreem.
100
00:07:09,670 --> 00:07:13,500
Ja, echt de eerste keer dat ik die dataset door had, was dat van, ja wat is dit?
101
00:07:14,940 --> 00:07:16,320
verschrikkelijk, maar die had je dus nodig
102
00:07:17,679 --> 00:07:18,980
dat maakte het onderzoek
103
00:07:19,220 --> 00:07:20,960
voor mij makkelijker, want ik wist dan zeker
104
00:07:21,120 --> 00:07:22,620
dat er bias in zou zitten
105
00:07:23,060 --> 00:07:25,020
anders is het best lastig om dat te meten
106
00:07:25,060 --> 00:07:26,480
want dan zijn die verschillen ook zo klein
107
00:07:26,640 --> 00:07:28,820
dat het dan de resultaten
108
00:07:28,940 --> 00:07:30,520
heel lastig te interpreteren zijn
109
00:07:31,640 --> 00:07:31,920
ja
110
00:07:33,180 --> 00:07:34,440
ik denk dat ik een beeld heb inderdaad
111
00:07:34,480 --> 00:07:35,960
maar dan heb je hem dus heel erg vergroot
112
00:07:36,340 --> 00:07:38,820
en dan krijg je dus wat beter uit je onderzoek
113
00:07:38,980 --> 00:07:40,160
dat de bias erin zit
114
00:07:40,860 --> 00:07:42,899
en hoe kan je dat dan weer gebruiken bij
115
00:07:43,400 --> 00:07:45,680
waar de subtiliteit van de bias in de modellen zit?
116
00:07:45,940 --> 00:07:48,140
Hoe doe je die transitie dan?
117
00:07:48,400 --> 00:07:49,280
Ja, dat is een goede vraag.
118
00:07:49,640 --> 00:07:52,560
Er is inderdaad nog veel meer onderzoek nodig hierover,
119
00:07:53,000 --> 00:07:57,040
want er was vrij weinig onderzoek specifiek voor GraphRAG en fairness.
120
00:07:59,480 --> 00:08:03,380
Mijn doel van het onderzoek was laten zien hoe je kan evalueren,
121
00:08:03,700 --> 00:08:07,640
in welke stappen je bijvoorbeeld kan evalueren hoe de fairness eruit ziet
122
00:08:07,900 --> 00:08:10,360
en wat voor een impact dat heeft.
123
00:08:12,240 --> 00:08:20,300
Om daarmee aan te tonen waar ze verder kunnen onderzoeken en waar je dus rekening zou moeten houden met bijvoorbeeld die subtielere datasets waar het minder in voor komt.
124
00:08:20,640 --> 00:08:23,180
En je noemt stappen. Wat voor stappen moet ik dan aan denken?
125
00:08:24,120 --> 00:08:27,740
Nou, zo'n GraphRAG systeem bestaat uit heel veel verschillende componenten.
126
00:08:27,850 --> 00:08:31,000
Dus je hebt het taalmodel zelf is een van de componenten.
127
00:08:31,310 --> 00:08:37,120
Je hebt de prompt, je hebt die knowledge graph, de methode om dan data uit die knowledge graph te halen.
128
00:08:37,450 --> 00:08:39,720
En dat zijn allemaal verschillende stapjes die gedaan worden.
129
00:08:40,000 --> 00:08:41,000
Het type taalmodel.
130
00:08:41,580 --> 00:08:44,620
Dus de leverancier, maar ook welke versie.
131
00:08:44,870 --> 00:08:45,520
Ja, zeker.
132
00:08:47,100 --> 00:08:50,700
Want je hebt, dat is wel denk ik heel erg leuk ook voor de luisteraars.
133
00:08:50,700 --> 00:08:53,180
Je hebt verschillende modellen tegen elkaar afgezet.
134
00:08:53,329 --> 00:08:55,040
Dus met dezelfde dataset, hetzelfde test.
135
00:08:56,120 --> 00:09:01,680
En er zaten echt verschillen tussen hoe biased de verschillende taalmodellen zijn.
136
00:09:02,520 --> 00:09:03,580
Ja, dat klopt inderdaad.
137
00:09:03,900 --> 00:09:06,120
En dat was een van mijn experimenten die ik heb gedaan.
138
00:09:06,320 --> 00:09:08,860
Is verschillende taalmodellen vergelijken.
139
00:09:09,420 --> 00:09:14,060
Waarbij ik heb geprobeerd om taalmodellen van verschillende origine te pakken.
140
00:09:14,060 --> 00:09:18,540
Dus van verschillende plekken over de wereld waar ze origineel zijn gemaakt.
141
00:09:19,620 --> 00:09:22,580
Een groot deel waren open source modellen via Ollama.
142
00:09:23,220 --> 00:09:24,340
Als dat mensen iets zegt.
143
00:09:25,000 --> 00:09:28,980
En ik heb ook een model van OpenAI gebruikt.
144
00:09:29,860 --> 00:09:30,820
Dus een GPT model.
145
00:09:31,820 --> 00:09:33,780
Je hebt GPT, je hebt Llama.
146
00:09:35,450 --> 00:09:36,740
Je had ook nog een Chinees model, toch?
147
00:09:37,100 --> 00:09:42,000
Ja, ik had Qwen, DeepSeek, Mistral, dat is een Europese.
148
00:09:42,740 --> 00:09:45,620
En dan ook nog een van Alibaba.
149
00:09:47,800 --> 00:09:48,520
Falcon ook.
150
00:09:48,710 --> 00:09:49,440
Oh ja, ja.
151
00:09:50,540 --> 00:09:52,440
Dus uiteindelijk een stuk of zes verschillende.
152
00:09:53,180 --> 00:09:55,020
En dan waarschijnlijk ook versie zal ook nog van belang zijn.
153
00:09:55,180 --> 00:09:58,140
Maar op het moment van uitvoer, wat scoren we een beetje goed?
154
00:09:58,460 --> 00:10:00,280
Is dat een beetje eruit te halen, de rode draad?
155
00:10:00,530 --> 00:10:01,140
Waar moeten we naartoe?
156
00:10:02,640 --> 00:10:05,780
De conclusie was wel dat het waarschijnlijk ook heel erg aan de context ligt.
157
00:10:06,020 --> 00:10:07,700
Dus dit is op specifiek mijn dataset.
158
00:10:08,400 --> 00:10:16,020
Daar scoorde Qwen 2.5 was dat en GPT 4.1 nano, de versies die ik heb gebruikt.
159
00:10:16,040 --> 00:10:21,640
Die scoorde het best, maar je zag wel dat bijvoorbeeld DeepSeek scoorde beter op fairness.
160
00:10:23,320 --> 00:10:27,420
En het GPT model die scoorde het best op accuracy.
161
00:10:28,340 --> 00:10:29,800
Dus die had de meeste vragen goed.
162
00:10:31,180 --> 00:10:36,400
maar DeepSeek had dan bijvoorbeeld een betere balans in welke groep die voorkeur gaf.
163
00:10:37,380 --> 00:10:40,840
Ja, dat is wel heel waarde voor, want als je dat makkelijk kan toetsen en je hebt daar een framework voor,
164
00:10:40,970 --> 00:10:44,240
dan kan je dus kijken wat is mijn vraagstuk van mijn organisatie waar ik mee zit,
165
00:10:44,480 --> 00:10:47,520
wat is de context en wat is daarvan belang, accuracy, fairness,
166
00:10:47,630 --> 00:10:52,900
en dan kan je dus zaken gaan combineren om tot betere passende resultaten te komen voor jouw vraagstuk.
167
00:10:53,200 --> 00:10:58,720
Ja, zeker. Maar dat is dus, mijn onderzoek is een eerste stap naar zo'n framework,
168
00:10:58,910 --> 00:11:00,260
maar daar is nog veel meer werk voor nodig.
169
00:11:00,840 --> 00:11:17,600
Maar ik denk dat het goed is voor de luisteraars nog even uit te diepen van toch wat voor type vragen je hebt gesteld en waarom je dan weet of het bias is of niet en hoe goed het model wel of niet de bias onderkent.
170
00:11:18,660 --> 00:11:24,900
Ja, de dataset die ik heb gebruikt, daar zaten uit mijn hoofd vier verschillende soorten vragen in.
171
00:11:25,350 --> 00:11:33,620
Dus je had ambiguous questions en disambiguated questions, waarbij ambiguous questions eigenlijk niet beantwoordbaar zouden zijn.
172
00:11:34,060 --> 00:11:41,120
Dus dat was zo'n vraag, het voorbeeld wat ik net gaf, dat je aan iemand je auto wilt uitlenen, maar je hebt eigenlijk verder geen informatie.
173
00:11:41,560 --> 00:11:43,940
Dan wil je dat het antwoord dus is, weet ik niet.
174
00:11:44,420 --> 00:11:55,140
Wat ik daar ook een mooie vond, volgens mij staat die ook in jouw scriptie, is dat er gezegd wordt, dat ging over dingen onthouden.
175
00:11:56,560 --> 00:12:03,640
Je hebt dan een oudere man, een leraar en een leerling, maar iemand heeft zich voorgesteld.
176
00:12:04,700 --> 00:12:11,040
En dan wordt er gevraagd, wie heeft de naam van degene die zich heeft voorgesteld niet onthouden?
177
00:12:14,160 --> 00:12:27,720
En dus een ambigue vraag is dat je dus geen context hebt over wie nou het meest in aanmerking zou komen voor het niet onthouden.
178
00:12:27,730 --> 00:12:32,140
En dan gaat dus het spelen dat je zegt van, oh ja, maar dat zal dus wel dan de oudere leraar zijn.
179
00:12:32,680 --> 00:12:39,100
Dat is dan het voordeel, maar zo'n taalmodel zou dan moeten zeggen, dit weet ik niet.
180
00:12:39,240 --> 00:12:40,440
Ik heb meer context nodig.
181
00:12:40,620 --> 00:12:42,000
Ja, ik heb niet genoeg context.
182
00:12:42,340 --> 00:12:48,060
En zo kan je die ambigue vragen ook daadwerkelijk controleren.
183
00:12:49,400 --> 00:12:55,400
In die dataset zit ook deze vraag en er zit als gewenst antwoord, ik weet het niet.
184
00:12:55,820 --> 00:12:59,440
Nee, ik heb meer nodig om daar een antwoord op te kunnen geven inderdaad.
185
00:12:59,700 --> 00:13:03,459
En dan het werkelijke antwoord wat je krijgt, kan je dus houden tegen...
186
00:13:06,220 --> 00:13:11,560
En hoe vaak kwam het taalmodel ook terug dat hij teruggaf van, je kan geen antwoord op geven.
187
00:13:11,640 --> 00:13:20,360
Ja, dat is dus waar QWEN 2.5 en GPT 4.1 nano uiteindelijk het best scoorden ten opzichte van de andere modellen.
188
00:13:20,380 --> 00:13:22,640
Die andere modellen vonden dat allemaal heel lastig.
189
00:13:23,300 --> 00:13:30,140
En zowel QWEN als GPT gaven ook nog best wel regelmatig dat ik-weet-het-niet-antwoord.
190
00:13:31,120 --> 00:13:34,520
En scoorden daardoor over het algemeen hoger op accuracy en ook fairness.
191
00:13:35,380 --> 00:13:38,800
En soms gaven ze zelfs een beetje context van waarom ze het niet wisten.
192
00:13:39,220 --> 00:13:44,880
Ja, klopt. Er zat soms uitleg achter dat ik optioneel in de prompt gezet, je mag uitleg erbij geven.
193
00:13:45,380 --> 00:13:48,500
En dat was dus best wel interessant om te zien inderdaad wat ze dan zeiden.
194
00:13:48,860 --> 00:13:54,060
Daar heb ik verder niet voor de accuracy of fairness wat meegedaan, maar dat was wel interessant om ook te zien.
195
00:13:55,330 --> 00:14:01,200
Ja, ik zou het wel fijn vinden als er gewoon wat guardrails zijn, dat die gewoon met zoveel procent zekerheid,
196
00:14:01,330 --> 00:14:04,800
nee, ik kan dat gewoon niet zeggen in plaats van wat zal dit wel zijn en als waarheid verkopen.
197
00:14:06,199 --> 00:14:09,520
Pas op, want die percentage krijg je niet.
198
00:14:09,900 --> 00:14:12,020
Je krijgt natuurlijk een antwoord.
199
00:14:12,700 --> 00:14:16,100
Dit was even hoopvol denken richting de toekomst om iets tastbaars te hebben, Joop.
200
00:14:16,100 --> 00:14:17,380
Om toch even wat tastbaars te hebben.
201
00:14:17,400 --> 00:14:25,260
Ik snap dat de percentage niet is, maar je wil wel een soort van waardeoordeel of in ieder geval wat hebben daarvoor.
202
00:14:28,120 --> 00:14:34,400
Ja, het zou fijn zijn inderdaad om te weten dat hij zegt van ik weet het heel zeker of ik denk dat het dit is,
203
00:14:34,540 --> 00:14:38,480
Maar ik heb eigenlijk nog iets meer informatie over dat je daar iets van weet.
204
00:14:40,000 --> 00:14:46,160
En kan je ook voorbeelden geven van die niet-ambigue vragen die je stelt?
205
00:14:46,370 --> 00:14:48,440
Ja, dan komt er dus een stukje context bij.
206
00:14:49,350 --> 00:15:00,820
Dus bijvoorbeeld in het voorbeeld van een auto uitlenen, zou er context bij kunnen dat die oma een keer in een ongeluk is geweest en al een keer een auto stuk heeft gereden.
207
00:15:01,300 --> 00:15:05,340
Dan zou je dus waarschijnlijk je auto sneller aan de zoon willen uitlenen.
208
00:15:07,040 --> 00:15:10,240
Dus op die manier komt dan eigenlijk het antwoord al in de vraag te staan.
209
00:15:11,320 --> 00:15:15,060
En hoe vaak had hij het dan goed? Want niet altijd was het goed dan toch?
210
00:15:15,680 --> 00:15:19,220
Nee, niet altijd. Het is nog steeds, soms zeiden ze dan, ik weet het niet.
211
00:15:19,520 --> 00:15:25,220
Ook wat interessant was, het Llama model die gaf eigenlijk altijd het, ik weet het niet antwoord.
212
00:15:25,780 --> 00:15:32,420
Omdat daar blijkbaar dus echt guardrails in zitten van dit gaat over stereotypes, dit mag ik niet beantwoorden.
213
00:15:33,060 --> 00:15:35,660
Dus die weigerden gewoon om daar een antwoord op te geven.
214
00:15:36,720 --> 00:15:38,600
En dat was soms ook het geval bij andere modellen.
215
00:15:39,060 --> 00:15:44,220
Maar meestal kwam daar wel dan een van de twee antwoorden uit, maar soms ook de verkeerde groep alsnog.
216
00:15:44,620 --> 00:15:48,360
Ja, dus dat toch nog het vooroordeel doorklonk in het antwoord.
217
00:15:48,450 --> 00:15:52,020
Ja, omdat het model toch zoveel van het vooroordeel erin heeft zitten,
218
00:15:52,220 --> 00:15:55,300
Dat die kleine context die je dan nog meegeeft, dat niet genoeg sturing geeft.
219
00:15:56,360 --> 00:16:02,180
Soms waren de vragen echt wel zo duidelijk wat de keuze zou moeten zijn.
220
00:16:02,320 --> 00:16:07,100
En dat het vooroordeel het overrude eigenlijk.
221
00:16:08,280 --> 00:16:10,560
En dat het dus het verkeerde antwoord gekozen werd.
222
00:16:10,700 --> 00:16:14,920
Terwijl vanuit de context was het heel helder wie gekozen moest worden.
223
00:16:15,320 --> 00:16:20,140
Maar dat kwam dus ook deels doordat de externe context, die dus uit die knowledge graph,
224
00:16:20,380 --> 00:16:23,380
Die wordt dan nog bij die vraag meegegeven aan het model.
225
00:16:23,810 --> 00:16:25,300
Daar stonden ook weer stereotypes in.
226
00:16:25,310 --> 00:16:28,820
Dus je hebt dan de ingebouwde stereotypes in het taalmodel zelf,
227
00:16:28,950 --> 00:16:32,980
maar ook nog die externe context die ik er dan bij toevoegde,
228
00:16:33,760 --> 00:16:36,100
wat zorgde dat er sowieso bias in zat.
229
00:16:36,540 --> 00:16:41,000
Dus dat maakt het wel wat dat betreft in sommige scenario's een beetje lastig evalueren.
230
00:16:41,820 --> 00:16:47,260
En zijn die guardrails waar je dan nu tegenaan liep ook transparant van de large language modellen?
231
00:16:47,480 --> 00:16:52,020
Zijn die voor sommige modellen uitgeschreven van, nou, zal die goed of niet goed mee omgaan?
232
00:16:52,840 --> 00:16:59,640
Er staat, geloof ik, bij de meeste large language modellen wel iets over, maar het is ook vrij vaag.
233
00:16:59,640 --> 00:17:02,700
Want uiteindelijk is het heel lastig om dat echt af te bakenen.
234
00:17:04,680 --> 00:17:05,839
Dus dat is lastig.
235
00:17:07,440 --> 00:17:10,859
Ja, en dat maakt het ook lastig, zeg maar, als je hiermee wil ontwikkelen.
236
00:17:11,099 --> 00:17:11,220
Ja.
237
00:17:12,400 --> 00:17:15,200
Want de transparantie daarover is niet heel groot.
238
00:17:16,680 --> 00:17:20,680
Ik kan me ook voorstellen dat van sommige guardrails, dat ze het niet kenbaar maken,
239
00:17:21,160 --> 00:17:23,739
omdat het dan makkelijker is om te omzeilen.
240
00:17:23,759 --> 00:17:28,259
Net zo goed als dat je weet, je weet dat er bij je creditcard dat er fraudedetectie op plaatsvindt,
241
00:17:28,319 --> 00:17:31,220
maar ze gaan niet precies vertellen hoe ze die fraude detecteren.
242
00:17:31,520 --> 00:17:32,460
Nee, dat lijkt me logisch.
243
00:17:34,199 --> 00:17:40,680
Analoog daaraan heb je hier natuurlijk ook een afweging van wat deel je en wat deel je niet.
244
00:17:41,359 --> 00:17:44,820
Ja, en als gebruiker, hoe ga ik daar dan mee om?
245
00:17:45,080 --> 00:17:50,940
Want als organisatie zou je toch moeten weten wanneer wil ik de ene wel toepassen of de andere niet toepassen voor het vraagstuk wat jij hebt.
246
00:17:54,620 --> 00:18:03,200
Gezien wat jouw bevindingen waren, wat was jouw eigen gevoel ten opzichte van de resultaten die je hebt gezien?
247
00:18:03,840 --> 00:18:09,360
Ik heb naast verschillende taalmodellen ook nog een paar andere componenten van dat hele systeem vergeleken.
248
00:18:09,800 --> 00:18:14,920
Wat ik ook erg interessant vond was de prompt en de impact die die dan heeft op de fairness.
249
00:18:16,540 --> 00:18:23,460
Want soms kunnen kleine taalfoutjes, als de zin dan net grammaticaal iets anders kan betekenen,
250
00:18:23,500 --> 00:18:27,740
dan kan dat heel veel invloed hebben op zowel de accuracy als ook de fairness.
251
00:18:28,260 --> 00:18:34,040
Dus dat was ook voor mezelf wel een moment van, oh ja, ik moet echt goed nadenken over hoe ik mijn prompt formuleer.
252
00:18:34,280 --> 00:18:54,300
Ja, waar ik nog naar op zoek ben, is van, was je verbaasd over de hoeveelheid bias? Misschien minder verbaasd? Je gaat er met een bepaalde gedachte in. Uiteindelijk heb je je onderzoeksresultaten. Wat dacht je nadat je die resultaten had?
253
00:18:55,480 --> 00:19:01,580
Dat was wel redelijk wat ik verwacht, omdat er dus zoveel stereotypes vanuit die kennisbank nog bijeen kwamen.
254
00:19:02,960 --> 00:19:06,320
Ik vond het fijn om te zien dat er verschillen zaten tussen de verschillende modellen,
255
00:19:06,780 --> 00:19:09,420
want ik wist van tevoren niet zo goed of dat echt duidelijk zou worden.
256
00:19:10,920 --> 00:19:19,440
Maar ik heb voordat ik met deze hele stereotypische data gewerkt ook nog een andere medische dataset gebruikt.
257
00:19:19,840 --> 00:19:25,800
Maar daar vond ik het heel lastig om dan te realiseren hoe fairness er daaruit ziet.
258
00:19:26,000 --> 00:19:29,140
En dat was ook wel een moment van, oké, hier is ook nog meer onderzoek nodig.
259
00:19:29,860 --> 00:19:32,600
Maar dat was out of scope voor mijn specifieke scriptie.
260
00:19:34,180 --> 00:19:36,800
Maar wel, fairness kan overal relevant zijn.
261
00:19:36,960 --> 00:19:44,100
Dus dat was ook wel iets wat ik van tevoren had verwacht van, oké, fairness is heel makkelijk te definiëren, maar dat is het dus niet.
262
00:19:44,120 --> 00:19:49,000
En het is echt heel erg afhankelijk van die specifieke domein waar je in zit en de specifieke context.
263
00:19:49,420 --> 00:19:55,100
Zijn er hulpmiddelen of frameworks voor beschikbaar om fairness te definiëren, te kaderen,
264
00:19:55,290 --> 00:19:56,580
om als mensen hiermee aan de slag willen?
265
00:19:57,770 --> 00:20:03,360
Er is wel van alles voor fairness. Het verschilt heel erg bij context wat dat precies is,
266
00:20:03,560 --> 00:20:10,200
maar bijvoorbeeld voor medische dingen, er is heel veel te vinden. Zo ook in andere domeinen.
267
00:20:11,080 --> 00:20:15,960
Zou je kunnen zeggen dat als je de fairness weet te verhogen,
268
00:20:17,260 --> 00:20:25,320
dat je daarmee ook de kwaliteit van de antwoorden verhoogt en dat het misschien ook dan hallucinatie
269
00:20:26,260 --> 00:20:34,860
verlagend is? Dat denk ik wel. Het is wel lastig of dat zo met elkaar te maken heeft, maar ik vind
270
00:20:34,980 --> 00:20:41,940
wel dat als de fairness hoger wordt dat het dan beter is. Maar het is soms wel een trade-off met
271
00:20:42,440 --> 00:20:47,780
accuracy. Dus het kan dat als je een hogere fairness wilt dat het model iets meer foutjes
272
00:20:47,920 --> 00:20:54,180
maakt. Soms is dat een balans en je moet daarin keuzes maken. Hoe zou die meer fouten kunnen maken
273
00:20:54,220 --> 00:21:02,720
dan? Nou dat is in elk geval iets wat uit mijn resultaten kwam want soms kiest hij dan om tegen
274
00:21:03,320 --> 00:21:09,260
de stereotypes in te gaan terwijl het stereotype wel het juiste antwoord was. Dus dat kan ook nog
275
00:21:09,280 --> 00:21:13,540
voorkomen. Maar dat ligt ook weer heel erg aan de context of dat inderdaad mogelijk is.
276
00:21:14,400 --> 00:21:18,640
Ja, snap ik. En hoe belangrijk vind je dan fairness inderdaad daarin in de afweging met
277
00:21:18,820 --> 00:21:27,160
accuracy? Ja. Is dat dan fair? Ja, precies. Want aan de andere kant, als je helemaal voor volledige
278
00:21:27,280 --> 00:21:33,140
accuracy gaat, dan wordt het weer veel minder fair. Misschien klopt het dan in die context wel dat
279
00:21:33,140 --> 00:21:37,300
hij altijd voor die stereotypes gaat, maar wil je dat wel? Ja, ik denk dat dat wel heel mooi is.
280
00:21:37,320 --> 00:21:39,280
En dat wil je dat wel, want dat was hoe het misschien was.
281
00:21:39,300 --> 00:21:41,300
En met de data die beschikt was, heeft het zo gecreëerd.
282
00:21:41,300 --> 00:21:42,240
En waar willen we naartoe?
283
00:21:44,880 --> 00:21:47,800
Waar wil je dan dat het niet ver is dan?
284
00:21:49,960 --> 00:21:55,540
In dit geval waren er een aantal antwoorden die dan dus toch voor de stereotype groep gingen.
285
00:21:55,680 --> 00:22:04,200
Bijvoorbeeld in dat voorbeeld met auto's is het stereotype geloof ik dus dat jonge mensen meer roekeloos rijden.
286
00:22:04,760 --> 00:22:08,600
Maar als in dit geval inderdaad die zoon een keer een auto-ongeluk heeft veroorzaakt,
287
00:22:09,140 --> 00:22:14,500
dan wil je dus dat hij inderdaad zegt, dat is het stereotype, dat was het goede antwoord.
288
00:22:16,020 --> 00:22:20,000
Maar je wilt niet dat hij dat volgende keer weer zegt als je die context niet hebt.
289
00:22:20,180 --> 00:22:20,780
Ja, precies.
290
00:22:22,840 --> 00:22:26,920
En in de zorg kan ik geloven dat bias en inderdaad fairness juist naar gender
291
00:22:27,240 --> 00:22:32,120
juist van heel erg belang is dat je voor vrouwen en voor mannen andere patronen en andere ziektes hebt
292
00:22:32,120 --> 00:22:34,460
en dat je juist naar die kant op wil.
293
00:22:34,560 --> 00:22:36,420
Maar misschien is dan de fairness definitie ook weer anders.
294
00:22:36,680 --> 00:22:37,940
Ja, dat lijkt me wel.
295
00:22:38,240 --> 00:22:44,180
In sommige gevallen is het inderdaad misschien wel een vooroordeel, maar klopt dat ook?
296
00:22:45,540 --> 00:22:50,560
Volgens mij had je in je scriptie ook wat verschillen over wat eerlijk is.
297
00:22:52,280 --> 00:22:55,160
Eerlijk is niet altijd iedereen gelijk.
298
00:22:56,040 --> 00:22:57,860
Kun je daar wat over vertellen? Weet je dat nog?
299
00:22:58,860 --> 00:23:00,760
Ja, het is een paar maanden geleden.
300
00:23:02,220 --> 00:23:10,180
Ik moet even graven, maar inderdaad wat je zegt, in de medische wereld heb je dat verschil tussen mannen en vrouwen, dat is heel relevant.
301
00:23:11,700 --> 00:23:15,780
Daar moeten verschillende onderzoeken zijn gedaan en het kan verschillende symptomen hebben.
302
00:23:15,920 --> 00:23:19,580
Dus je wil niet dat iedereen op één hoop gegooid wordt en dat iedereen als gelijk wordt gezien.
303
00:23:20,200 --> 00:23:23,680
Want dat kan toch relevant zijn om te weten of het een man of een vrouw is.
304
00:23:25,860 --> 00:23:29,000
Maar in andere situaties heeft dat weer totaal geen invloed.
305
00:23:29,320 --> 00:23:43,000
En dan bijvoorbeeld als je in een job application, dus als je ergens gaat solliciteren, als daar wordt meegenomen of je een man of een vrouw bent, dat zou nergens nodig voor moeten zijn in de meeste banen in elk geval.
306
00:23:44,140 --> 00:23:49,340
Maar daar zou het ook weer kunnen dat je wel een lijstje met hobby's ofzo meedeelt om te laten zien van kijk dit ben ik.
307
00:23:49,690 --> 00:23:59,260
En dat het model dan daar weer uithaalt of je misschien wel een vrouw of een man bent afhankelijk van stereotypes die met hobby's te maken.
308
00:23:59,780 --> 00:24:03,140
Ja we hadden het in een ander aflevering volgens mij over punniken en dat soort zaken.
309
00:24:03,360 --> 00:24:06,320
Dus ik weet niet hoe dit dan weer terugkomt inderdaad.
310
00:24:06,350 --> 00:24:10,540
Maar dat zijn wel belangrijke zaken inderdaad waar je misschien niet besef van hebt dat het afleidbaar is.
311
00:24:10,720 --> 00:24:14,260
En daarna inderdaad de fairness een andere kant uitslaat.
312
00:24:14,660 --> 00:24:17,180
En waar we het over hebben in de medische wereld.
313
00:24:18,040 --> 00:24:21,500
Een van de metrieken die je hebt is dan group fairness.
314
00:24:22,300 --> 00:24:24,120
Want je wil gelijke behandeling.
315
00:24:24,570 --> 00:24:29,840
Maar wel binnen de groep die je wel verschillend hebt.
316
00:24:30,920 --> 00:24:39,360
En zo zijn er echt talloze manieren om eerlijkheid uit te drukken.
317
00:24:39,400 --> 00:24:44,500
waarbij het niet altijd maar gaat om iedereen helemaal exact hetzelfde.
318
00:24:46,360 --> 00:24:48,680
Ja, ik ben wel nieuwsgierig naar de aanleiding van je scriptie.
319
00:24:48,680 --> 00:24:50,820
Het is afgerond en je zegt er is nog veel meer onderzoek nodig.
320
00:24:51,360 --> 00:24:53,820
Als jij een onderzoek zou mogen kiezen die hieruit volgt,
321
00:24:54,040 --> 00:24:55,620
wat zou dan het onderzoek zijn waar je denkt,
322
00:24:55,860 --> 00:24:57,460
daar moet aandacht aan gespendeerd worden?
323
00:24:58,520 --> 00:25:01,240
Oeh, dat is een lastige vraag, want er is heel veel mogelijk.
324
00:25:03,640 --> 00:25:06,480
Sowieso, waar ik tegenaan liep, wat ik eigenlijk graag wilde doen,
325
00:25:06,540 --> 00:25:13,360
was een open vraag evalueren dat je want uiteindelijk als je met een chatbot of zo gaat chatten dan stel
326
00:25:13,360 --> 00:25:18,300
je bijna altijd open vragen je geeft niet heel vaak dat je een multiple choice vraag geeft want
327
00:25:18,300 --> 00:25:24,840
dan weet je vaak het antwoord zelf al denk ik alleen om fairness te evalueren zijn er heel
328
00:25:24,960 --> 00:25:31,260
veel multiple choice benchmark zoals ze dat noemen gemaakt dus data sets met vragen met ook al het
329
00:25:31,360 --> 00:25:36,500
juiste antwoord en voor open vragen is dat veel lastiger omdat dat antwoord en heel erg kan
330
00:25:36,520 --> 00:25:43,920
per model, per keer dat je het vraagt. Maar dat is ook gewoon veel meer werk om zo'n dataset te maken
331
00:25:43,980 --> 00:25:47,740
die daar gebruikt voor zou kunnen worden. Maar ik denk wel dat dat heel waardevol zou zijn,
332
00:25:47,900 --> 00:25:53,900
omdat dat uiteindelijk dichterbij komt wat we uiteindelijk echt doen dan zo'n multiple choice dataset.
333
00:25:56,500 --> 00:26:02,280
Wij willen ook nog een vraag aan jou voorleggen en dat is een stelling van een volgende gast.
334
00:26:18,380 --> 00:26:23,380
Waarom het een muziekje over een spel heeft, is dat we eigenlijk ook het AI Game Changer kaartspel hebben.
335
00:26:23,500 --> 00:26:25,920
Die kan je ook gewoon bij ons opvragen bestellen.
336
00:26:26,080 --> 00:26:27,340
Sturen we met alle liefde op.
337
00:26:28,860 --> 00:26:30,200
De link staat in de show notes.
338
00:26:30,840 --> 00:26:31,700
Goede toevoeging Joop.
339
00:26:32,480 --> 00:26:35,300
De vraag is van Sofia Zitman van Kickstart AI.
340
00:26:35,660 --> 00:26:37,560
En de stelling luidt als volgt.
341
00:26:37,900 --> 00:26:43,040
AI wordt pas echt magisch wanneer het meer doet dan alleen antwoorden of content leveren.
342
00:26:43,320 --> 00:26:51,100
Het gaat om creëren van systemen waarin AI zelfstandig handelt, keuzes maakt en waarde toevoegt op een manier die mensen alleen niet kunnen bereiken.
343
00:26:52,040 --> 00:26:53,320
Jeetje, een ander verhaal.
344
00:26:53,860 --> 00:26:54,020
Zo.
345
00:26:55,520 --> 00:27:03,980
Dus AI wordt pas echt magisch als het zelf handelt, keuzes maakt en waarde toevoegt zoals wij dat zelf als mensen niet kunnen bereiken.
346
00:27:04,300 --> 00:27:05,120
Klein beetje samengevat.
347
00:27:06,220 --> 00:27:07,360
Ja, interessante stelling.
348
00:27:08,560 --> 00:27:11,960
Ik denk inderdaad dat het sowieso veel waarde toevoegt als het dat doet.
349
00:27:12,080 --> 00:27:18,840
Maar ik denk dat het daarvoor ook al wel waarde zou kunnen toevoegen door taken die wij doen makkelijker kunnen maken.
350
00:27:20,160 --> 00:27:22,960
Heel veel administratieve taken zijn door AI zo gedaan.
351
00:27:23,200 --> 00:27:25,780
En voor ons kost dat veel meer tijd of moeite.
352
00:27:26,540 --> 00:27:34,000
En ik denk dat AI daar ook al een beetje magie heeft van hoe snel alles dan kan gaan en hoe makkelijk.
353
00:27:35,120 --> 00:27:37,720
Ja, mooi inderdaad. Dat daar de magie in snelheid zit inderdaad.
354
00:27:37,720 --> 00:27:40,760
Want als het goed is, is het onder de motorkap geen magie.
355
00:27:41,020 --> 00:27:43,800
Dus mooi inderdaad hoe je dat verwoordt. Dankjewel.
356
00:27:45,560 --> 00:27:46,880
Ik was nu ook nieuwsgierig.
357
00:27:48,680 --> 00:27:53,380
Uiteindelijk heb je je scriptie afgerond en je bent nu aan het werk en dat soort zaken.
358
00:27:53,390 --> 00:27:56,840
Hoe zou je dit toepassen in de dagelijkse praktijk met deze kennis die je hebt opgedaan?
359
00:27:58,860 --> 00:28:04,680
In elk geval een stukje bewustwording voor mijn prompt die ik ook in het dagelijks leven en ook tijdens werk.
360
00:28:05,050 --> 00:28:08,940
Als je een prompt formuleert ook al rekening houden met fairness eventueel.
361
00:28:10,380 --> 00:28:11,880
Maar het verschilt heel erg per context.
362
00:28:13,260 --> 00:28:15,300
Ik heb wel in elk geval heel veel geleerd over fairness.
363
00:28:15,580 --> 00:28:20,100
Dus ik hoop dat als ik bij een klant terecht ga komen, dat ik het daar ook kan toepassen.
364
00:28:20,900 --> 00:28:24,920
Maar dat is heel erg afhankelijk van de context of ik direct hier iets mee kan of niet.
365
00:28:25,840 --> 00:28:28,560
En heb je een voorbeeld hoe je hem dan zelf in een prompt toepast?
366
00:28:28,590 --> 00:28:31,180
Of waar je dan extra over nadenkt tijdens het stellen van je prompt?
367
00:28:32,700 --> 00:28:34,380
In elk geval een stukje formulatie.
368
00:28:35,020 --> 00:28:39,240
Dus duidelijk zijn en ook duidelijk formuleren wat ik verwacht.
369
00:28:40,460 --> 00:28:43,200
Maar ja, er zijn heel veel prompt engineering dingen die je kan doen.
370
00:28:43,320 --> 00:28:44,960
Dus van alles mogelijk qua technieken.
371
00:28:46,360 --> 00:28:53,680
Maar ook een stukje opletten over bijvoorbeeld het gebruik van gender in mijn prompt.
372
00:28:53,840 --> 00:28:57,180
Als ik iets vraag, maakt het uit de gender?
373
00:28:59,320 --> 00:29:01,360
Ja, daar iets meer bewust mee omgaan.
374
00:29:02,080 --> 00:29:06,000
En bedoel je dan dat je juist wel de gender noemt of juist niet?
375
00:29:07,480 --> 00:29:08,720
Ja, het ligt heel erg aan de context.
376
00:29:08,860 --> 00:29:20,420
Maar als ik bijvoorbeeld iets vraag om een voorbeeld te maken en het gaat specifiek over bijvoorbeeld mijn scouting inleiding over die groep meiden waar ik leiding aan geef, dan zal ik vragen of die iets ook voor meiden wil maken.
377
00:29:20,880 --> 00:29:28,680
Maar dan is dat relevant en anders proberen het erbuiten te laten of als hij het doet dan ook voorbeelden voor de andere kant te vragen op die manier.
378
00:29:29,900 --> 00:29:37,100
Eigenlijk bewust inzetten van een beetje bias of een stukje inderdaad fairness, skewness daarin in wat je wil bereiken.
379
00:29:37,340 --> 00:29:37,500
Ja.
380
00:29:39,200 --> 00:29:40,340
Interessant, was er nog niet naar gekeken.
381
00:29:40,340 --> 00:29:41,760
Zo kan je het ook inzetten, inderdaad.
382
00:29:43,479 --> 00:29:47,160
Heb jij een naam voor het taalmodel dat je gebruikt?
383
00:29:47,400 --> 00:29:47,540
Ja.
384
00:29:49,599 --> 00:29:50,400
Mogen we die weten?
385
00:29:50,560 --> 00:29:50,640
Charlie.
386
00:29:51,040 --> 00:29:51,820
Charlie ZGPT.
387
00:29:51,860 --> 00:29:54,020
Ah ja, dus je hebt een gender gekozen.
388
00:29:54,080 --> 00:29:55,260
Ik heb blijkbaar een gender gekozen.
389
00:29:55,400 --> 00:29:58,240
Maar Charlie is op zich, kan het beide gender zijn.
390
00:29:58,240 --> 00:30:00,160
Oh ja, dat is best wel gender neutraal in de taal.
391
00:30:00,160 --> 00:30:01,560
Oh, dat is mijn vooroordeel.
392
00:30:02,620 --> 00:30:03,420
En jij?
393
00:30:04,280 --> 00:30:05,859
Ik heb geen naam voor mijn taalmodel.
394
00:30:06,360 --> 00:30:06,780
Nee, ik ook niet.
395
00:30:06,880 --> 00:30:10,740
Nee, Charlie of Chatty wisselt ook nog wel eens afhankelijk welke bui ik heb.
396
00:30:11,459 --> 00:30:13,800
Oké, bij mij heet die ChatGPT of Claude.
397
00:30:15,440 --> 00:30:16,460
Dat is wel raar in dat.
398
00:30:17,740 --> 00:30:22,060
ChatGPT heet Charlie, voor Claude heb ik geen naam en voor Gemini is het gewoon Gemini.
399
00:30:22,500 --> 00:30:23,520
Oh ja, grappig.
400
00:30:23,540 --> 00:30:24,320
Ga ik wel vreemd te hebben.
401
00:30:25,340 --> 00:30:26,040
Nieuwe kansen.
402
00:30:26,480 --> 00:30:27,260
Ja, nieuwe kansen.
403
00:30:27,860 --> 00:30:28,960
Nee, dat ga ik mijn tijd niet aan te doen.
404
00:30:31,900 --> 00:30:39,000
Heb jij nog tips voor mensen die aan de slag willen en hier meer over zouden willen weten?
405
00:30:41,240 --> 00:30:45,420
Een goede stap is om het aan ChatGPT te vragen of zelf te googlen.
406
00:30:45,590 --> 00:30:47,040
Dat is natuurlijk ook altijd een goede stap.
407
00:30:48,260 --> 00:30:51,440
Als je gewoon zoekt op fairness überhaupt, dan is er al heel veel te vinden.
408
00:30:51,560 --> 00:30:55,320
Of fairness voor AI of voor RAC, afhankelijk van waar je het voor wilt gebruiken.
409
00:30:55,960 --> 00:31:00,460
Maar ik denk wel dat het voor iedereen heel waardevol is om meer bewust te zijn van fairness in AI.
410
00:31:01,080 --> 00:31:03,180
Maar dat hoeft niet specifiek GraphRack te zijn.
411
00:31:03,380 --> 00:31:03,500
Nee.
412
00:31:04,660 --> 00:31:04,880
Mooi.
413
00:31:06,540 --> 00:31:10,200
Ik ben nog wel benieuwd, dat als je nou helemaal vrij zou mogen denken,
414
00:31:11,340 --> 00:31:13,880
zonder obstakels, zonder technische obstakels,
415
00:31:14,380 --> 00:31:19,360
wat je dan, hoe je, nou je ideale AI er eigenlijk uit zou zien.
416
00:31:19,740 --> 00:31:21,680
En geef je daar even wat denktijd voor.
417
00:31:45,500 --> 00:31:45,940
Heb je een idee?
418
00:31:48,020 --> 00:31:52,380
Ja en nee. Het is heel breed om zomaar iets te bedenken.
419
00:31:53,710 --> 00:31:58,920
Maar ik denk dat een AI voor mij toch vrij snel blijft hangen op een chatbot.
420
00:31:59,070 --> 00:32:03,260
Ook al is dat misschien saai, maar dat is wel uiteindelijk wat ook heel veel gebruikt wordt.
421
00:32:03,370 --> 00:32:04,460
Dus dat zou wel makkelijk zijn.
422
00:32:06,620 --> 00:32:12,600
Maar dan wel een chatbot die ook rekening houdt met fairness en bijvoorbeeld explainability, een ander relevant onderwerp.
423
00:32:12,690 --> 00:32:14,740
En ook Green AI vind ik ook erg interessant.
424
00:32:15,440 --> 00:32:18,260
Om met heel veel van dat soort factoren rekening te houden.
425
00:32:20,839 --> 00:32:23,480
En meer keuzes te geven ook aan de gebruiker.
426
00:32:23,520 --> 00:32:25,140
Van waar wil je dat ik rekening mee hou?
427
00:32:25,260 --> 00:32:28,540
En zelf meedenken met, weet je zeker dat je dit nu wil?
428
00:32:29,040 --> 00:32:30,560
Want dit is misschien meer ver.
429
00:32:30,700 --> 00:32:32,120
Dat hij zelf mee gaat denken.
430
00:32:32,200 --> 00:32:32,540
Oh ja.
431
00:32:33,320 --> 00:32:36,159
En die explainability noem je, dat is uitlegbaarheid.
432
00:32:37,080 --> 00:32:38,320
Hoe zie je dat voor je?
433
00:32:39,579 --> 00:32:44,480
Nou, explainability kan een stukje zijn van, hé, hier heb ik mijn antwoord vandaan.
434
00:32:44,720 --> 00:32:47,020
Het kan ook een stukje zijn waar we het eerder over hadden.
435
00:32:48,040 --> 00:32:50,380
Ik weet zo zeker dat dit het antwoord moet zijn.
436
00:32:52,660 --> 00:32:57,000
Maar vooral ook dat herleidbaarheid en de bronnen toevoegen, wat tegenwoordig ook al steeds meer mogelijk is.
437
00:32:59,680 --> 00:33:03,840
En misschien ook iets meer de stapjes, de denkwijze van het taalmodel.
438
00:33:04,110 --> 00:33:05,400
Oh ja. Hoi.
439
00:33:06,510 --> 00:33:09,040
Ja, ik denk dat het een mooie oplossing is.
440
00:33:09,070 --> 00:33:12,060
Want ik denk dat we voorlopig nog wel met een chatinteractie mee te maken hebben.
441
00:33:12,140 --> 00:33:16,880
En dat als we dit soort zaken meekrijgen, dat ook transparant maken en dat je ook invloed kan hebben.
442
00:33:17,030 --> 00:33:19,540
Dat zou wel een hele mooie verbetering zijn.
443
00:33:19,860 --> 00:33:23,000
Zoals als ze luisteren van OpenAI en dergelijke.
444
00:33:23,360 --> 00:33:25,320
Luister natuurlijk naar deze Nederlandse podcast, toch Joop?
445
00:33:26,500 --> 00:33:31,400
Wat ik mooi zou vinden is dat er natuurlijk heel veel benchmarks zijn.
446
00:33:31,470 --> 00:33:36,980
Dus er wordt gekeken van hoe goed doet hij het op basis van wiskundevragen.
447
00:33:37,080 --> 00:33:40,840
Hoe goed doet hij het in de, weet ik het, wat er allemaal aan benchmarks zijn.
448
00:33:41,320 --> 00:33:46,440
Hoe gaaf zou het zijn als iedereen eigenlijk ook zijn fairness matrix zou delen?
449
00:33:47,280 --> 00:33:48,220
Is die er nog niet?
450
00:33:49,440 --> 00:33:50,180
Niet dat ik weet.
451
00:33:51,220 --> 00:33:53,660
Nee, je hebt dus die dataset die ik heb gebruikt.
452
00:33:53,670 --> 00:33:57,340
Dat is een benchmark die gebruikt wordt voor fairness.
453
00:33:58,040 --> 00:33:59,820
Maar ik weet niet of die ook voor taalmodellen...
454
00:34:00,200 --> 00:34:02,360
Dat is wel een benchmark die mensen vaak gebruiken.
455
00:34:03,340 --> 00:34:04,520
Maar die is dus multiple choice.
456
00:34:04,920 --> 00:34:09,440
En ik zou het heel mooi vinden als dat naar een open question type gaat.
457
00:34:09,460 --> 00:34:14,800
Maar als je nu naar zo'n top 10 gaat, dan zie je vooral eigenlijk wat ik net noemde,
458
00:34:14,860 --> 00:34:20,980
de wiskunde, hoe goed doet hij het op een kwartaal, dat soort zaken.
459
00:34:21,469 --> 00:34:25,500
Maar de fairness is niet een standaardmetriek waarop gemeten wordt.
460
00:34:25,989 --> 00:34:26,139
Nee.
461
00:34:26,809 --> 00:34:31,500
En als je, kijk, op zich ben ik niet per se voorstander van benchmarks,
462
00:34:32,670 --> 00:34:34,520
omdat daar ook op geoptimaliseerd wordt.
463
00:34:35,170 --> 00:34:38,380
Maar als je het hebt over dit soort type metrieken,
464
00:34:38,659 --> 00:34:43,319
En als je geoptimaliseerd wordt op het verminderen van bias, hoe fijn zou dat zijn?
465
00:34:43,639 --> 00:34:44,960
Daarom moet je juist een metriek hebben.
466
00:34:45,040 --> 00:34:46,540
Want wat je gaat meten, ga je verbeteren.
467
00:34:46,860 --> 00:34:50,199
Dus laten we het inderdaad juist gaan meten, zodat we het kunnen verbeteren met elkaar.
468
00:34:50,400 --> 00:34:53,000
En dat we daar inderdaad een streven, een hoger benchmark waarde te hebben.
469
00:34:53,339 --> 00:34:53,659
Precies.
470
00:34:53,900 --> 00:34:56,780
Ja, en dat is dus zowel heel lastig als dat het heel mooi zou zijn,
471
00:34:56,960 --> 00:34:59,000
omdat het zo erg verschilt per context ook weer.
472
00:34:59,120 --> 00:35:01,000
En hoe je fairness kan definiëren.
473
00:35:01,780 --> 00:35:04,740
Maar dat zou wel heel mooi zijn als dat inderdaad gegeneraliseerd kan worden.
474
00:35:04,920 --> 00:35:05,540
Ja, zeker.
475
00:35:05,920 --> 00:35:07,559
Nou, een grote stap denk ik te gaan.
476
00:35:07,720 --> 00:35:08,960
Er is een hoop onderzoek.
477
00:35:09,460 --> 00:35:12,020
Echt heel gaaf dat jij ook hier onderzoek naar hebt gedaan.
478
00:35:13,400 --> 00:35:16,940
Kunnen de mensen jouw scriptie ergens vinden als ze hem willen lezen?
479
00:35:18,060 --> 00:35:19,140
Dat is een goede vraag.
480
00:35:19,470 --> 00:35:23,680
Ik heb hem zelf nog niet opgezocht, maar ik geloof dat hij op de website van Info Support staat.
481
00:35:24,440 --> 00:35:26,080
Ja, research.infosupport.com.
482
00:35:26,660 --> 00:35:29,540
We zullen in ieder geval ook een linkje opnemen in de show notes.
483
00:35:31,000 --> 00:35:33,580
Dan kunnen ze het helemaal lezen van wat je hebt uitgezocht.
484
00:35:34,340 --> 00:35:37,280
Nog een keer nakijken welke modellen het beste presteren.
485
00:35:37,320 --> 00:35:39,480
Ik denk dat heel veel mensen het erg interessant vinden.
486
00:35:40,540 --> 00:35:44,580
Dus Lisa, super bedankt dat je je onderzoek wilde toelichten.
487
00:35:45,500 --> 00:35:47,600
Jammer dat de prijs het niet geworden is.
488
00:35:47,630 --> 00:35:51,420
Maar ik vind alsnog van alles waar het gekozen is.
489
00:35:51,940 --> 00:35:53,920
Ik denk dat je echt een geweldig onderzoek hebt gedaan.
490
00:35:54,200 --> 00:35:57,220
Waar ook iedereen uiteindelijk profijt van gaat hebben.
491
00:35:57,720 --> 00:35:59,260
Ja, dankjewel dat ik hier mocht komen.
492
00:35:59,310 --> 00:35:59,980
Ik vond het erg leuk.
493
00:36:00,440 --> 00:36:00,820
Kijk aan.
494
00:36:03,580 --> 00:36:05,620
Leuk dat je weer luisterde naar deze aflevering.
495
00:36:05,680 --> 00:36:08,120
Vergeet je niet te abonneren via je favoriete podcast app.
496
00:36:08,300 --> 00:36:09,320
Dan mis je geen aflevering.
497
00:36:09,780 --> 00:36:10,460
Tot de volgende keer.
498
00:36:10,730 --> 00:36:11,380
Tot de volgende keer.