1
00:00:00,000 --> 00:00:06,500
Hoi, leuk dat je weer luistert naar een nieuwe aflevering van de AIToday live.
2
00:00:06,500 --> 00:00:11,500
Je luistert naar deel 2 van ons gesprek met Elise Lems.
3
00:00:11,500 --> 00:00:15,500
Heb je deel 1 nog niet geluisterd, zoek die eventjes op.
4
00:00:15,500 --> 00:00:17,500
Ik denk dat het heel erg interessant is.
5
00:00:17,500 --> 00:00:22,500
Het gaat over interpreteerbaarheid, computer vision, chatGPT, alles door elkaar.
6
00:00:22,500 --> 00:00:25,500
En het wordt vanzelf duidelijk hoe dat in elkaar zit.
7
00:00:25,500 --> 00:00:26,500
Niels.
8
00:00:27,500 --> 00:00:32,500
Ja, nou ja, het kwartje viel eigenlijk pas nadat de aflevering afgelopen was...
9
00:00:32,500 --> 00:00:35,500
en we er nog eens even over door babbelden inderdaad.
10
00:00:35,500 --> 00:00:38,500
Dus ik heb het van mezelf nog even afgebeld van, god, dus...
11
00:00:38,500 --> 00:00:42,500
ik heb in de beginnentijden toen we met Cognitive Services van Microsoft Azure...
12
00:00:42,500 --> 00:00:45,500
ook lekkere speelprojecten gedaan, want dat is de manier hoe ik leer.
13
00:00:45,500 --> 00:00:47,500
Ik wil graag in de praktijk toepassen.
14
00:00:47,500 --> 00:00:52,500
En toen had ik foto's van mezelf geüpload en eigenlijk de 'News of Niet'-service gemaakt.
15
00:00:52,500 --> 00:00:56,500
En daarbij ook natuurlijk getest.
16
00:00:56,500 --> 00:00:59,500
Dat ging ook over computer vision? - Computer vision inderdaad.
17
00:00:59,500 --> 00:01:03,500
Dus foto's van mezelf geüpload om gewoon voor de funders even te kijken...
18
00:01:03,500 --> 00:01:05,500
of ze Niels kunnen herkennen.
19
00:01:05,500 --> 00:01:07,500
Getraind met redelijk wat foto's.
20
00:01:07,500 --> 00:01:10,500
Voor de mensen die mij kennen, ik traag veel blauw.
21
00:01:10,500 --> 00:01:14,500
Mijn kast heeft niet veel andere kleuren als overhemden.
22
00:01:14,500 --> 00:01:16,500
Dus uiteindelijk het model getraind.
23
00:01:16,500 --> 00:01:18,500
En ook aan collega's wat gevraagd van...
24
00:01:18,500 --> 00:01:23,500
"Goh, kan je me helpen dat model verder te voorzien van data en eens even wat te testen?"
25
00:01:23,500 --> 00:01:29,260
te testen. Dus collega's allemaal foto's doorgegeven en ook gecheckt is het nieuws of niet.
26
00:01:29,260 --> 00:01:35,460
En er kwamen toch best wel wat constateringen uit dat ik best wel veel herkend werd terwijl
27
00:01:35,460 --> 00:01:41,860
ik het niet was. En waar kwam dat nou eigenlijk door? Dus met een heatmap gaan kijken en nou
28
00:01:41,860 --> 00:01:46,700
blijkbaar blauwe overend. Blauwe overend was gewoon nieuws. Maakt niet uit wie. Maakt niet
29
00:01:46,700 --> 00:01:49,820
uit als ik draag een bril. Dus maakt niet uit zelfs mensen zonder bril. Je zag echt
30
00:01:49,820 --> 00:01:53,820
Het is totaal gelijk het verschil, maar blauwe overend was gewoon Niels.
31
00:01:53,820 --> 00:01:57,200
En in de vorige talk hebben we het erover gehad.
32
00:01:57,200 --> 00:01:58,500
Wat kan er nou bij?
33
00:01:58,500 --> 00:02:00,960
En dus eigenlijk in plaats van dat ik het ga interpreteren,
34
00:02:00,960 --> 00:02:04,100
waarom is het nou eigenlijk dat hij daar wordt herkend als Niels,
35
00:02:04,100 --> 00:02:06,920
gaat het model, die verbetering, die feedback loop,
36
00:02:06,920 --> 00:02:09,480
gaat er dus voor zorgen dat het model kan toelichten
37
00:02:09,480 --> 00:02:13,760
dat het blauwe shirt, dat het daarom was Niels.
38
00:02:13,760 --> 00:02:15,680
Precies. Ja.
39
00:02:15,680 --> 00:02:18,440
En daarvoor hebben we Elise uitgenodigd, Elise Lems.
40
00:02:18,460 --> 00:02:21,940
Elize, zou je je nog even heel kort willen introduceren...
41
00:02:21,940 --> 00:02:25,300
voor de mensen die misschien de eerste aflevering niet gehoord hebben?
42
00:02:25,300 --> 00:02:28,380
Ja, tuurlijk. Ik ben Elise, 24 jaar.
43
00:02:28,380 --> 00:02:32,660
Ik ben tweedejaars AI-masterstudent aan de Radboud Universiteit in Nijmegen.
44
00:02:32,660 --> 00:02:37,300
En ik ben momenteel mijn afstudierescriptie bij Info Support aan het schrijven...
45
00:02:37,300 --> 00:02:40,740
en ik doe onderzoek naar hoe we interpreteerbare modellen kunnen verbeteren.
46
00:02:40,740 --> 00:02:43,620
Ja, en als we even een hele korte samenvatting doen...
47
00:02:43,660 --> 00:02:51,980
maak jij gebruik van bestaand model die zogenaamde prototypes traint.
48
00:02:51,980 --> 00:02:57,220
En dus die haalt stukjes uit plaatjes van foto's waar die op traint.
49
00:02:57,220 --> 00:03:01,780
En die kan zeggen bij nieuwe foto's die hij aangeboden krijgt,
50
00:03:01,780 --> 00:03:05,460
dit stukje van de foto lijkt op wat ik in de trainingsset gezien heb.
51
00:03:05,460 --> 00:03:09,860
Deze snavel van een vogel lijkt op deze snavel van een vogel.
52
00:03:09,860 --> 00:03:13,060
En die laatste, dat is een rood borstje.
53
00:03:13,060 --> 00:03:19,060
Nou, als je zo een heel aantal stukjes herkent uit een trainingsset van...
54
00:03:19,060 --> 00:03:22,260
"Oh ja, daar waren ook allemaal stukjes van roodborsjes. Vinden we het een roodborsje?"
55
00:03:22,260 --> 00:03:24,940
En dat kan je aan de gebruiker tonen.
56
00:03:24,940 --> 00:03:29,380
Dat is, zeg ik het zo kort gezegd.
57
00:03:29,380 --> 00:03:34,580
Ja, en Niels, je zei, bij mij valt het kwartje net.
58
00:03:34,580 --> 00:03:38,020
En wat is dan het exacte kwartje?
59
00:03:38,020 --> 00:03:44,520
Het kwartje dat we zelf nog geneigd zijn om telkens interpretatie te doen,
60
00:03:44,520 --> 00:03:48,080
maar dat we die interpretatie niet vervolgens in het design meenemen,
61
00:03:48,080 --> 00:03:52,080
om door het eigenlijk weer in het systeem op te nemen,
62
00:03:52,080 --> 00:03:56,000
die interpretatie, zodat andere mensen ook weten hoe die interpreteert.
63
00:03:56,000 --> 00:03:59,720
Nu weet ik het, maar ik heb dat niet weer teruggenomen in het model.
64
00:03:59,720 --> 00:04:04,720
En door dat te doen, kan die dus aan iedereen uitleggen hoe die tot die keuze komt.
65
00:04:04,720 --> 00:04:06,440
Niet alleen omdat ik hem heb geïnterpreteerd.
66
00:04:06,460 --> 00:04:08,460
Ja, klopt.
67
00:04:08,460 --> 00:04:13,060
Ja, wat zou je kunnen uitleggen, zeg maar nog, ook in het kort, hoe dat werkt?
68
00:04:13,060 --> 00:04:16,160
En wat je eigenlijk bij je een nieuw model aan het maken,
69
00:04:16,160 --> 00:04:23,060
die de uitleg van het eerder getrainde model straft of beloont,
70
00:04:23,060 --> 00:04:29,760
om ervoor te zorgen dat er dus een goed mogelijke uitleg uit de computer vision model komt,
71
00:04:29,760 --> 00:04:32,860
die voor ons als mens interpreteerbaar is.
72
00:04:32,860 --> 00:04:40,140
Dus we hebben een model die legt uit van ik heb een bepaalde vogel en ik denk dat het een mus is of whatever.
73
00:04:40,140 --> 00:04:43,940
Op basis van bepaalde stukjes van die vogel.
74
00:04:43,940 --> 00:04:46,260
Dat is een bepaalde uitleg die hij geeft.
75
00:04:46,260 --> 00:04:51,180
Die zegt hij van dit snaveltje lijkt op dat snaveltje van een mus die ik al eerder heb gezien.
76
00:04:51,180 --> 00:04:52,380
Dus ik denk dat het een mus is.
77
00:04:52,380 --> 00:04:55,900
Zo doet hij dat met meerdere gedeeltes van zo'n foto.
78
00:04:55,900 --> 00:05:01,860
En dan komt hij uiteindelijk tot een conclusie van over het algemeen zie ik deze gedeeltes van de vogel op meest bij een mus.
79
00:05:01,860 --> 00:05:02,860
Dus het is een mus.
80
00:05:02,860 --> 00:05:08,620
Wat wij dus gaan doen, is al die uitleggen aan mensen gaan voorleggen.
81
00:05:08,620 --> 00:05:13,460
En die gaan dan vertellen van, oké, dit is wel een goede uitleg en dit is geen goede uitleg.
82
00:05:13,460 --> 00:05:19,380
Als een model bijvoorbeeld zegt van, hé, dit is achtergrond en ik zie hier water, dus het is een meel.
83
00:05:19,380 --> 00:05:22,500
Terwijl we eigenlijk naar een mus zitten te kijken, dat is natuurlijk geen goede uitleg.
84
00:05:22,500 --> 00:05:27,340
En dan wordt al die uitleg gerangschikt door mensen.
85
00:05:27,340 --> 00:05:33,540
En op die manier straffen of belonen we eigenlijk het model voor wel goede uitleg of geen goede uitleg.
86
00:05:33,540 --> 00:05:37,940
Dus op het moment dat het model zegt "Ik zie water, dus het is een meeuw"
87
00:05:37,940 --> 00:05:41,140
terwijl we eigenlijk naar een mus zitten te kijken, dan is dat natuurlijk slechte uitleg.
88
00:05:41,140 --> 00:05:43,140
En dan proberen we het model te straffen.
89
00:05:43,140 --> 00:05:47,340
En door hem te straffen proberen we hem eigenlijk af te leren naar dat soort dingen te kijken.
90
00:05:47,340 --> 00:05:54,140
Zodat hij juiste voorspellingen kan maken om de juiste redenen en niet de verkeerde redenen.
91
00:05:54,140 --> 00:06:02,940
En dat wij ook als mens dan uiteindelijk ook kunnen besluiten of we de uitkomst van het model wel of niet kunnen vertrouwen.
92
00:06:02,940 --> 00:06:09,420
Want als die zegt van dit stukje lijkt op dat stukje en dat lijkt helemaal niet,
93
00:06:09,420 --> 00:06:13,660
is het namelijk ook heel interessant om uiteindelijk dit kunnen zeggen,
94
00:06:13,660 --> 00:06:19,580
zeker in gebieden waar het heel erg belangrijk is, bijvoorbeeld in de gezondheidszorg.
95
00:06:19,580 --> 00:06:24,060
Leuk dat de model dit voorspelt of dit aangeeft, maar nu vertrouw ik het niet.
96
00:06:24,060 --> 00:06:27,420
Dus ik ga er niks mee doen met die uitkomst.
97
00:06:27,420 --> 00:06:29,420
En het verschil met...
98
00:06:29,420 --> 00:06:33,180
Heatmaps hebben we het over gehad, gekleurde plaatjes...
99
00:06:33,180 --> 00:06:36,220
die over een foto gelegd worden waarbij je zegt...
100
00:06:36,220 --> 00:06:40,500
ik zie een kop en ik zie oren en een bal in de bek...
101
00:06:40,500 --> 00:06:42,100
dus dan zal het wel een hond zijn.
102
00:06:42,100 --> 00:06:44,780
Daarvan zijn gewoon echt letterlijk voorbeelden...
103
00:06:44,780 --> 00:06:47,580
van diezelfde heatmap.
104
00:06:47,580 --> 00:06:50,820
Het is niet precies dezelfde heatmap, maar het is schijnbaar dezelfde heatmap.
105
00:06:50,820 --> 00:06:54,100
Dus de ene die zegt met deze heatmap is het een hond.
106
00:06:54,100 --> 00:06:56,820
En de andere die zegt nee maar ik zie een dwarsfluit.
107
00:06:56,820 --> 00:07:00,620
Ja van localisatie naar interpretatie als ik het even voor mezelf verwoord.
108
00:07:00,620 --> 00:07:06,020
Ja en kijk als wij naar een foto kijken en wij zien zelf een hond.
109
00:07:06,020 --> 00:07:12,620
En hij zegt dan ja maar op basis van deze vlekken vind ik dat het een dwarsfluit is.
110
00:07:12,620 --> 00:07:13,900
Ja dat snappen we nog wel.
111
00:07:13,900 --> 00:07:20,780
Maar als je nou in een situatie zit waar je minder goed bent in de interpretatie van wat iets betekent.
112
00:07:20,780 --> 00:07:25,060
Ja, dan zegt zo'n heatmap dus eigenlijk helemaal niets, toch, Elise?
113
00:07:25,060 --> 00:07:29,020
Nee, klopt ja. Dus wat je inderdaad met die dwarsfluit hebt,
114
00:07:29,020 --> 00:07:34,140
is dat je als model dus zegt van, nou, ik kijk naar deze gedeelte van de foto, dat is heel mooi,
115
00:07:34,140 --> 00:07:38,140
dus ik denk dat het dwarsfluit is. Dan denk je natuurlijk, oké, en waarom denk je dat?
116
00:07:38,140 --> 00:07:41,860
Hetzelfde beetje met jou, met je overhemd.
117
00:07:41,860 --> 00:07:46,340
Nou, wat je waarschijnlijk hebt gedaan in je model met je Niels of niet,
118
00:07:46,340 --> 00:07:51,140
is dat je heel veel foto's hebt laten trainen waarin je een blauwe hemd hebt.
119
00:07:51,140 --> 00:07:54,380
En dan denkt het model, blauw hemd, dat moet Niels zijn.
120
00:07:54,380 --> 00:07:59,580
En dat is eigenlijk een stukje bias in data, omdat jij...
121
00:07:59,580 --> 00:08:04,660
Nu is het natuurlijk vooral zo dat bij jou en als Niels zijnde past een blauwe overhemd.
122
00:08:04,660 --> 00:08:08,020
Maar als je het zou willen testen op iedereen in de wereld...
123
00:08:08,020 --> 00:08:10,820
zou je eigenlijk liever willen hebben dat iemand kijkt naar je gezicht...
124
00:08:10,820 --> 00:08:13,380
of hoe lang je bent, bijvoorbeeld.
125
00:08:13,500 --> 00:08:17,500
En dat is nou precies zo'n voorbeeld van bias in data,
126
00:08:17,500 --> 00:08:20,700
waardoor het model eigenlijk ook biased wordt.
127
00:08:20,700 --> 00:08:23,300
En wat je dus heel vaak ziet, is dat het model,
128
00:08:23,300 --> 00:08:26,300
als je even gaat kijken naar het voorbeeld van de Apple creditcard,
129
00:08:26,300 --> 00:08:31,100
was een paar jaar terug, toen gaf de Apple creditcard heel vaak
130
00:08:31,100 --> 00:08:33,200
vooral vrouwen minder krediet.
131
00:08:33,200 --> 00:08:36,700
En nu hebben ze dat dus onderzocht, en nu bleek dus inderdaad
132
00:08:36,700 --> 00:08:39,500
dat vrouwen dus inderdaad minder krediet kregen.
133
00:08:39,600 --> 00:08:43,460
Dat lag dus aan een bepaalde bias die aan de voorkant van dat model ligt.
134
00:08:43,460 --> 00:08:47,660
Dus het model an sich is niet degene die de schuld heeft.
135
00:08:47,660 --> 00:08:52,380
Het model an sich zegt niet van "Ik vind vrouwen niks, dus die krijgen lagere krediet."
136
00:08:52,380 --> 00:08:55,500
Het ligt aan de voorkant, dus hoe de data verzameld is.
137
00:08:55,500 --> 00:08:59,500
En ook eigenlijk een beetje hoe wij als maatschappij kijken naar dit soort dingen.
138
00:08:59,500 --> 00:09:03,000
Want bias ligt ook heel vaak in de maatschappij.
139
00:09:03,000 --> 00:09:05,580
Het ligt veel eerder dan het model.
140
00:09:05,580 --> 00:09:10,740
Nou ja, nadeel van bias is dat we niet altijd doorhebben dat we een bepaalde bias hebben.
141
00:09:10,740 --> 00:09:13,020
Dat maakt het denk ik wel complex om dat te gaan herkennen.
142
00:09:13,020 --> 00:09:17,140
Daar zou dit dus ook weer een hulpmiddel zijn en daar heb je dus ook waarschijnlijk de massa voor nodig,
143
00:09:17,140 --> 00:09:18,940
om dat goed te kunnen detecteren.
144
00:09:18,940 --> 00:09:23,660
Ja, dus inderdaad, als je dus zo'n interpreteerbaar model hebt, die zegt niet alleen,
145
00:09:23,660 --> 00:09:27,100
je krijgt geen krediet of je krijgt welk krediet, die zegt gewoon,
146
00:09:27,100 --> 00:09:29,900
ik geef jou geen krediet omdat je een vrouw bent.
147
00:09:29,900 --> 00:09:33,140
En dan wordt die interessant, want dan denk je van,
148
00:09:33,140 --> 00:09:35,620
"Hé, maar dit is jou gewoon aangeleerd." Weet je?
149
00:09:35,620 --> 00:09:40,220
Het is alsof je tegen een kind zegt, elke keer als je een kat ziet, zeg je "hond".
150
00:09:40,220 --> 00:09:43,380
En dan gaat het kind gaat vanzelf "hond" zeggen, elke keer tegen die kat.
151
00:09:43,380 --> 00:09:46,020
En dat is hetzelfde eigenlijk met zo'n model.
152
00:09:46,020 --> 00:09:50,020
Mensen die denken, "Oh, het model is die die de schuld heeft." Dat is niet zo.
153
00:09:50,020 --> 00:09:55,260
De manier waarop je het model iets aanleert, dat is degene die de schuld is.
154
00:09:55,260 --> 00:10:00,540
Ja, dus data, de beschikbaarheid van de diversiteit van de mensen die eraan werken,
155
00:10:00,560 --> 00:10:04,200
de diversiteit daarin, verschillende perspectieven die daarvan belangrijk zijn.
156
00:10:04,200 --> 00:10:06,160
We hebben het natuurlijk vaak gehad over in de podcast,
157
00:10:06,160 --> 00:10:07,660
dat zie je hier ook weer terugkomen.
158
00:10:07,660 --> 00:10:12,060
Dus als ik het dan goed opvat, is met behulp van die interpreterbaarheid,
159
00:10:12,060 --> 00:10:13,360
door die te vergroten,
160
00:10:13,360 --> 00:10:16,460
zouden we dus eigenlijk ook de kwaliteit van het model moeten kunnen vergroten.
161
00:10:16,460 --> 00:10:18,360
Ja, dus als wij dus heel vaak zien van,
162
00:10:18,360 --> 00:10:21,260
hé, hij geeft een bepaalde uitleg die biased is,
163
00:10:21,260 --> 00:10:22,960
dan kunnen we dus eigenlijk gaan kijken van,
164
00:10:22,960 --> 00:10:26,360
oké, nou blijkbaar zit er dus ergens aan de voorkant iets niet helemaal goed.
165
00:10:26,360 --> 00:10:28,860
Dus dan kunnen we gaan kijken naar de dataset,
166
00:10:28,960 --> 00:10:33,160
maar we kunnen eigenlijk ook nog daarvoor kijken van oké, hoe wordt de data verzameld?
167
00:10:33,160 --> 00:10:36,720
En soms kun je er ook niet altijd wat aan doen,
168
00:10:36,720 --> 00:10:42,080
want er zijn gewoon bepaalde dingen in onze maatschappij die bevooroordeeld zijn.
169
00:10:42,080 --> 00:10:46,160
En als AI-wetenschappers kunnen we er wel rekening mee houden,
170
00:10:46,160 --> 00:10:48,080
maar we kunnen niet de hele wereld verbeteren.
171
00:10:48,080 --> 00:10:51,280
Dus het is wel goed om het in het achterhoofd te houden.
172
00:10:51,280 --> 00:10:56,480
En zeker als je het er eenmaal niet uitkrijgt, wat je natuurlijk wel ideaal zou willen,
173
00:10:56,600 --> 00:10:58,840
Als je het niet uitkrijgt, dan moet je inderdaad gewoon zeggen...
174
00:10:58,840 --> 00:11:01,580
nou, op dit moment vertrouwen we het model gewoon niet meer.
175
00:11:01,580 --> 00:11:04,380
Maar dat kun je dus doen, die keuze kun je maken...
176
00:11:04,380 --> 00:11:06,280
als het model interpreteerbaar is.
177
00:11:06,280 --> 00:11:08,440
Dus dat hij het zegt, als hij het gewoon zegt.
178
00:11:08,440 --> 00:11:12,500
Ja, en bij het voorbeeld wat je net noemde met de Apple Credit Card...
179
00:11:12,500 --> 00:11:15,400
die kwam vrij snel naar boven, omdat er natuurlijk ook een heel...
180
00:11:15,400 --> 00:11:19,400
weet je, er zit een heel duidelijk verband in die heel snel voelbaar was...
181
00:11:19,400 --> 00:11:21,920
en je had daar heel snel feedback, hè.
182
00:11:21,920 --> 00:11:23,920
Je vraagt iets aan, je krijgt het niet terug.
183
00:11:23,940 --> 00:11:28,160
Ik dacht dat is raar en je merkte heel snel van dat ligt aan vrouwen.
184
00:11:28,160 --> 00:11:35,080
We hadden het er ook over, jij hebt ook wat annotaties gedaan voor een ander bedrijf.
185
00:11:35,080 --> 00:11:45,020
Waarbij het misschien sluipender zou kunnen zijn als daar problemen in zouden zitten.
186
00:11:45,020 --> 00:11:46,160
Kan je daar wat over vertellen?
187
00:11:46,160 --> 00:11:50,880
Ja, ik heb dus inderdaad wat annotatiewerk gedaan voor mammografieën.
188
00:11:50,880 --> 00:11:54,720
En eigenlijk, ik ben geen borstkankerexpert,
189
00:11:54,720 --> 00:11:57,960
nu hadden we wel een aantal experts die ons hielpen.
190
00:11:57,960 --> 00:12:01,720
En wat we eigenlijk deden, is we keken naar mama Gamme en we hadden bepaalde...
191
00:12:01,720 --> 00:12:04,320
Ze zeiden van, nou hier zit wel kanker,
192
00:12:04,320 --> 00:12:07,320
want we hadden ook alleen maar beelden van in principe...
193
00:12:07,320 --> 00:12:13,160
Of dingen die echt een hoge kankerscore hadden of wat lager.
194
00:12:13,160 --> 00:12:16,160
Maar goed, we moesten altijd iets kunnen vinden. Dat was een beetje het ding.
195
00:12:16,160 --> 00:12:21,160
Maar soms hebben vrouwen ook heel vaak kiestes of iets anders.
196
00:12:21,160 --> 00:12:25,560
Of is de borstdichtheid gewoon heel zwaar te zien, heel moeilijk te zien.
197
00:12:25,560 --> 00:12:30,060
En dan kun je wel een annotatie zetten, maar als die annotatie fout is,
198
00:12:30,060 --> 00:12:32,060
dan is ook het model in principe verkeerd leren.
199
00:12:32,060 --> 00:12:38,360
Nou had dit bedrijf wel hele goede verzekeringen, om het zo maar te zeggen,
200
00:12:38,360 --> 00:12:40,960
dus alles werd nog honderdduizend keer gecheckt.
201
00:12:40,960 --> 00:12:47,600
En als er dan inderdaad iets fout terugkwam, dan werden er nog experts overheen gezet om dat te checken.
202
00:12:47,600 --> 00:12:53,040
Maar in principe, als je dus als leek niet weet wat je aan het annoteren bent,
203
00:12:53,040 --> 00:12:57,560
kan het dus zijn als je niet die verzekering erop zet, zoals dit bedrijf wel heel goed deed,
204
00:12:57,560 --> 00:12:59,960
dat je dus modelverkeerde dingen aan gaat leren.
205
00:12:59,960 --> 00:13:09,720
En waar je nu mee bezig bent met je onderzoek, zou dat helpen ten opzichte van dit soort cases?
206
00:13:09,720 --> 00:13:18,120
Nou, wat ik dus zeg, voor longkanker en borstkanker is het misschien wat lastig,
207
00:13:18,120 --> 00:13:23,720
maar als je dus wel kijkt naar bepaalde fotodata van, laten we even die hond terugnemen,
208
00:13:23,720 --> 00:13:30,520
en hij leert dus, stel elke hond met een bal, zegt die hond, maar elke hond zonder bal zegt die kat.
209
00:13:30,520 --> 00:13:36,120
Dan kun je dus zeggen, oké, blijkbaar ligt het aan die bal, omdat hij dus telkens dat zegt.
210
00:13:36,120 --> 00:13:38,320
Dan ga je dus eigenlijk proberen aan de voorkant te zeggen van...
211
00:13:38,320 --> 00:13:42,560
oké, we moeten dus blijkbaar meer foto's erin zetten van honden zonder bal.
212
00:13:42,560 --> 00:13:44,680
Zodat hij dus meer leert naar andere dingen te kijken...
213
00:13:44,680 --> 00:13:46,480
en dat hij juist is voor de juiste redenen.
214
00:13:46,480 --> 00:13:48,500
Dat hij dus naar de juiste onderdelen kijkt.
215
00:13:48,500 --> 00:13:49,520
Ja.
216
00:13:49,520 --> 00:13:55,800
En dat een model zeg maar niet naar de juiste onderdelen kijkt...
217
00:13:55,800 --> 00:13:59,480
ken je het Cleverhands effect?
218
00:13:59,480 --> 00:14:01,500
Nee, Cleverhands effect.
219
00:14:01,500 --> 00:14:03,720
Ik kijk echt heel verbaasd.
220
00:14:03,720 --> 00:14:04,740
Nee, wat?
221
00:14:04,760 --> 00:14:07,760
Ja, en we hebben ook een naast haar collega Hans.
222
00:14:07,760 --> 00:14:10,760
Zullen we... Ja, ik weet niet of we hem Clever Hans noemen.
223
00:14:10,760 --> 00:14:14,760
Maar misschien kan Elise dat uitleggen wat dat is.
224
00:14:14,760 --> 00:14:16,760
Clever Hans is eigenlijk wel een heel grappig verhaal.
225
00:14:16,760 --> 00:14:22,760
Want in begin 1900, geloof ik, of eind 1800 had je een paard en die heette Clever Hans.
226
00:14:22,760 --> 00:14:24,760
En die kon rekenen.
227
00:14:24,760 --> 00:14:29,760
En dan was er een... Nou, hij had een baasje en die nam Hans mee.
228
00:14:29,760 --> 00:14:32,760
En dan vertelde hij tegen Hans, nou, wat is...
229
00:14:32,760 --> 00:14:37,880
noem maar even iets, drie keer acht. En dan had hij een hele lijst met allemaal cijfers hangen.
230
00:14:37,880 --> 00:14:43,120
En dat paard die moest dan gaan hinneken als hij bij het goede antwoord was.
231
00:14:43,120 --> 00:14:47,320
Maar wat er eigenlijk gebeurde, want dan ging hij dus tellen, één, twee, drie.
232
00:14:47,320 --> 00:14:52,720
En op het moment dat hij dichter bij drie keer acht, 24 kwam, werd de omgeving,
233
00:14:52,720 --> 00:14:55,080
dus die mensen die zaten kijken, steeds enthousiaster.
234
00:14:55,080 --> 00:14:58,840
En dat paard die voelt dat natuurlijk aan, die denkt 'Oh mensen worden enthousiast, ik ben er bijna.'
235
00:14:58,840 --> 00:15:02,640
En op 24 waren de mensen natuurlijk super enthousiast en dachten 'ja, dit is hem!'
236
00:15:02,640 --> 00:15:04,640
En toen ging het paard daarop reageren.
237
00:15:04,640 --> 00:15:06,640
En dat is dus het Cleverhands effect,
238
00:15:06,640 --> 00:15:11,140
dus dat hij dus gaat reageren op dingen die eigenlijk er niks mee te maken hebben.
239
00:15:11,140 --> 00:15:14,340
Ja, en niemand had in de gaten,
240
00:15:14,340 --> 00:15:17,340
want dat is pas uit later onderzoek gekomen,
241
00:15:17,340 --> 00:15:20,340
dat dat paard op deze manier reageerde.
242
00:15:20,340 --> 00:15:23,340
Hij reageerde eigenlijk op andere signalen,
243
00:15:23,340 --> 00:15:26,340
waardoor hij slim leek.
244
00:15:26,340 --> 00:15:30,660
Dus een goede antwoord op basis van de verkeerde redenering.
245
00:15:30,660 --> 00:15:41,180
Maar zowel de eigenaar als de omstanders hadden niet in de gaten dat zij bezig waren met hinschreven.
246
00:15:41,180 --> 00:15:43,180
Zelfverveling profiteren eigenlijk.
247
00:15:43,180 --> 00:15:48,180
En daarom wordt deze term dus ook heel veel gebruikt in de AI, clever hands effect.
248
00:15:48,180 --> 00:15:55,540
Dus wat nou als je model het goede besluit neemt op basis van verkeerde redenen.
249
00:15:55,540 --> 00:15:57,540
Het blauwe blouseje. - Ja.
250
00:15:57,540 --> 00:16:00,820
Ik had het misschien niet moeten noemen, jongen.
251
00:16:00,820 --> 00:16:02,820
Die gaf het me. - That's not gonna haunt me.
252
00:16:02,820 --> 00:16:08,380
Ja, misschien kunnen we het cleverhands nu naar de blue neils effect.
253
00:16:08,380 --> 00:16:10,380
Nee, dat moet niet.
254
00:16:10,380 --> 00:16:15,140
Nee, maar heel veel, wat je heel vaak ziet is data van zeker bedrijven,
255
00:16:15,140 --> 00:16:18,580
want heel veel bedrijven willen alles met AI doen en dat vinden ze helemaal hip.
256
00:16:18,580 --> 00:16:22,380
Maar data van heel veel bedrijven is vaak nog best wel smerig om zo te zeggen.
257
00:16:22,380 --> 00:16:24,820
Dat is best wel vieze data. - Dat weet ik, ja.
258
00:16:24,820 --> 00:16:26,840
Dan weet je alles van. - Ik zit er middenin.
259
00:16:26,840 --> 00:16:29,380
Maar wat je bijvoorbeeld met fotodata heel vaak ziet...
260
00:16:29,380 --> 00:16:32,580
is dat bedrijven heel vaak watermerken bijvoorbeeld erop zitten.
261
00:16:32,580 --> 00:16:36,900
Of bij sommige foto's hebben ze een klein tekstje erop zitten.
262
00:16:36,900 --> 00:16:41,420
Een model kan dus leren van, als ik dit tekstje zie, dan is het...
263
00:16:41,420 --> 00:16:45,180
nou, geef iets aan, weet je. Dan is het een paard X.
264
00:16:45,180 --> 00:16:47,200
En dat is dus eigenlijk het probleem.
265
00:16:47,200 --> 00:16:50,100
Ja, en verborgen watermerken, nog moeilijker.
266
00:16:50,120 --> 00:16:51,120
- Die niet. - Ja.
267
00:16:51,120 --> 00:16:52,480
- Het is die wij niet zien.
268
00:16:52,480 --> 00:16:55,840
Het is die er in gezet zijn, zodat er een paar pixels veranderd zijn.
269
00:16:55,840 --> 00:16:57,120
Zien wij niet.
270
00:16:57,120 --> 00:17:00,280
Ja, die machine die pikt dat er feilloos uit en denkt van...
271
00:17:00,280 --> 00:17:02,120
"Hé, dat is een makkelijk patroon om te leren."
272
00:17:02,120 --> 00:17:04,840
Daar ga ik voor. Het is net als water.
273
00:17:04,840 --> 00:17:08,120
Het neemt de weg van de minste weerstand.
274
00:17:08,120 --> 00:17:09,720
Dat doen dit soort modellen ook.
275
00:17:09,720 --> 00:17:14,280
Dus als die op deze manier, zeg maar, heel snel kan leren, doet die dat.
276
00:17:14,280 --> 00:17:15,680
- Ja, klopt ja.
277
00:17:15,680 --> 00:17:19,080
- Nou, er zijn ook volgens mij hele leuke online voorbeelden van pixelhacks inderdaad...
278
00:17:19,100 --> 00:17:22,100
waardoor een panda ineens heel iets anders gaat worden inderdaad.
279
00:17:22,100 --> 00:17:26,340
Ja, klopt. Ja, en dat is inderdaad ook een van de lastige dingen.
280
00:17:26,340 --> 00:17:31,940
Want je kan natuurlijk zo manipuleren dat het model toch verkeerd gaat doen.
281
00:17:31,940 --> 00:17:35,060
Ja, en dan helpt het als je inderdaad de beredenering tot je krijgt...
282
00:17:35,060 --> 00:17:38,260
en daar weer interpretatie in de human loop eigenlijk weer mee neemt...
283
00:17:38,260 --> 00:17:41,060
om het beter te laten uitleggen.
284
00:17:41,060 --> 00:17:44,220
Ik denk, Elise, dank je wel voor je uitleg.
285
00:17:44,220 --> 00:17:47,060
Heel mooi onderzoek. Ik denk dat het ook een nuttig onderzoek is.
286
00:17:47,080 --> 00:17:49,080
Dit is waar de wereld naartoe gaat.
287
00:17:49,080 --> 00:17:53,580
We moeten wat mij betreft steeds minder blackbox modellen hebben.
288
00:17:53,580 --> 00:17:55,580
Steeds meer interpreterbaar.
289
00:17:55,580 --> 00:17:58,080
Op zijn minst uitlegbaar, het liefst interpreterbaar.
290
00:17:58,080 --> 00:18:02,580
En ik denk dat we dan het vakgebied alleen maar mooier maken.
291
00:18:02,580 --> 00:18:06,080
Dankjewel voor je inzichten en alles wat je verteld hebt.
292
00:18:06,080 --> 00:18:12,580
Leuk dat je weer luisterde naar een nieuwe aflevering van AIToday Live.
293
00:18:12,580 --> 00:18:16,580
Mis geen aflevering. Abonneer je via je favoriete podcast app.
294
00:18:16,580 --> 00:18:20,220
en krijg automatische melding als er een nieuwe aflevering beschikbaar is.
295
00:18:20,220 --> 00:18:22,220
Dankjewel weer voor het luisteren!