1
00:00:00,000 --> 00:00:05,720
Hey, leuk dat je weer luistert naar een korte aflevering van de AIToday Live.
2
00:00:05,720 --> 00:00:11,480
Met vandaag; Hoe herken je situaties waar AI je kan helpen?
3
00:00:11,480 --> 00:00:17,040
Deze vraag krijg ik steeds vaker en in deze aflevering kijken we vooral naar machine learning.
4
00:00:17,040 --> 00:00:28,280
Zoals je misschien weet, binnen de paraplu-term van AI heb je verschillende categorieën.
5
00:00:28,280 --> 00:00:33,200
Machine learning is al geruime tijd een bekende technologie en tegenwoordig gaat het ook
6
00:00:33,200 --> 00:00:35,600
vaak over generatieve AI.
7
00:00:35,600 --> 00:00:38,560
Vandaag wil ik het hebben over machine learning.
8
00:00:38,560 --> 00:00:45,200
Dus hoe herken je in het goed Nederlands use cases die geschikt zijn voor machine learning
9
00:00:45,200 --> 00:00:53,040
en ik ga ze onderverdelen in goed uitvoerbare cases, moeilijk uitvoerbare cases en cases
10
00:00:53,040 --> 00:00:56,560
waar je het eigenlijk beter niet kan toepassen.
11
00:00:56,560 --> 00:00:59,600
Laten we beginnen bij die goede cases.
12
00:00:59,600 --> 00:01:03,480
Voordat ik begin moet ik zeggen dat dit geen checklist is.
13
00:01:03,480 --> 00:01:09,920
We kijken naar de kenmerken van de situatie en zeggen dan; hey dit is een heel veelbelovende
14
00:01:09,920 --> 00:01:16,080
oplossing met machine learning voor deze situatie en eerlijk gezegd komt dit voornamelijk voor
15
00:01:16,080 --> 00:01:17,080
het uit ervaring.
16
00:01:17,080 --> 00:01:21,440
Oké, wat zijn dan die typische kenmerken?
17
00:01:21,440 --> 00:01:25,400
Een daarvan is wanneer je voorspellingen wilt maken.
18
00:01:25,400 --> 00:01:29,960
Je verwacht dat er voorspellende gaven in je data zit waarbij je hoopt dat je een klein
19
00:01:29,960 --> 00:01:31,360
beetje vooruit kan kijken.
20
00:01:31,360 --> 00:01:35,560
Je kan bijvoorbeeld voorspellen of klanten snel bij je weg gaan.
21
00:01:35,560 --> 00:01:40,160
Er zijn veel websites die voorspellen hoe grote de kans is dat je op een website een
22
00:01:40,160 --> 00:01:44,240
aankoop doet terwijl je nog aan het browsen bent.
23
00:01:44,240 --> 00:01:48,360
Je moet wel genoeg historische data hebben om een goede voorspelling te kunnen doen.
24
00:01:48,360 --> 00:01:54,440
Het kunnen indelen van gegevens is een andere karakteristiek, classificatie geheten.
25
00:01:54,440 --> 00:01:57,680
En daar zou je kunnen denken aan taalherkenning.
26
00:01:57,680 --> 00:02:03,000
Met sentimentanalyse kun je teksten classificeren als positief, neutraal of negatief.
27
00:02:03,000 --> 00:02:05,600
Of denk aan e-mail classificatie.
28
00:02:05,600 --> 00:02:10,960
Deze e-mail gaat bijvoorbeeld over loginproblemen en daar moet je het volgende voor doen.
29
00:02:10,960 --> 00:02:14,520
Deze e-mail gaat over iets heel anders en daar moeten we uiteraard iets anders voor
30
00:02:14,520 --> 00:02:15,520
doen.
31
00:02:15,520 --> 00:02:18,840
classificatie hebben we natuurlijk ook op het gebied van computer vision.
32
00:02:18,840 --> 00:02:25,480
Een bekende app, SkinVision, kan bijvoorbeeld plekjes op je huid classificeren naar een
33
00:02:25,480 --> 00:02:27,520
mogelijke risico, zelfs op huidkanker.
34
00:02:27,520 --> 00:02:31,400
Maar ook objectherkenning is ook zo'n karakteristiek.
35
00:02:31,400 --> 00:02:33,200
Daar is de machine ontzettend goed in.
36
00:02:33,200 --> 00:02:36,680
Gezichtsherkenning, objecten herkennen, zelfs augmented reality.
37
00:02:36,680 --> 00:02:43,840
Repetitief handmatig werk is ook zo'n karakteristiek waarbij de machine learning je ontzettend
38
00:02:43,840 --> 00:02:44,840
goed kan helpen.
39
00:02:44,840 --> 00:02:51,000
Dus we hebben het over voorspellen, classificatie, helpen met natuurlijke taal, dat de computer
40
00:02:51,000 --> 00:02:53,280
kan kijken, luisteren, zelfs spreken.
41
00:02:53,280 --> 00:02:55,920
Dat zijn best wel hele goede cases.
42
00:02:55,920 --> 00:02:58,960
Wat is nou best wel moeilijk?
43
00:02:58,960 --> 00:03:03,720
Als je hier tegenaan loopt en je denkt van, misschien kan het, maar daar moeten we wel
44
00:03:03,720 --> 00:03:04,720
op letten.
45
00:03:04,720 --> 00:03:11,200
En een van de dingen is bijvoorbeeld bij computer vision is dat wat ze noemen situaties met
46
00:03:11,200 --> 00:03:13,160
out of distribution data.
47
00:03:13,160 --> 00:03:15,400
Ik zal uitleggen wat dat betekent.
48
00:03:15,400 --> 00:03:21,920
Machine learning modellen worden getraind met heel veel data, maar dat de situatie die
49
00:03:21,920 --> 00:03:25,720
zich voordoet buiten het bereik ligt van die trainingsdata.
50
00:03:25,720 --> 00:03:27,760
Laat ik een voorbeeld geven.
51
00:03:27,760 --> 00:03:30,200
Stel je kan huisdieren herkennen.
52
00:03:30,200 --> 00:03:33,080
En dat doet de machine hartstikke goed.
53
00:03:33,080 --> 00:03:40,240
Vervolgens heb je een loslopende kangaroo en die springt in je tuin en die herkent de
54
00:03:40,240 --> 00:03:41,240
machine niet.
55
00:03:41,240 --> 00:03:42,800
Daarvan heb je geen trainingsdata.
56
00:03:42,800 --> 00:03:45,840
Het model is getraind op huisdieren.
57
00:03:45,840 --> 00:03:51,000
En toch zal het model proberen om dat onbekende beest te classificeren in een van de klassen
58
00:03:51,000 --> 00:03:52,200
die het wel kent.
59
00:03:52,200 --> 00:03:55,520
Dus misschien zegt het wel het is een hond of wat anders.
60
00:03:55,520 --> 00:03:58,960
Met dit soort situaties kan de machine moeilijk mee omgaan.
61
00:03:58,960 --> 00:04:05,040
Een ander voorbeeld, deze kan je ook vinden op social media, is een filmpje van Tesla
62
00:04:05,040 --> 00:04:10,080
waarbij de auto op de snelweg rijdt, waarbij de objectherkenning van de auto stoplichten
63
00:04:10,080 --> 00:04:11,080
overvliegen.
64
00:04:11,080 --> 00:04:17,360
Tesla rijders hebben van die schermen en daar zien ze de objecten die voor hen op de weg
65
00:04:17,360 --> 00:04:19,640
staan daarop verschijnen.
66
00:04:19,640 --> 00:04:25,040
Dus er kunnen stoplichten zijn, dat kunnen medeweggebruikers zijn en die zien zij op
67
00:04:25,040 --> 00:04:26,040
hun scherm.
68
00:04:26,040 --> 00:04:30,880
Dus nogmaals, er rijdt iemand op de snelweg en er vliegen allemaal stoplichten over en
69
00:04:30,880 --> 00:04:32,600
die vliegen als het ware over de auto heen.
70
00:04:32,600 --> 00:04:36,480
Ik weet niet hoe het bij jou zit, maar het is niet heel erg gebruikelijk dat er veel
71
00:04:36,480 --> 00:04:38,120
stoplichten zijn op de snelweg.
72
00:04:38,120 --> 00:04:39,960
Wat was er nou aan de hand?
73
00:04:39,960 --> 00:04:43,400
Voor de auto rijdt een vrachtwagen waarop stoplichten staan.
74
00:04:43,400 --> 00:04:44,400
Die worden vervoerd.
75
00:04:44,400 --> 00:04:50,480
Dus het model herkent vrachtwagens, stoplichten, maar rijdende vrachtwagens waarop stoplichten
76
00:04:50,480 --> 00:04:53,320
worden vervoerd, die kent hij niet.
77
00:04:53,320 --> 00:04:57,800
Dus dan heb je ook weer out-of-distribution data, zoals dat zo moeilijk heet.
78
00:04:57,800 --> 00:05:00,120
Daar kan machine learning heel slecht mee omgaan.
79
00:05:00,120 --> 00:05:05,600
Wat ook al lastig is, is als je weinig historische data hebt.
80
00:05:05,600 --> 00:05:07,520
Startups lopen hier vrij snel tegenaan.
81
00:05:07,520 --> 00:05:10,800
Wat machine learning doet, is het vinden van patronen in gegevens.
82
00:05:10,800 --> 00:05:14,320
En als je weinig gegevens hebt, zullen er ook weinig patronen in zitten.
83
00:05:14,320 --> 00:05:21,240
Of erger, dat als die wel patronen vindt, dat het niet sterke patronen zijn of zelfs
84
00:05:21,240 --> 00:05:22,880
valse patronen zijn.
85
00:05:22,880 --> 00:05:28,760
Dan vind je correlaties die er eigenlijk niet zijn.
86
00:05:28,760 --> 00:05:34,600
En als je daarmee zou gaan werken, ja, dan ga je daar besluiten op nemen die helemaal
87
00:05:34,600 --> 00:05:35,600
niet correct zijn.
88
00:05:35,600 --> 00:05:37,960
Je hebt hier zelfs een speciale website voor.
89
00:05:37,960 --> 00:05:38,960
Geweldig vind ik die.
90
00:05:38,960 --> 00:05:40,960
Ik vind het vaak leuk om daarin te neuzen.
91
00:05:40,960 --> 00:05:42,920
Die heet Spurious Correlations.
92
00:05:42,920 --> 00:05:45,040
Dat is Engels voor 'valse correlaties'.
93
00:05:45,040 --> 00:05:47,280
Ik zal de link opnemen in de show note.
94
00:05:47,280 --> 00:05:51,360
En een van mijn favorieten, die gebruik ik ook wel in mijn presentaties, is dat er een
95
00:05:51,360 --> 00:05:57,920
hele sterke correlatie is van de kaasconsumptie in Amerika en de hoeveelheid mensen die komen
96
00:05:57,920 --> 00:06:02,400
te overlijden omdat ze verstrikt raken in hun bedlakens.
97
00:06:02,400 --> 00:06:07,520
Als dat een oorzakelijk verband zou hebben, dan zouden wij de Nederlandse kranten daar
98
00:06:07,520 --> 00:06:08,520
vol van hebben staan.
99
00:06:08,520 --> 00:06:14,840
Als laatste rest dan nog de categorie waarvan je zegt 'dat kan je eigenlijk beter niet
100
00:06:14,840 --> 00:06:16,680
met machine gaan oplossen'.
101
00:06:16,680 --> 00:06:21,360
En een heel duidelijk signaal is dat je iets regelgebaseerd kan oplossen.
102
00:06:21,360 --> 00:06:24,240
Dat is uiteindelijk altijd een handigere manier.
103
00:06:24,240 --> 00:06:27,440
Dat is goedkoper, beter onderhoudbaar, beter te begrijpen.
104
00:06:27,440 --> 00:06:32,800
En uiteindelijk heb je daar ook altijd een hele duidelijke 100% ja of 100% nee antwoord.
105
00:06:32,800 --> 00:06:35,320
Dat is ook een van die karakteristieken.
106
00:06:35,320 --> 00:06:41,120
Als je dat tegenkomt en je vindt dat belangrijk, een 100% ja of een nee, dan is machine learning
107
00:06:41,120 --> 00:06:42,360
niet de beste oplossing.
108
00:06:42,360 --> 00:06:49,040
Waar machine learning ook heel erg slecht in is, is als je hele snelle veranderingen
109
00:06:49,040 --> 00:06:51,880
hebt die je real-time zou moeten voorspellen.
110
00:06:51,880 --> 00:06:55,000
Dan heb ik het bijvoorbeeld over het voorspellen van aandelenprijzen.
111
00:06:55,000 --> 00:06:56,720
Zou je dat kunnen?
112
00:06:56,720 --> 00:06:58,680
Dan word je er wel heel rijk van.
113
00:06:58,680 --> 00:07:03,400
Maar het is wel een heel belangrijke karakteristiek dat als je hiermee te maken hebt dat het heel
114
00:07:03,400 --> 00:07:04,520
erg lastig wordt.
115
00:07:04,520 --> 00:07:10,320
En eentje die natuurlijk ook daaronder valt zijn ethisch zeer gevoelige gebieden.
116
00:07:10,320 --> 00:07:16,200
Dus als je bijvoorbeeld je medewerkers gaat scoren of dat je tegen discriminerende besluiten
117
00:07:16,200 --> 00:07:22,800
aan gaat komen, dan is er een hele categorie waar machine learning misschien wel kan, maar
118
00:07:22,800 --> 00:07:24,200
waar je dat niet zou willen.
119
00:07:24,200 --> 00:07:29,880
Uiteraard is dit geen volledige lijst, maar dit is wel een manier waarop je een beetje
120
00:07:29,880 --> 00:07:33,040
kan inschatten of machine learning je kan helpen in jouw situatie.
121
00:07:33,040 --> 00:07:34,880
Dankjewel voor het luisteren.
122
00:07:34,880 --> 00:07:37,680
Mijn naam is Joop Snijder, ik ben CTO bij ETC.
123
00:07:37,680 --> 00:07:38,840
Tot de volgende keer!
124
00:07:38,840 --> 00:07:43,840
[Muziek]
125
00:07:43,840 --> 00:08:04,240