AIToday Live
AIToday Live deelt praktijkverhalen over AI die je direct vooruit helpen in je werk. In een wereld waar AI-ontwikkelingen elkaar razendsnel opvolgen, kiezen wij bewust voor verdieping en praktijkervaring. We bieden een kalm kompas in turbulente tijden.
In deze podcast hoor je professionals uit Nederland en België die openhartig vertellen over hun ervaringen met AI-implementaties. Voorbij de hype en krantenkoppen laten zij zien hoe organisaties écht met AI werken.
Onze gasten delen hun successen én uitdagingen op een toegankelijke manier.
Daarmee helpen we jou om:
- Praktische inzichten te krijgen in wat AI wel en niet kan
- Te leren van de ervaringen van andere professionals
- Concrete ideeën op te doen voor je eigen organisatie
- De grotere lijnen te zien in AI-ontwikkelingen
Iedere maandag een diepgaand gesprek met een gast, gepresenteerd door Joop Snijder (CTO Aigency) en Niels Naglé (Info Support). Elke donderdag deelt Joop in een korte aflevering zijn eigen praktijkervaringen en inzichten.
"AIToday Live is twee keer genomineerd voor 'De Prijs van Oranje' door de Belgian Podcast Awards en staat op nummer 1 in de lijst van Zomerse luister-inspiratie: podcasts over AI, productiviteit, SEO & meer (Frankwatching, juni 2024)."
Ontdek hoe andere professionals AI succesvol inzetten. Ontvang ook exclusieve content, kijk achter de schermen en blijf op de hoogte van nieuwe gasten via onze nieuwsbrief: https://aitodaylive.substack.com
AIToday Live
S04E02 - Hoe schaal je grote ML modellen - Yannick Maltha
Yannick Maltha is CEO en co-founder van UbiOps en is gespecialiseerd in het schalen van grote machine learning modellen. Hij vertelt wat hij vindt van de grote computer vision modellen, zoals DALLE-2 en Stable Diffusion. Ook praten we over 'foundational models' en de impact daarvan.
Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!
1
00:00:00,000 --> 00:00:03,000
Zie, daar gingen we bijna.
2
00:00:03,000 --> 00:00:06,000
Het was bijna de tweede keer dat de podcast niet opgenomen zou worden.
3
00:00:06,000 --> 00:00:07,000
Daar gaat ie.
4
00:00:07,000 --> 00:00:12,000
We zijn zo blij dat ik de grote recordkanaal heb gedrukt.
5
00:00:12,000 --> 00:00:16,000
Luisteraars, je luistert naar de AIToday podcast.
6
00:00:16,000 --> 00:00:18,000
Fijn weer dat je luistert.
7
00:00:18,000 --> 00:00:21,000
De podcast over AI voor Business & IT.
8
00:00:21,000 --> 00:00:25,000
Mijn naam is Joop Snijder, CTO bij Aigency.
9
00:00:25,000 --> 00:00:29,000
En mijn naam is Niels Naglé, Chapter Lead Data & AI bij Info Support.
10
00:00:29,000 --> 00:00:35,000
We praten vandaag met Yannick Maltha van UbiOps. Yannick, fijn dat je gekomen bent.
11
00:00:35,000 --> 00:00:38,640
Dankjewel. Zou je jezelf aan de luisteraars even willen introduceren?
12
00:00:38,640 --> 00:00:48,920
Zeker. Ik ben dus Yannick Maltha. Ik woon in Utrecht, maar ons kantoor zit in Den Haag,
13
00:00:48,920 --> 00:00:58,760
Ik ben oprichter en CEO van UbiOps. Wij zijn een bedrijf wat in de AI-sfeer
14
00:00:58,760 --> 00:01:05,900
behoorlijk actief is. Ik heb zelf een technische achtergrond. Ik heb ooit in Delft gestudeerd.
15
00:01:05,900 --> 00:01:11,420
Niet de meest technische studie gedaan. Technische bestuurskunde, daar word ik soms nog steeds een
16
00:01:11,420 --> 00:01:14,380
beetje door gepest. - Zet er nu wat technisch in.
17
00:01:14,380 --> 00:01:21,500
- Precies, dus dat was het compromis. En ik heb twee compagnons oprichters, Jorik en Victor.
18
00:01:21,500 --> 00:01:26,220
Die hebben het iets meer hardcore gedaan. Die hebben aerospace gedaan, dus die maken het goed.
19
00:01:26,220 --> 00:01:29,620
En ik vind het ontzettend leuk om hier te zijn.
20
00:01:29,620 --> 00:01:32,220
Ja, welkom.
21
00:01:32,220 --> 00:01:35,940
En ja, we hadden jouw naam doorgekregen van Daniel Kapitan.
22
00:01:35,940 --> 00:01:40,940
En Niels en ik keken natuurlijk van, ja, wat doet Yannick?
23
00:01:40,940 --> 00:01:42,340
En wat doet UbiOps?
24
00:01:42,340 --> 00:01:44,660
En dat zag er echt heel interessant uit.
25
00:01:44,660 --> 00:01:47,860
Grootschalige AI, trainer en productie.
26
00:01:47,860 --> 00:01:50,820
Dus daar gaan we het vandaag over hebben.
27
00:01:50,820 --> 00:01:53,060
Dat is het hoofdthema vandaag.
28
00:01:53,060 --> 00:01:58,860
Maar waar wij allebei benieuwd naar waren, we hebben heel kort even voorbesproken.
29
00:01:58,860 --> 00:02:00,780
Soms doen we dat helemaal niet.
30
00:02:00,780 --> 00:02:02,620
Vandaag heel kort eventjes.
31
00:02:02,620 --> 00:02:09,580
En wij waren benieuwd hoe jij denkt over de nieuwe grote modellen die er op dit moment zijn.
32
00:02:09,580 --> 00:02:18,540
Op het gebied van image processing dingen als DALI 2, Stable Diffusion, dat soort modellen.
33
00:02:18,540 --> 00:02:20,500
Hoe kijk jij daarna vanuit jouw vakgebied?
34
00:02:20,500 --> 00:02:29,500
Ik moet eerlijk zeggen, ik ben niet de technische expert, maar ik kijk vooral naar de toepassing
35
00:02:29,500 --> 00:02:37,300
daarvan. Wat ik zie is dat, ik denk toen wij vijf jaar geleden begonnen met, en toen heette het nog
36
00:02:37,300 --> 00:02:41,900
niet Ubiops, maar toen heette het Dutch Analytics, waren wij vooral bezig met het ontwerpen en trainen
37
00:02:41,900 --> 00:02:48,820
van modellen. Dat zat wat meer aan de tijdreeksanalyse, maar ook af en toe deden we ook
38
00:02:48,820 --> 00:02:53,380
Ik denk vandaag de dag dat je veel meer naar de type foundation models gaat,
39
00:02:53,380 --> 00:02:56,260
dus waar je enorme compute power voor nodig hebt.
40
00:02:56,260 --> 00:03:00,060
En daar zie je toch wel een enorme maturity in ontstaan.
41
00:03:00,060 --> 00:03:06,260
Dus ik zie heel veel bedrijven en organisaties om me heen
42
00:03:06,260 --> 00:03:09,060
die dit soort modellen kunnen gaan gebruiken, inzetten.
43
00:03:09,060 --> 00:03:13,820
En dat kunnen gaan, nou, kundig inzetten om met eigen gelabelde data
44
00:03:13,820 --> 00:03:15,760
dan het model zodanig te herstellen.
45
00:03:15,860 --> 00:03:19,060
met eigen gelabelde data dan het model zodanig te hertrainen...
46
00:03:19,060 --> 00:03:20,460
dat dat inzetbaar wordt.
47
00:03:20,460 --> 00:03:24,360
Wat ik ook leuk vind om te zien is dat zowel de vakgebieden...
48
00:03:24,360 --> 00:03:29,360
aan de vision kant, maar ook ontzettend veel kruisbestuivingen hebben...
49
00:03:29,360 --> 00:03:31,060
bijvoorbeeld National Language Processing.
50
00:03:31,060 --> 00:03:35,860
Dus dat je daar ook weer, eigenlijk doordat we weer wat doorbraak hebben gehad in NLP...
51
00:03:35,860 --> 00:03:37,960
dat we nu weer kunnen zien in Computer Vision.
52
00:03:37,960 --> 00:03:40,860
Ja, want juist deze modellen, voor degenen die misschien nieuw zijn...
53
00:03:40,860 --> 00:03:44,560
want ik noem die termen, al die twee, Stable Diffusion en zo.
54
00:03:44,660 --> 00:03:51,000
Dus je geeft een tekst op, prompt noemen ze dat, en die tekst die wordt omgezet en daar
55
00:03:51,000 --> 00:03:53,460
wordt dan uiteindelijk een image van gebakken.
56
00:03:53,460 --> 00:03:59,820
Of wat ik afgelopen week zag, Meta, die had zelfs dat je hele video's kan produceren.
57
00:03:59,820 --> 00:04:04,380
Dan zeiden ze van, doe maar een Superman hond en dan zie je een hond met een cape, zie
58
00:04:04,380 --> 00:04:05,380
je vliegen.
59
00:04:05,380 --> 00:04:13,380
En dan hebben ze een korte video gemaakt van taal, NLP omzetten uiteindelijk naar of kunst,
60
00:04:13,380 --> 00:04:15,380
foto's of zelfs video's.
61
00:04:15,380 --> 00:04:16,400
Ja.
62
00:04:16,400 --> 00:04:20,620
Ja, dat is natuurlijk eigenlijk waanzinnig, technisch gezien.
63
00:04:20,620 --> 00:04:22,820
Kijk, de vraag is natuurlijk wel,
64
00:04:22,820 --> 00:04:27,380
dit soort type modellen worden natuurlijk steeds meer en meer gemaakt...
65
00:04:27,380 --> 00:04:30,120
bij de partijen die dat nog steeds kunnen.
66
00:04:30,120 --> 00:04:34,220
Dat is natuurlijk een beetje meer een ethisch en een moreel debat, zou je kunnen zeggen.
67
00:04:34,220 --> 00:04:37,620
Dus de computational power die je tegenwoordig nodig hebt...
68
00:04:37,620 --> 00:04:39,040
om dit soort modellen te trainen,
69
00:04:39,040 --> 00:04:42,620
volgens mij hebben we tegenwoordig over 100 biljoen parameters in één model.
70
00:04:42,640 --> 00:04:44,880
Absoluut. - Ik bedoel, een jaar geleden...
71
00:04:44,880 --> 00:04:47,620
had het nog één biljoen en nu alweer een factor honderd.
72
00:04:47,620 --> 00:04:49,240
Dus dat is natuurlijk bizar.
73
00:04:49,240 --> 00:04:55,740
En je ziet ook natuurlijk bij Google, volgens mij Google Brain...
74
00:04:55,740 --> 00:04:58,300
is dat dit soort type foundation models...
75
00:04:58,300 --> 00:05:00,720
kunnen op een gegeven moment zeshonderd verschillende dingen tegelijkertijd.
76
00:05:00,720 --> 00:05:02,220
Dus dat is, ja...
77
00:05:02,220 --> 00:05:04,900
Ik vind dat qua technologie waanzinnig...
78
00:05:04,900 --> 00:05:07,320
maar waar we denk ik wel over moeten nadenken vandaag de dag is...
79
00:05:07,320 --> 00:05:09,280
ja, hoe gaat zich dat verder ontwikkelen?
80
00:05:09,280 --> 00:05:11,660
En aan de fundamentele researchkant...
81
00:05:11,680 --> 00:05:17,440
hebben we daar dan zelf voldoende middelen voor om dat nog te kunnen doen?
82
00:05:17,440 --> 00:05:18,960
Of hoeft dat niet meer?
83
00:05:18,960 --> 00:05:21,840
Dus dat is een hele interessante vraag.
84
00:05:21,840 --> 00:05:23,520
Ik ben ook benieuwd hoe jullie daar zelf naar kijken.
85
00:05:23,520 --> 00:05:24,520
Maar...
86
00:05:24,520 --> 00:05:28,120
- Nou ja, ik ben daar in zekere zin wel kritisch op.
87
00:05:28,120 --> 00:05:34,520
Juist wat jij zegt, van kijk, als je uiteindelijk op geen enkele wijze...
88
00:05:34,520 --> 00:05:39,320
hier concurrentie meer aan kan bieden, dan moet je er dus op vertrouwen...
89
00:05:39,320 --> 00:05:45,920
dat die foundational models veilig genoeg zijn qua fairness, qua robuustheid.
90
00:05:45,920 --> 00:05:51,460
Uiteindelijk is het wel een hele... Hoe zeg ik dat?
91
00:05:51,460 --> 00:05:56,760
Ja, ik denk dat het juist goed is dat we die foundational models hebben,
92
00:05:56,760 --> 00:06:00,840
met inderdaad de kanttekening natuurlijk van hoe gaat het met ethics,
93
00:06:00,840 --> 00:06:03,280
maar hoe ga je er grip op krijgen of inzicht op krijgen?
94
00:06:03,280 --> 00:06:06,700
Maar ik vind het voor ecologische footprint is natuurlijk absurd
95
00:06:06,700 --> 00:06:08,520
als we alles continu opnieuw blijven doen.
96
00:06:08,620 --> 00:06:11,620
Dus dit is een beetje een soort van balans zelf, zet ik erin.
97
00:06:11,620 --> 00:06:14,940
Als we dat open source goed gecontroleerd met invloed...
98
00:06:14,940 --> 00:06:18,160
goed kunnen beheren als een gemeenschap met z'n allen.
99
00:06:18,160 --> 00:06:21,880
Dat is wel heel utopisch gedacht als ik het zo nu eigenlijk uitspreek...
100
00:06:21,880 --> 00:06:23,260
maar dat zou ik wel heel mooi vinden.
101
00:06:23,260 --> 00:06:25,460
Dat dat open is, dat je daarop door kan bouwen.
102
00:06:25,460 --> 00:06:27,780
Niet dat we allemaal echt alle energie zitten te wasten...
103
00:06:27,780 --> 00:06:30,520
om allemaal ongeveer hetzelfde te willen bereiken.
104
00:06:30,520 --> 00:06:32,020
Dus dat vind ik het mooie eraan.
105
00:06:32,020 --> 00:06:34,060
Met de kanttekeningen daar gelaten natuurlijk.
106
00:06:34,060 --> 00:06:35,920
Nou, als je inderdaad het hebt over open...
107
00:06:35,940 --> 00:06:44,940
Dan ben ik ervoor. Het probleem is alleen dat zelfs OpenAI, de organisatie die zo heet, heeft alles gewoon closed source.
108
00:06:44,940 --> 00:06:48,940
Ik denk dat dat meer het probleem is dan die grote modellen inderdaad.
109
00:06:48,940 --> 00:06:53,940
Want het zou toch zonde zijn dat we dat allemaal weer opnieuw moeten gaan doen.
110
00:06:53,940 --> 00:06:57,940
Dat zou ik wel even kijken. - Helemaal meenemend.
111
00:06:57,940 --> 00:07:00,940
Nou, ik denk dat daar zeg je wel iets.
112
00:07:00,940 --> 00:07:04,940
Wij gaan er natuurlijk vanuit dat de modellen die in Amerika ontwikkeld worden...
113
00:07:04,940 --> 00:07:10,260
dat dat volgens precies hetzelfde moreel etisch kader gebeurt als bijvoorbeeld hier in Europa.
114
00:07:10,260 --> 00:07:14,100
Maar ga je praten met psychologen en antropologen...
115
00:07:14,100 --> 00:07:16,300
dan houden mensen er toch nog verschillende dingen op na.
116
00:07:16,300 --> 00:07:18,940
Dus wat dingen die wij misschien belangrijk vinden hier...
117
00:07:18,940 --> 00:07:22,300
kunnen misschien elders anders geïnterpreteerd worden.
118
00:07:22,300 --> 00:07:23,820
En hoe hou je daar ook grip op?
119
00:07:23,820 --> 00:07:28,060
En dat tweede punt wat je zegt, dat is een heel terecht punt.
120
00:07:28,060 --> 00:07:30,820
Ik denk dat dat debat steeds belangrijker gaat worden.
121
00:07:30,820 --> 00:07:37,700
We kunnen wel alles trainen en we kunnen al die GPU's, et cetera, er tegenaan gooien,
122
00:07:37,700 --> 00:07:43,540
maar is het dan nog steeds waardevol om dat überhaupt te doen?
123
00:07:43,540 --> 00:07:47,020
En moeten we daar op een gegeven moment ook niet bepaalde standaarden in gaan vinden...
124
00:07:47,020 --> 00:07:52,020
om te kijken, oké, voordat we met zo'n groot experiment beginnen of dat gaan doen,
125
00:07:52,020 --> 00:07:56,580
wat is de waarde van die case er eigenlijk achter?
126
00:07:56,600 --> 00:08:01,680
is die case wel groot genoeg. Dat kan je uitdrukken in monetaire waarde,
127
00:08:01,680 --> 00:08:06,100
maar dat kan je ook uitdrukken in maatschappelijke waarde. En ik denk dat
128
00:08:06,100 --> 00:08:11,820
dat wel steeds belangrijker gaat worden. -Geen makkelijk vraagstuk natuurlijk.
129
00:08:11,820 --> 00:08:17,980
Wat ik ook wel vind, foundational models, dat suggereert alsof het een fundament is.
130
00:08:17,980 --> 00:08:23,960
En wat doen wij? Analogie is natuurlijk altijd gevaarlijk, maar je fundament
131
00:08:24,060 --> 00:08:30,780
voor je huis, daar bouw je op omdat je weet dat die heel stevig is. Wij kunnen best wel heel weinig
132
00:08:30,780 --> 00:08:38,100
zeggen op dit moment over die foundational models, om dat echt als fundament te gebruiken. Dat vind
133
00:08:38,100 --> 00:08:43,380
ik nog wel lastig. En tuurlijk, als je voor je bedrijf of organisatie nu iets kan maken,
134
00:08:43,380 --> 00:08:52,820
of je kan hier een propositie opmaken wat voor je werkt, dan lijkt me dat dat je dat doet. Maar
135
00:08:52,820 --> 00:08:56,820
maar je loopt wel bepaalde risico's met bouwen, bouwen, bouwen.
136
00:08:56,820 --> 00:09:01,020
En waar zitten straks, als je problemen hebt, waar zitten die dan?
137
00:09:01,020 --> 00:09:03,300
En kan je daar dan nog naartoe terug?
138
00:09:03,300 --> 00:09:06,100
En kan je pinpointen waar je probleem zit?
139
00:09:06,100 --> 00:09:07,940
En daar heb je weer die open...
140
00:09:07,940 --> 00:09:12,860
Die lagen moet je transparant kunnen maken en eventueel kunnen verwisselen.
141
00:09:12,860 --> 00:09:16,420
Zoals in de IT-arts je natuurlijk ook steeds meer microservices, laagjes hebt...
142
00:09:16,420 --> 00:09:19,980
die je kan oppakken, kan aanpassen en weer verder kan gaan.
143
00:09:19,980 --> 00:09:21,980
Maar wat je zegt, die foundational models.
144
00:09:21,980 --> 00:09:25,380
Ja, is het een foundation of is het een deel van een foundation?
145
00:09:25,380 --> 00:09:28,020
Is die scheef? Dat soort inzichten heb je niet.
146
00:09:28,020 --> 00:09:30,860
Dus als het huis omvalt, lag het dan daar aan of ergens anders aan?
147
00:09:30,860 --> 00:09:32,940
Ja, dat is lastig om te zeggen. - Spannend.
148
00:09:32,940 --> 00:09:35,760
Ja. - Ja, dat deel ik volledig.
149
00:09:35,760 --> 00:09:38,620
Ik denk dat, kijk, wat wel een belangrijk bruggetje is...
150
00:09:38,620 --> 00:09:40,620
en dat moeten we, denk ik, niet onderschatten, is dat...
151
00:09:40,620 --> 00:09:42,980
als je bijvoorbeeld kijkt naar computer vision en NLP...
152
00:09:42,980 --> 00:09:47,580
en dat zijn wel de twee gebieden waar wij zelf veel actief in zijn...
153
00:09:47,580 --> 00:09:49,020
heel veel computer vision op dit moment...
154
00:09:49,040 --> 00:09:53,200
is dat daardoor heeft het wel natuurlijk een enorme leap forward gekregen.
155
00:09:53,200 --> 00:09:59,360
Dus je ziet bijvoorbeeld, we zitten in de medische sector, fantastische innovaties die daar plaatsvinden,
156
00:09:59,360 --> 00:10:01,760
mede ook vanwege die foundation models.
157
00:10:01,760 --> 00:10:09,760
En dat is het grappige, of het grappige, het tegenstrijd is misschien dat aan de trainingskant...
158
00:10:09,760 --> 00:10:13,600
de vraagstukken steeds groter en complexer worden en de parameters steeds meer.
159
00:10:13,600 --> 00:10:18,440
Maar als we aan de inference kant kijken, zien we daar wel, en dan bedoel ik...
160
00:10:18,440 --> 00:10:23,360
Dat inference voor de luisteraars, dat bedoel ik mee, dus de modellen naar productie, zeg maar,
161
00:10:23,360 --> 00:10:27,880
en echt gaan draaien en van input data output data maken,
162
00:10:27,880 --> 00:10:32,080
is dat we daar wel een ontwikkeling in zien.
163
00:10:32,080 --> 00:10:35,680
Dus je zag vijf jaar geleden was het nog extreem moeilijk om een...
164
00:10:35,680 --> 00:10:38,800
ja, een neuraal netwerk zo goed te krijgen...
165
00:10:38,800 --> 00:10:42,320
om dat überhaupt naar productie te krijgen.
166
00:10:42,320 --> 00:10:46,440
En ja, vandaag de dag, om een wat kleiner voorbeeld te geven,
167
00:10:46,460 --> 00:10:50,760
Je pakt een YOLO V5-model off the shelf om maar even te zeggen...
168
00:10:50,760 --> 00:10:55,020
je hertraint het en je hebt iets wat theoretisch gezien...
169
00:10:55,020 --> 00:10:57,200
in ieder geval heel krachtig is.
170
00:10:57,200 --> 00:10:59,820
En ja, dat is een beetje de...
171
00:10:59,820 --> 00:11:02,320
Dus ik denk dat we wel moeten gaan nadenken over die kaders...
172
00:11:02,320 --> 00:11:06,140
en dat we heel goed moeten beseffen hoe die modellen zijn opgebouwd.
173
00:11:06,140 --> 00:11:11,500
Maar tegelijkertijd heeft het wel een enorme leap vooruitgeven.
174
00:11:11,500 --> 00:11:12,660
Absoluut, ja.
175
00:11:12,660 --> 00:11:15,180
Nee, en het grappige is, hè, want kijk...
176
00:11:15,580 --> 00:11:18,140
Wij zijn helemaal into this technologie.
177
00:11:18,140 --> 00:11:23,800
En toch komen we bij bijna bij iedere aflevering uit op dilemma's en vraagstukken.
178
00:11:23,800 --> 00:11:29,740
Die misschien iets minder met de technologie te maken hebben, maar meer hoe willen we ermee omgaan.
179
00:11:29,740 --> 00:11:32,540
Dat is eigenlijk wel grappig dat we daar vrij snel weer in belanden.
180
00:11:32,540 --> 00:11:36,220
Maar om toch nog even dan wel naar die techniek te gaan.
181
00:11:36,220 --> 00:11:39,900
Jullie hebben te maken ook met grote modellen.
182
00:11:39,980 --> 00:11:45,980
Waar hebben we het dan over? Dat gaat niet over 100 biljoen parameters, features.
183
00:11:45,980 --> 00:11:47,900
Nee, kijk, wij zijn...
184
00:11:47,900 --> 00:11:50,820
Om misschien even een beeld te geven voor jullie en de luisteraars.
185
00:11:50,820 --> 00:11:53,980
Wij zijn als platform ooit begonnen eerst aan de inference kant.
186
00:11:53,980 --> 00:11:57,700
Dus je hebt eigenlijk twee schaalvormen.
187
00:11:57,700 --> 00:12:01,220
Je hebt de trainingskant van de modellen, die worden steeds groter.
188
00:12:01,220 --> 00:12:03,900
En dan hebben we net een hele discussie over die foundation models gehad.
189
00:12:03,900 --> 00:12:05,900
Maar dat zie je natuurlijk ook aan de inference kant.
190
00:12:05,900 --> 00:12:09,220
Dus als wij het over schaal hebben, hebben we het vaak ook over...
191
00:12:09,240 --> 00:12:11,520
Je hebt een model in productie.
192
00:12:11,520 --> 00:12:17,140
En hoe ga ik er nu voor zorgen dat ik dat niet voor één taak kan doen of één ding,
193
00:12:17,140 --> 00:12:20,640
maar hoe ga ik dat voor misschien wel een global bedrijf doen,
194
00:12:20,640 --> 00:12:22,480
wat net uit R&D komt?
195
00:12:22,480 --> 00:12:26,520
En daar zien we steeds meer van dat soort bedrijven die dat aan het doen zijn.
196
00:12:26,520 --> 00:12:29,280
Ik zal even een voorbeeld geven om het even wat meer te illustreren.
197
00:12:29,280 --> 00:12:30,300
Graag.
198
00:12:30,300 --> 00:12:33,600
Wij werken bijvoorbeeld met een klant zoals Bayer.
199
00:12:33,600 --> 00:12:36,960
Dat is een Duitse farmaceutisch bedrijf.
200
00:12:36,980 --> 00:12:41,980
Wat weinig mensen weten is dat ze ook een enorme crop science afdeling hebben.
201
00:12:41,980 --> 00:12:43,500
Dat is een van de drie poten.
202
00:12:43,500 --> 00:12:44,620
Wat is crop science?
203
00:12:44,620 --> 00:12:45,820
Crop science, ja.
204
00:12:45,820 --> 00:12:48,940
Dat is de wetenschap van crops.
205
00:12:48,940 --> 00:12:52,860
Dus, hoe zeg je dat? Harvest, oogst, de plantjes.
206
00:12:52,860 --> 00:12:55,860
-Zwaaien, grote telen. -Ja.
207
00:12:55,860 --> 00:13:01,340
Dus wat zij doen, zij detecteren bijvoorbeeld ziektes in gewassen.
208
00:13:01,340 --> 00:13:05,460
En dat doen ze bijvoorbeeld met allerlei beeldmodellen.
209
00:13:05,480 --> 00:13:09,080
Wat dan typisch is, is dat de training die ze doen,
210
00:13:09,080 --> 00:13:14,880
ze pakken daar waarschijnlijk ook een aantal off the shelf modellen voor
211
00:13:14,880 --> 00:13:16,480
en daar bouwen ze op verder.
212
00:13:16,480 --> 00:13:20,380
En dan heb je het vaak over de training cycle zelf,
213
00:13:20,380 --> 00:13:26,080
dat zit meer aan de A100's en tegenwoordig de H100's.
214
00:13:26,080 --> 00:13:28,380
En ze willen mogelijk van die kasten er tegenaan gooien,
215
00:13:28,380 --> 00:13:30,180
maar zo te zeggen, daar moet je dan aan denken.
216
00:13:30,180 --> 00:13:33,580
Voor de luisteraars een A100, dat was twee jaar geleden
217
00:13:33,580 --> 00:13:37,980
een beetje de top-notch kast van Nvidia voor het trainen van modellen.
218
00:13:37,980 --> 00:13:39,500
En dat is nu de H100 geworden.
219
00:13:39,500 --> 00:13:41,740
Dus dat zie je ongelooflijk snel gaan.
220
00:13:41,740 --> 00:13:43,900
En dat zie je niet alleen bij dit soort grote bedrijven,
221
00:13:43,900 --> 00:13:45,300
maar dat zie je bijvoorbeeld ook bij universiteiten.
222
00:13:45,300 --> 00:13:48,340
En dus over, als je nu dit soort hardware inkoopt,
223
00:13:48,340 --> 00:13:50,420
over twee of drie jaar kan je het al bijna weer weggooien,
224
00:13:50,420 --> 00:13:52,260
want dan voldoet het al niet meer.
225
00:13:52,260 --> 00:13:53,900
- Ja, bizar is dat. - Dat is echt bizar.
226
00:13:53,900 --> 00:13:56,540
Dus je ziet aan beide kanten, zowel aan de trainingskant,
227
00:13:56,540 --> 00:13:58,820
wordt dat steeds groter.
228
00:13:58,820 --> 00:14:02,780
En dan heb ik het nog niet eens over het maken van een volledig van scratch,
229
00:14:02,820 --> 00:14:09,400
een nieuw model, maar gewoon puur dat alleen al en alleen al de retraining cycles die modellen
230
00:14:09,400 --> 00:14:13,760
tegenwoordig doorlopen. Jullie zitten alles weten over model en data drift, et cetera.
231
00:14:13,760 --> 00:14:19,080
Maar aan de andere kant zie je dus ook een explosie ontstaan in oké, maar als we dan
232
00:14:19,080 --> 00:14:23,280
die modellen echt gaan opschalen in het voorbeeld van Bayer, ja dan heb je het niet over één land.
233
00:14:23,280 --> 00:14:28,800
Je hebt het waar ze dit soort modellen voor inzetten, nee, het is voor potentieel de hele
234
00:14:28,800 --> 00:14:37,800
en dat wordt wel groot. En hoe ga je zo'n systeem managen en hoe krijg je early warnings in dat systeem?
235
00:14:37,800 --> 00:14:45,800
En dat heeft zowel aan de modelkant te maken als aan de systeemkant. Want wat we soms vergeten als we een model naar productie brengen,
236
00:14:45,800 --> 00:14:53,800
is dat er soms ook requirements zijn van latency, van availability. Soms zijn de resources er gewoon eenvoudig niet.
237
00:14:53,800 --> 00:14:59,800
Als ik een trainingsjob wil doen en ik heb morgen een paar A100's nodig in de cloud...
238
00:14:59,800 --> 00:15:02,800
om mij even een voorbeeld te geven, dan kan ik wel een dag wachten.
239
00:15:02,800 --> 00:15:13,800
Maar als ik realtime informatie moet geven over of er wel of niet een soort gewasepidemie...
240
00:15:13,800 --> 00:15:18,800
aan het aankomen is voor boeren, want je hebt van die enorme pestmigraties bijvoorbeeld.
241
00:15:18,800 --> 00:15:22,800
Dat moet realtime of near realtime, want anders is je oogst mislukt.
242
00:15:22,800 --> 00:15:26,040
Dus dan heb je die resources wel nodig.
243
00:15:26,040 --> 00:15:27,240
En daar denken we ook over,
244
00:15:27,240 --> 00:15:31,340
nou, hoe zorg je dan voor dat je die availability van resources hebt?
245
00:15:31,340 --> 00:15:32,800
En hoe kan je dat maximaliseren?
246
00:15:32,800 --> 00:15:34,820
En hoe kan je die uptime zo hoog mogelijk houden?
247
00:15:34,820 --> 00:15:37,840
Dus je hebt echt wel verschil tussen trainen en productie.
248
00:15:37,840 --> 00:15:39,540
Je had het net over die hardware.
249
00:15:39,540 --> 00:15:42,700
Is dat schalen van dat hardware...
250
00:15:42,700 --> 00:15:46,800
Gaat dat over grootte van de modellen...
251
00:15:46,800 --> 00:15:50,260
of gaat het ook over het terugdringen van de trainingscycle?
252
00:15:51,740 --> 00:15:58,020
Ja, ik denk dat overal zie je dat de training cycles sowieso een stuk kleiner worden.
253
00:15:58,020 --> 00:15:59,780
Maar dat is meer vanuit een praktisch oogpunt,
254
00:15:59,780 --> 00:16:02,100
omdat de loads ook steeds groter worden.
255
00:16:02,100 --> 00:16:04,140
Dus ook vanuit hun economisch...
256
00:16:04,140 --> 00:16:05,640
En het is ook niet meer...
257
00:16:05,640 --> 00:16:12,460
Ik was laatst op een evenement en moest ik wat presenteren...
258
00:16:12,460 --> 00:16:13,980
of zat ik in een soort panel discussie.
259
00:16:13,980 --> 00:16:18,020
En daar was ook, ik geloof, Max Welling, een bekende prof.
260
00:16:18,020 --> 00:16:20,040
Van de UvA. - Van de UvA.
261
00:16:20,540 --> 00:16:22,860
En er was ook iemand in het publiek die zei ook van,
262
00:16:22,860 --> 00:16:28,220
ja, maar hoe vaak komt het nou nog voor dat je modellen twee weken lang aan het trainen bent?
263
00:16:28,220 --> 00:16:30,060
Ja, dat komt eigenlijk bijna niet meer voor.
264
00:16:30,060 --> 00:16:33,540
Een dag is een beetje de max tegenwoordig of misschien een paar dagen.
265
00:16:33,540 --> 00:16:34,560
Ja.
266
00:16:34,560 --> 00:16:39,420
Los van natuurlijk de extreem grote modellen als we het weer over het foundation niveau hebben.
267
00:16:39,420 --> 00:16:40,440
Zeker.
268
00:16:40,440 --> 00:16:44,140
Maar dat zie je wel.
269
00:16:44,140 --> 00:16:49,120
En ja, terugkomend op je vraag, wat was je...
270
00:16:49,140 --> 00:16:51,460
Of je inderdaad zegt van, heeft het niet...
271
00:16:51,460 --> 00:16:55,820
Dat schalen gaat het om en het kunnen behappen van grotere modellen...
272
00:16:55,820 --> 00:16:59,660
of ook het terugdringen van de trainingstijd?
273
00:16:59,660 --> 00:17:01,920
Ja, ik denk beide.
274
00:17:01,920 --> 00:17:05,840
Dus ik denk dat je naar beide facetten moet kijken.
275
00:17:05,840 --> 00:17:08,380
Dus toch snel...
276
00:17:08,380 --> 00:17:10,820
Als je kijkt naar volgens mij...
277
00:17:10,820 --> 00:17:13,060
Ik heb daar ook wat artikelen over gelezen.
278
00:17:13,060 --> 00:17:15,940
Als je nu kijkt, is toch proberen zo snel mogelijk...
279
00:17:15,940 --> 00:17:18,900
naar een eerste soort conceptmodel te gaan.
280
00:17:18,920 --> 00:17:20,520
en daar ook even aan vast te houden.
281
00:17:20,520 --> 00:17:23,960
En vooral de data te verbeteren voordat je weer zo'n trainingscycle ingaat...
282
00:17:23,960 --> 00:17:28,520
in plaats van dat je 10.000 verschillende dingen probeert te doen op dezelfde data.
283
00:17:28,520 --> 00:17:33,640
Dus dat zijn ook trucjes om die trainingscycles te verkleinen...
284
00:17:33,640 --> 00:17:36,280
en daarop in te zetten.
285
00:17:36,280 --> 00:17:41,320
We zien dat ook hoor, misschien met minder grotere modellen...
286
00:17:41,320 --> 00:17:42,640
maar wat je ziet is dat je...
287
00:17:42,640 --> 00:17:45,440
We hebben veel meer ervaring nu waarvan je weet van...
288
00:17:45,460 --> 00:17:51,940
met dit algoritme komen we gewoon al een hele eind. Dus is het veel handiger om inderdaad je
289
00:17:51,940 --> 00:17:57,940
data verbeteren, feature selection uit te voeren, voordat je gaat zoeken naar een ander algoritme.
290
00:17:57,940 --> 00:18:00,740
- Exact. - Het kost je gewoon veel meer tijd en
291
00:18:00,740 --> 00:18:04,060
resources. - Ik was me wel benieuwd voor het thema 'Hoe dan?'
292
00:18:04,060 --> 00:18:09,540
Wat ook het thema van seizoen 4 is van de podcast. Wat zijn dan de tactieken die je vaak in de
293
00:18:09,540 --> 00:18:13,140
praktijk nu ziet voor die data verbetering? Ik ben wel nieuwsgierig, wat kom jij tegen in de praktijk?
294
00:18:13,140 --> 00:18:17,140
Dat is een goede vraag en daar durf ik niet helemaal een uitsluitend antwoord op te geven.
295
00:18:17,140 --> 00:18:20,140
Omdat wij zitten niet aan die kant.
296
00:18:20,140 --> 00:18:25,140
Kijk, misschien ook wel even goed om te schetsen waar wij beginnen en ophouden.
297
00:18:25,140 --> 00:18:29,140
In de training heb je natuurlijk de totale experimentatie kant.
298
00:18:29,140 --> 00:18:35,140
En dat zit veel meer aan de kant van hyperparameter optimization en al die dingen, feature engineering, et cetera.
299
00:18:35,140 --> 00:18:41,140
En daar heb je ook fantastische tools voor die dat steeds meer open source en proprietary steeds beter worden.
300
00:18:41,140 --> 00:18:44,540
Waar wij als bedrijf ons op focussen, is eigenlijk...
301
00:18:44,540 --> 00:18:47,840
op het moment dat je zo'n trainingsrun moet doen, of een inference run...
302
00:18:47,840 --> 00:18:54,240
hoe kan ik dan ervoor zorgen dat ik zo schaalbaar en ook kostenefficiënt...
303
00:18:54,240 --> 00:18:57,540
en efficiënt mogelijk die computational power op dat moment kan aanbieden?
304
00:18:57,540 --> 00:19:00,540
Dus dat is eigenlijk de split tussen...
305
00:19:00,540 --> 00:19:04,940
Dus er vindt eigenlijk een hele keten van tevoren plaats...
306
00:19:04,940 --> 00:19:06,640
waar wij eigenlijk veel minder zicht op hebben.
307
00:19:06,640 --> 00:19:09,740
En dat is natuurlijk ook soms een beetje de secret sauce van bedrijven...
308
00:19:09,840 --> 00:19:10,840
die ze hebben.
309
00:19:10,840 --> 00:19:16,020
Maar dat is wat ik, zo'n voorbeeld, als het over data gaat,
310
00:19:16,020 --> 00:19:17,140
is wel wat ik meekrijg.
311
00:19:17,140 --> 00:19:20,520
Dus dat wordt steeds belangrijker.
312
00:19:20,520 --> 00:19:23,340
En via wat voor platformen doen jullie dat?
313
00:19:23,340 --> 00:19:25,100
Heb je een eigen platform?
314
00:19:25,100 --> 00:19:27,280
Gebruik je daar cloud providers voor?
315
00:19:27,280 --> 00:19:28,300
Hoe moet ik dat zien?
316
00:19:28,300 --> 00:19:33,140
Ja, we zijn een laag gebouwd bovenop Kubernetes.
317
00:19:33,140 --> 00:19:37,820
Dus een welbekende orgistratielaag on top of cloud.
318
00:19:37,840 --> 00:19:44,240
Wij zijn niet gebonden aan een cloud, dus wij draaien in principe in heel veel verschillende cloudomgevingen,
319
00:19:44,240 --> 00:19:48,440
of zelfs hybride, of als het noodzakelijk is lokaal.
320
00:19:48,440 --> 00:19:52,040
En dat kunnen we ook op een dynamische manier doen.
321
00:19:52,040 --> 00:19:58,840
Dus dat betekent ook dat wij dynamisch uit verschillende omgevingen resources kunnen poelen,
322
00:19:58,840 --> 00:20:04,440
als dat nodig is om die berekening op tijd te kunnen voldoen.
323
00:20:04,440 --> 00:20:06,760
En dat kan zowel aan de trainingskant zijn,
324
00:20:06,760 --> 00:20:08,760
maar dat kan ook zeker aan de inferencekant zijn,
325
00:20:08,760 --> 00:20:10,480
als je het hebt over bijvoorbeeld de uptime.
326
00:20:10,480 --> 00:20:12,840
Dus om even een voorbeeld te geven,
327
00:20:12,840 --> 00:20:14,680
we werken bijvoorbeeld met een bedrijf
328
00:20:14,680 --> 00:20:20,680
die hebben grote visionmodellen, ook in productie.
329
00:20:20,680 --> 00:20:22,400
Dat moet continu draaien.
330
00:20:22,400 --> 00:20:25,760
En op het moment dat ergens de resources eruit klappen,
331
00:20:25,760 --> 00:20:27,640
bijvoorbeeld, ik noem maar even wat, bij Google,
332
00:20:27,640 --> 00:20:29,840
dan kunnen wij met Ubiofts kijken,
333
00:20:29,840 --> 00:20:32,160
oké, kunnen wij zeg maar on the spot kijken
334
00:20:32,180 --> 00:20:34,500
of we dat ergens anders vandaan kunnen halen.
335
00:20:34,500 --> 00:20:37,860
Het kan in een cloud-regio zijn, want een cloud bestaat uit heel veel verschillende regio's.
336
00:20:37,860 --> 00:20:43,580
Je hebt natuurlijk de regio Europa-West bijvoorbeeld, maar ja, ook de dag, et cetera.
337
00:20:43,580 --> 00:20:46,120
Maar dat kan ook buiten de cloud.
338
00:20:46,120 --> 00:20:49,120
En we gaan zelfs een stap verder dan dat, en dat is wel weer interessant.
339
00:20:49,120 --> 00:20:52,020
Misschien een beetje het cirkeltje rond te maken.
340
00:20:52,020 --> 00:20:58,780
We zijn ook in gesprek met partijen die in Europa bijvoorbeeld clouds bouwen,
341
00:20:58,800 --> 00:21:04,800
speciaal voor GPU, waar het met name gaat om het trainen van hele grote modellen,
342
00:21:04,800 --> 00:21:07,920
maar ook weer het draaien daarvan, om daar ook op te draaien.
343
00:21:07,920 --> 00:21:11,480
En die zijn vaak ook een stuk duurzamer en Europees.
344
00:21:11,480 --> 00:21:16,160
En dat is een belangrijk debat in onderzoek op dit moment.
345
00:21:16,160 --> 00:21:19,440
- Jazeker. Hebben we het dan over Gaia-X die je bedoelt?
346
00:21:19,440 --> 00:21:21,520
- Nou, nee, dat niet. Nee.
347
00:21:21,520 --> 00:21:25,720
Kijk, iedereen denkt dat Gaia-X echt een cloud is. Dat is het eigenlijk niet.
348
00:21:25,820 --> 00:21:29,300
Daar ben ik ook pas niet zo lang achter.
349
00:21:29,300 --> 00:21:32,900
Maar in Europa heb je bijvoorbeeld in Scandinavië, IJsland, Duitsland...
350
00:21:32,900 --> 00:21:36,000
en zelfs in Nederland initiatieven lopen van grote spelers...
351
00:21:36,000 --> 00:21:39,200
of ja, midden grote spelers die beginnen echt op te komen...
352
00:21:39,200 --> 00:21:41,300
en daar echt op beginnen te focussen.
353
00:21:41,300 --> 00:21:44,600
Want hoe kunnen wij duurzaam, ondemand...
354
00:21:44,600 --> 00:21:47,700
cloud compute resources geven...
355
00:21:47,700 --> 00:21:50,200
voor bijvoorbeeld hele complexe berekeningen...
356
00:21:50,200 --> 00:21:53,600
als het gaat voor onderzoek, maar ook voor het bedrijfsleven.
357
00:21:53,700 --> 00:21:58,100
En ik denk dat over een x-aantal jaar, en dan hebben we het over vijf jaar,
358
00:21:58,100 --> 00:22:01,660
er wel een aantal van dat soort hele dominante partijen zijn.
359
00:22:01,660 --> 00:22:04,620
En ik denk dat dat ook heel goed is in Europa, dat dat gaat gebeuren.
360
00:22:04,620 --> 00:22:05,640
Ja, zeker.
361
00:22:05,640 --> 00:22:09,220
Want we kunnen er altijd over praten, maar we moeten ook iets doen.
362
00:22:09,220 --> 00:22:11,920
En dat stimuleren we als bedrijf ook.
363
00:22:11,920 --> 00:22:16,580
Dus ik weet niet inmiddels in hoeveel omgevingen wij operationeel zijn,
364
00:22:16,580 --> 00:22:18,220
maar het zijn er wel veel.
365
00:22:18,220 --> 00:22:20,540
En dat is ook het mooie.
366
00:22:20,560 --> 00:22:25,000
Dus wij zien ook klanten die bijvoorbeeld eerst in een Amerikaanse cloud draaien...
367
00:22:25,000 --> 00:22:28,720
en dan denken, hé, ik zou toch graag eigenlijk echt workloads willen draaien...
368
00:22:28,720 --> 00:22:29,740
in een Europese cloud.
369
00:22:29,740 --> 00:22:31,200
En dan kan dat.
370
00:22:31,200 --> 00:22:34,920
En dat heeft soms te maken met sustainability.
371
00:22:34,920 --> 00:22:37,120
Soms heeft dat ook te maken met data privacy...
372
00:22:37,120 --> 00:22:41,400
en natuurlijk ook de geopolitieke spanningen soms die kunnen oplopen.
373
00:22:41,400 --> 00:22:43,480
Maar mensen zijn zich daar wel steeds meer bewust van.
374
00:22:43,480 --> 00:22:48,200
Dus wij moeten soms een beetje lachen als een bedrijf zegt...
375
00:22:48,200 --> 00:22:50,000
ja, we hebben een soort cloud-first policy...
376
00:22:50,020 --> 00:22:52,780
en dan zit je al je eieren in één mandje, zeg maar.
377
00:22:52,780 --> 00:22:55,620
Maar je ziet dat de partijen die net een stap verder zijn,
378
00:22:55,620 --> 00:22:58,920
die beginnen na te denken, oké, ja, maar ik wil sowieso een...
379
00:22:58,920 --> 00:23:04,100
Ja, misschien zo'n dooddoener qua term, maar zo'n multi-cloud-strategie.
380
00:23:04,100 --> 00:23:06,320
Maar dat is wel heel relevant op dit moment.
381
00:23:06,320 --> 00:23:10,940
En soms heeft dat ook gewoon puur te maken met de availability van resources.
382
00:23:10,940 --> 00:23:14,660
Dat vooral. En als je dat, wat jij zegt, gewoon zo kan schalen...
383
00:23:14,660 --> 00:23:18,300
over de verschillende providers, all of need cloud.
384
00:23:18,320 --> 00:23:20,320
Ja, krachtig lijkt me.
385
00:23:20,320 --> 00:23:23,720
Een dingetje die bij mij gelijk helemaal achteraf opkomt is security.
386
00:23:23,720 --> 00:23:26,220
Hoe doen jullie dat?
387
00:23:26,220 --> 00:23:28,220
Of hoe hebben jullie die uitdaging getackled?
388
00:23:28,220 --> 00:23:31,720
Want je noemt het zelf, in Amerika draaien ze dataprivacy,
389
00:23:31,720 --> 00:23:33,220
dan gaan we in Europa draaien.
390
00:23:33,220 --> 00:23:35,220
Hoe pakken jullie dat dan aan?
391
00:23:35,220 --> 00:23:38,720
Ja, ik vind, om misschien daar gelijk een onderscheiding mee te maken,
392
00:23:38,720 --> 00:23:41,020
ik vind privacy echt iets anders dan security.
393
00:23:41,020 --> 00:23:45,220
Dus wij werken bijvoorbeeld, een grote klant van ons bijvoorbeeld,
394
00:23:45,220 --> 00:23:47,720
het National Cyber Security Centrum van Nederland.
395
00:23:47,720 --> 00:23:52,720
Dus de modellen die ze daar ontwikkelen en draaien, die draaien op ons platform.
396
00:23:52,720 --> 00:23:56,540
Dat gebeurt allemaal in een zogenaamde air-gapped omgeving.
397
00:23:56,540 --> 00:23:58,080
Dus dat zit helemaal niet in de cloud.
398
00:23:58,080 --> 00:24:01,720
Dus ik kan wel vertellen dat we aan de security kant redelijk gehardend zijn.
399
00:24:01,720 --> 00:24:03,240
[GELACH]
400
00:24:03,240 --> 00:24:06,340
Dus we lopen niet weg van een pentest.
401
00:24:06,340 --> 00:24:10,320
Als je kijkt naar de privacy, ja, dat is een heel ander verhaal.
402
00:24:10,320 --> 00:24:14,320
Je hebt natuurlijk het SRAMs2 en je hebt de, ja, het zijn wat vaktermen,
403
00:24:14,340 --> 00:24:19,140
maar je hebt de Europese privacy wetgeving die staat eigenlijk niet,
404
00:24:19,140 --> 00:24:24,340
die is niet volledig congruent met de Amerikaanse Cloud Act op dit moment.
405
00:24:24,340 --> 00:24:27,240
Dus we denken altijd, we zeggen altijd,
406
00:24:27,240 --> 00:24:29,840
ja Joe Biden zou dan eventueel bij je data kunnen,
407
00:24:29,840 --> 00:24:34,440
ook al is het een Amerikaanse data,
408
00:24:34,440 --> 00:24:38,740
een Amerikaanse partij die toch een datacentrum heeft
409
00:24:38,740 --> 00:24:42,440
in bijvoorbeeld Nederland of Duitsland, dan geldt de Cloud Act ook.
410
00:24:42,440 --> 00:24:50,040
Maar dat is niet alleen Joe Biden, maar dat kan ook je lokale boswachter zijn die dat kan opvragen.
411
00:24:50,040 --> 00:24:51,920
Dus bij wijze van spreken.
412
00:24:51,920 --> 00:24:57,800
En die privacy die komt met name toch voort uit wat dat bedrijf wil.
413
00:24:57,800 --> 00:25:02,120
Dus er zijn bij ons bedrijven die zeggen, dat maakt mij niet uit.
414
00:25:02,120 --> 00:25:05,000
Het maakt me niet uit of ik in een Amerikaanse cloud draai of...
415
00:25:05,000 --> 00:25:12,040
Dan bedoel ik eigenlijk, het eigenaarschap ligt in Amerikaanse handen.
416
00:25:12,040 --> 00:25:16,540
Maar er zijn ook degelijk bedrijven die daar heel zwaar aan trekken.
417
00:25:16,540 --> 00:25:22,440
En dus ook niet zomaar willen dat als zij bepaalde workloads hebben draaien...
418
00:25:22,440 --> 00:25:26,860
in een Nederlandse omgeving, dat dat in één keer ergens anders kan gaan draaien.
419
00:25:26,860 --> 00:25:28,660
Daar willen ze volledig grip op hebben.
420
00:25:28,660 --> 00:25:30,820
Die granulariteit, die bieden we ze aan.
421
00:25:30,820 --> 00:25:34,780
Dus ze hebben zelf volledig de tools en de knoppen in handen op ons platform...
422
00:25:34,780 --> 00:25:35,980
om dat zelf te kunnen doen.
423
00:25:35,980 --> 00:25:38,580
Die lift en shiften, zoals we dat noemen van workloads.
424
00:25:40,720 --> 00:25:42,720
Dus dat is denk ik het...
425
00:25:42,720 --> 00:25:46,320
Maar ja, dat is echt vanuit de praktijk geredeneerd.
426
00:25:46,320 --> 00:25:52,220
Dus kijk, ik denk wel dat als wij meer Europese alternatieven hebben...
427
00:25:52,220 --> 00:25:54,940
dat daar ook een grotere vraag naar zou komen vanuit partijen.
428
00:25:54,940 --> 00:25:56,660
Het is soms een beetje ook het kip-en-ei verhaal.
429
00:25:56,660 --> 00:26:00,220
Iedereen zegt, ik wil gewoon naar een hele goede cloud-opgeving.
430
00:26:00,220 --> 00:26:06,260
En ja, als dat er is, dan ga ik dat doen, want dat is gewoon veel efficiënter.
431
00:26:06,260 --> 00:26:08,360
Maar op het moment dat het alternatiever is...
432
00:26:08,380 --> 00:26:11,380
Ja, dan heb je ook echt iets te bieden.
433
00:26:11,380 --> 00:26:15,420
En wat wij vinden, is waar Europa in achterloopt,
434
00:26:15,420 --> 00:26:18,780
is als je het hebt over de middlewarelagen.
435
00:26:18,780 --> 00:26:21,100
Dus heel veel partijen...
436
00:26:21,100 --> 00:26:24,060
En interropeer me ook als ik teveel praat, hè.
437
00:26:24,060 --> 00:26:25,580
Nee, nee, nee. Het gaat hartstikke goed.
438
00:26:25,580 --> 00:26:27,700
Ik ben heel benieuwd waar je met de middleware naar toe gaat.
439
00:26:27,700 --> 00:26:31,220
Nou, wat je natuurlijk ziet, is dat je in Europa best wel veel datacenters al hebt.
440
00:26:31,220 --> 00:26:35,940
En het zijn fantastische datacenters.
441
00:26:35,960 --> 00:26:39,760
Alleen die zijn nog in de ontwikkeling van die middlewarelaag.
442
00:26:39,760 --> 00:26:42,480
En dat zie je natuurlijk heel veel bij nieuw bedrijven.
443
00:26:42,480 --> 00:26:46,160
Ze zijn al heel erg gewend aan de tools die je hebt in bijvoorbeeld een Amerikaanse cloud.
444
00:26:46,160 --> 00:26:50,440
Je kan SageMaker gebruiken of Lambda tot Azure Services, etc.
445
00:26:50,440 --> 00:26:51,440
Google Vertex.
446
00:26:51,440 --> 00:26:53,440
- En dat is wat je de middleware noemt?
447
00:26:53,440 --> 00:26:54,440
- Dat noem ik de middleware.
448
00:26:54,440 --> 00:26:58,640
Dus eigenlijk de interactie tussen je AI workloads, zeg ik maar even,
449
00:26:58,660 --> 00:27:06,260
En de serverless laag die dan weer de servers zelf verder down aanstuurt.
450
00:27:06,260 --> 00:27:09,260
En zo denken die teams ook.
451
00:27:09,260 --> 00:27:12,140
Teams denken tegenwoordig niet meer in termen van servers.
452
00:27:12,140 --> 00:27:14,620
Ik heb zoveel bakken nodig.
453
00:27:14,620 --> 00:27:16,100
Nee, die denken in termen van workloads.
454
00:27:16,100 --> 00:27:17,540
Dus dat is iets heel anders.
455
00:27:17,540 --> 00:27:19,540
En daar zit een mismatch tussen.
456
00:27:19,540 --> 00:27:24,940
En dat proberen we ook daar in ieder geval in te helpen.
457
00:27:24,940 --> 00:27:28,380
Want wij kennen die taal namelijk heel goed van die bedrijven of organisaties.
458
00:27:28,400 --> 00:27:32,780
en soms zijn het ook onderzoeksorganisaties, maar ook van de datacentrum kant.
459
00:27:32,780 --> 00:27:34,100
Dus, ja.
460
00:27:34,100 --> 00:27:36,600
En hoe zorg je, ja, ik kan me zo voorstellen...
461
00:27:36,600 --> 00:27:39,100
dat je niet dat helemaal in detail kan vertellen.
462
00:27:39,100 --> 00:27:41,740
Maar er zit natuurlijk een heel verschil tussen die workloads...
463
00:27:41,740 --> 00:27:43,420
over die verschillende cloudleveranciers.
464
00:27:43,420 --> 00:27:45,820
Je zegt van, wij doen dat kostenefficiënt.
465
00:27:45,820 --> 00:27:49,620
Dat lijkt me vrij lastig, om dat allemaal uitgezocht te hebben...
466
00:27:49,620 --> 00:27:53,140
waar en hoe het dan zo kostenefficiënt mogelijk is...
467
00:27:53,140 --> 00:27:54,940
over de verschillende cloudleveranciers.
468
00:27:54,940 --> 00:27:56,540
Dat is het zeker, ja.
469
00:27:56,560 --> 00:28:00,560
Nou ja, als je het hebt over kostenefficiëntie bijvoorbeeld.
470
00:28:00,560 --> 00:28:03,080
Het hangt er bijvoorbeeld al af wanneer je een workload moet draaien.
471
00:28:03,080 --> 00:28:04,800
Om even een voorbeeld te geven.
472
00:28:04,800 --> 00:28:09,760
We hebben partijen die bijvoorbeeld veel in de weekenden moeten draaien.
473
00:28:09,760 --> 00:28:13,200
Dan kan je ook gebruik maken van zogenaamde spot instances.
474
00:28:13,200 --> 00:28:18,360
Dat zijn de hoeveelheid ongebruikte capaciteit...
475
00:28:18,360 --> 00:28:22,660
die eigenlijk voor, ik wil niet zeggen voor een prikkie weg gaat,
476
00:28:22,660 --> 00:28:25,080
maar wel voor een flink... - Een spotprijs.
477
00:28:25,100 --> 00:28:27,100
[GELACH]
478
00:28:27,100 --> 00:28:29,400
En dan is het vooral heel erg belangrijk,
479
00:28:29,400 --> 00:28:32,500
oké, als je daar gebruik van maakt, dan kan je dus de kosten effectiever zijn,
480
00:28:32,500 --> 00:28:35,500
maar dan moet je ook wel technologie hebben om ervoor te zorgen dat,
481
00:28:35,500 --> 00:28:38,500
mocht zo'n instance worden afgeschakeld, wat dan ook kan,
482
00:28:38,500 --> 00:28:41,000
iemand die daar dan de hoofdprijs voor wil betalen, dan ben je hem kwijt.
483
00:28:41,000 --> 00:28:45,800
En hoe zorg je ervoor dat je in de meantime een andere instance hebt opgesponnen,
484
00:28:45,800 --> 00:28:46,800
of opgespint.
485
00:28:46,800 --> 00:28:51,500
Dus, kijk, wij gaan nog niet zo ver dat wij,
486
00:28:51,500 --> 00:28:56,260
dat wij continu aan het kijken zijn,
487
00:28:56,260 --> 00:29:01,180
want availability is vaak nog belangrijker voor heel veel gevallen dan alleen prijs.
488
00:29:01,180 --> 00:29:04,340
Maar wat we wel proberen te doen is over het gemiddelde genomen,
489
00:29:04,340 --> 00:29:06,100
heel erg met een klant mee te denken van,
490
00:29:06,100 --> 00:29:09,540
oké, we kunnen dit en dit en dit, deze optimalisaties doen,
491
00:29:09,540 --> 00:29:12,940
waarbij je dan zo kostefficiënt mogelijk kan draaien.
492
00:29:12,940 --> 00:29:15,500
- Ja, precies. Hebben jullie ook eigen modellen gebouwd
493
00:29:15,500 --> 00:29:18,040
voor het runnen van je platform?
494
00:29:18,060 --> 00:29:22,060
Ja, nou ja, we hebben zeker algoritmes.
495
00:29:22,060 --> 00:29:28,060
Ik kan dat misschien niet volledig AI noemen, maar we hebben natuurlijk bijvoorbeeld...
496
00:29:28,060 --> 00:29:30,060
Waarom niet?
497
00:29:30,060 --> 00:29:34,060
Want dit hoor ik, waarom ik dit vraag, dat is een beetje een pestvraag.
498
00:29:34,060 --> 00:29:39,060
Dat krijgen wij namelijk ook best wel heel vaak vanuit klanten terug en zo.
499
00:29:39,060 --> 00:29:42,060
Is dit wel of geen AI?
500
00:29:42,060 --> 00:29:43,060
Ja.
501
00:29:43,060 --> 00:29:45,060
Wat is jouw criterium?
502
00:29:45,060 --> 00:29:51,060
Nou, in ieder geval dat er toch een soort self-learning component in zit.
503
00:29:51,060 --> 00:29:55,060
Dus wij schrijven wel algoritmes, maar die zijn veel meer deterministisch in de platform.
504
00:29:55,060 --> 00:30:05,060
Wel net iets verder dan if-then-else, maar het zijn wel degelijk statistische...
505
00:30:05,060 --> 00:30:09,060
Hoe zeg je dat? Dat zeg ik niet helemaal goed.
506
00:30:09,060 --> 00:30:17,500
goed. Analytische... - Modellen.
507
00:30:17,500 --> 00:30:23,540
- Nou, het zijn niet echt modellen. Het is gewoon deterministische code.
508
00:30:23,540 --> 00:30:26,500
- Oké, rekenregels. - Ja, exact.
509
00:30:26,500 --> 00:30:30,780
Ik zoek het juiste woord ervoor, want het is misschien iets meer dan dat.
510
00:30:30,780 --> 00:30:32,900
Maar rekenregels. - Ja, oké.
511
00:30:32,900 --> 00:30:35,380
- Dus even heel plat gezegd. Dus bijvoorbeeld, we hebben een...
512
00:30:35,380 --> 00:30:40,380
En bijvoorbeeld de zogenaamde autoscalers natuurlijk, die we ook zelf bouwen.
513
00:30:40,380 --> 00:30:43,100
En ja, dat zijn wel degelijk soort van algoritmes.
514
00:30:43,100 --> 00:30:44,620
En als dit gebeurt, dan gebeurt dat.
515
00:30:44,620 --> 00:30:46,820
Maar dat is niet self-learning.
516
00:30:46,820 --> 00:30:51,180
Het is niet zo, als ik daar nog meer data doorheen ga, dat dat ding zichzelf verbetert.
517
00:30:51,180 --> 00:30:52,060
Om het maar zo te zeggen.
518
00:30:52,060 --> 00:30:54,740
Wellicht dat dat iets is voor de toekomst, dat sluit ik niet uit.
519
00:30:54,740 --> 00:30:57,820
Maar misschien durven we daar nog niet helemaal op te bouwen.
520
00:30:57,820 --> 00:30:58,620
- Oh ja.
521
00:30:58,620 --> 00:31:00,580
Ja, grappig.
522
00:31:00,580 --> 00:31:03,260
Nee, maar deze vragen krijgen wij heel vaak.
523
00:31:03,300 --> 00:31:09,980
En soms, zelflerend, dat hoeft niet per se.
524
00:31:09,980 --> 00:31:13,580
Onder AI wordt meer verstaan dan machine learning alleen.
525
00:31:13,580 --> 00:31:15,180
Dat wordt nog wel eens vergeten.
526
00:31:15,180 --> 00:31:19,900
De oude expert systemen, wat uiteindelijk ook een ruw beest was,
527
00:31:19,900 --> 00:31:22,780
op basis van heuristiek en weet ik wat allemaal,
528
00:31:22,780 --> 00:31:25,580
valt ook nog steeds onder de AI.
529
00:31:25,580 --> 00:31:32,380
Ja, er zijn in die zin best wel multi-agency systemen kunnen...
530
00:31:32,380 --> 00:31:39,920
Klinkt heel stoer, kunnen met hele eenvoudige rekenagents zijn,
531
00:31:39,920 --> 00:31:42,100
waar je hele slimme dingen mee kan doen.
532
00:31:42,100 --> 00:31:47,020
Dus er wordt nog wel eens iets meer science fiction gedacht,
533
00:31:47,020 --> 00:31:48,980
dan dat het daadwerkelijk is.
534
00:31:48,980 --> 00:31:52,060
Je bedoelt de robot, die was weer echt gepresenteerd.
535
00:31:52,060 --> 00:31:54,440
Heb je dat gezien, Tesla?
536
00:31:54,440 --> 00:31:57,620
Ja, ik heb alleen een stukje van de opening gezien.
537
00:31:57,620 --> 00:31:59,020
Wat vond je ervan?
538
00:31:59,020 --> 00:32:01,800
Ik denk dat Boston Dynamics wel even een shiver had.
539
00:32:01,800 --> 00:32:08,800
Nou ja, kijk, de sprong die ze gemaakt hebben is groot.
540
00:32:08,800 --> 00:32:12,600
Want vorig jaar was het nog een acteur of een danser in een pakje.
541
00:32:12,600 --> 00:32:18,640
En nu hebben we een zwaaiende robot die ongeveer net zoiets komt als Pepper ofzo.
542
00:32:18,640 --> 00:32:20,440
Ik bedoel, heel muziek is het niet.
543
00:32:20,440 --> 00:32:22,520
Het zag er wel wat anders uit dan Pepper hoor.
544
00:32:22,520 --> 00:32:26,880
Ik had eigenlijk wel memes verwacht dat ze de hond van Boston Dynamics gingen uitlaten.
545
00:32:26,880 --> 00:32:28,440
Ik heb ze nog niet voorbij zien komen.
546
00:32:28,440 --> 00:32:31,520
Ik was er ook niet heel erg van onder de indruk.
547
00:32:31,520 --> 00:32:35,880
Maar hij heeft het gezegd, er staat wel een versie.
548
00:32:35,880 --> 00:32:40,040
Ik vind het wel een leap, zeg maar.
549
00:32:40,040 --> 00:32:42,640
Ja, ik zie het wel geloven.
550
00:32:42,640 --> 00:32:45,600
Ik was er niet heel erg van onder de indruk.
551
00:32:45,600 --> 00:32:50,200
Ik zag wel weer een stapje voor de toekomst, inderdaad.
552
00:32:50,200 --> 00:32:53,000
Maar wereldschokkend vond ik het ook niet.
553
00:32:53,000 --> 00:32:54,760
Maar het intrigeert me wel.
554
00:32:54,760 --> 00:32:58,040
Er kwamen filmpjes voorbij van robots van 20 jaar geleden van Honda.
555
00:32:58,040 --> 00:33:06,840
Die serveren daadwerkelijk drank uit waarbij dat van een blad werd gegeven aan iemand.
556
00:33:06,840 --> 00:33:10,280
Dat soort dingen. Dat ging iets verder dan zwaaien naar het publiek.
557
00:33:10,280 --> 00:33:13,400
Maar goed, even sidestep. Hoe kwamen we hier?
558
00:33:13,400 --> 00:33:16,520
Goeie vraag. Science fiction.
559
00:33:16,520 --> 00:33:18,520
Science fiction, ja precies.
560
00:33:18,520 --> 00:33:20,520
Toch nog iets, ja.
561
00:33:20,520 --> 00:33:25,480
Ja, en misschien jouw punt natuurlijk. Dat AI misschien wel breder is dan alleen maar dat zelflerende.
562
00:33:25,480 --> 00:33:30,640
en dat dat ook meer deterministische of heuristische rekenregels kunnen zijn.
563
00:33:30,640 --> 00:33:35,480
Kijk, wat je wel ziet is dat bijvoorbeeld aan de kant ook van...
564
00:33:35,480 --> 00:33:38,880
Dat is wel een interessante ontwikkeling die we nu zien.
565
00:33:38,880 --> 00:33:43,120
Als je bijvoorbeeld kijkt in de genetica en de physics en de astrophysics,
566
00:33:43,120 --> 00:33:45,640
daar gaat natuurlijk enorm veel data over lijnen.
567
00:33:45,640 --> 00:33:49,280
We vergeten soms hoeveel dat is.
568
00:33:49,280 --> 00:33:52,080
Correct me if I'm wrong, maar wat ik heb gelezen is dat bijvoorbeeld
569
00:33:52,280 --> 00:33:55,640
als we het hebben over wat er aan data uit de ruimte wordt gehaald,
570
00:33:55,640 --> 00:34:03,140
dan is dat al tientallen keren meer straks in 2030...
571
00:34:03,140 --> 00:34:07,340
dan heel Facebook, inclusief Instagram, et cetera, aan data produceert.
572
00:34:07,340 --> 00:34:08,940
Dus dat is enorm.
573
00:34:08,940 --> 00:34:12,340
En daar heb je het echt over big data, kan je zeggen,
574
00:34:12,340 --> 00:34:14,540
of hele grote volumes data.
575
00:34:14,540 --> 00:34:16,940
En dan zie je ook, dat is wel grappig,
576
00:34:16,940 --> 00:34:18,940
als je het nou hebt over training en inference,
577
00:34:19,040 --> 00:34:22,120
Dat betekent dus eigenlijk dat je een machine learning model aan het draaien bent...
578
00:34:22,120 --> 00:34:24,920
om een bepaalde data processing-model te kunnen gebruiken.
579
00:34:24,920 --> 00:34:27,020
En dat is eigenlijk een heel belangrijk punt.
580
00:34:27,020 --> 00:34:30,520
En dat is ook een van de redenen waarom we dat zo'n belangrijk onderzoek hebben...
581
00:34:30,520 --> 00:34:33,720
is omdat we eigenlijk niet meer in de data processing-model gaan.
582
00:34:33,720 --> 00:34:35,720
We gaan meer in de data processing-model gaan.
583
00:34:35,720 --> 00:34:38,720
En dat is eigenlijk een van de redenen waarom we dat zo'n belangrijk onderzoek hebben.
584
00:34:38,720 --> 00:34:41,720
En dat is eigenlijk een van de redenen waarom we dat zo'n belangrijk onderzoek hebben.
585
00:34:41,720 --> 00:34:44,720
En dat is eigenlijk een van de redenen waarom we dat zo'n belangrijk onderzoek hebben.
586
00:34:44,720 --> 00:34:47,720
En dat is eigenlijk een van de redenen waarom we dat zo'n belangrijk onderzoek hebben.
587
00:34:47,820 --> 00:34:50,020
om een bepaalde dataprocessing stap te doen,
588
00:34:50,020 --> 00:34:52,520
die uiteindelijk noodzakelijk is voor je training.
589
00:34:52,520 --> 00:34:54,720
Dus... -Heel herkenbaar.
590
00:34:54,720 --> 00:34:55,820
Ja. -Ja.
591
00:34:55,820 --> 00:34:57,920
Dat komen wij ook steeds meer tegen.
592
00:34:57,920 --> 00:34:59,020
Een van de dingen...
593
00:34:59,020 --> 00:35:02,920
Ik heb toevallig vanochtend een presentatie gegeven aan Radboud UMC.
594
00:35:02,920 --> 00:35:07,820
Wij zijn daar mee bezig rondom Parkinson prediagnose.
595
00:35:07,820 --> 00:35:11,820
Daar heb ik al iets vaker ook wat kleine stukjes over verteld in deze podcast.
596
00:35:11,820 --> 00:35:15,020
Maar we hebben daar inderdaad modellen gebouwd
597
00:35:15,020 --> 00:35:17,520
om uiteindelijk feature extraction te doen.
598
00:35:17,620 --> 00:35:21,460
Dat je inderdaad data uit de video's haalt of uit de audio haalt,
599
00:35:21,460 --> 00:35:24,660
die je kan gebruiken om zo direct een voorspellend model te maken.
600
00:35:24,660 --> 00:35:29,740
Dus je krijgt eigenlijk van alles door elkaar.
601
00:35:29,740 --> 00:35:32,220
En soms ook gewoon ook weer rekenregels.
602
00:35:32,220 --> 00:35:34,940
Als dit gebeurt, dan betekent het dat.
603
00:35:34,940 --> 00:35:39,460
Dus je krijgt een combinatie van om uiteindelijk tot een resultaat te komen.
604
00:35:39,460 --> 00:35:40,660
Daar wil je uiteindelijk naartoe.
605
00:35:40,660 --> 00:35:41,660
Precies.
606
00:35:41,660 --> 00:35:44,460
Dan komen we toch weer op de laagjes die we net ook bespraken.
607
00:35:44,460 --> 00:35:48,140
Je ziet ook weer een laagje bovenop je dataschild of je extra creatie.
608
00:35:48,140 --> 00:35:50,540
En hoe goed is die? Dat kunnen testen.
609
00:35:50,540 --> 00:35:53,820
En open kunnen zijn, wat gebeurt daar?
610
00:35:53,820 --> 00:35:57,020
Dat is wel een ontwikkeling die van belang is.
611
00:35:57,020 --> 00:36:02,180
Ja, en die herhaalbaarheid is dan uiteindelijk heel belangrijk.
612
00:36:02,180 --> 00:36:05,500
Hoe zit dat bij jullie op het platform?
613
00:36:05,500 --> 00:36:08,060
Ja, herhaalbaarheid in de zin van?
614
00:36:08,060 --> 00:36:11,900
Van kunnen hertrainen, zaken...
615
00:36:12,260 --> 00:36:16,260
Maar ook, nou laten we het misschien zelfs over herleidbaarheid ook hebben.
616
00:36:16,260 --> 00:36:20,960
Weet je, kijk je, wij hebben in ieder geval heel veel te maken met modellen...
617
00:36:20,960 --> 00:36:25,260
waarbij vanuit het besluit moet je redelijk terug kunnen redeneren...
618
00:36:25,260 --> 00:36:28,660
naar op basis van welke data het besluit genomen is.
619
00:36:28,660 --> 00:36:32,660
En zelfs wij moeten ook redelijk het model in kunnen kijken...
620
00:36:32,660 --> 00:36:38,160
om te zeggen van, ja, op basis van deze deze gegevens is dit besluit genomen.
621
00:36:38,160 --> 00:36:42,960
Ja, wij doen dat deels, maar ook deels niet...
622
00:36:42,960 --> 00:36:48,080
omdat de gebruikers van ons daar zelf een eigen vrijheid in willen hebben.
623
00:36:48,080 --> 00:36:50,800
Dus als wij het hebben over pipelines, dan hebben we het eigenlijk over...
624
00:36:50,800 --> 00:36:53,600
de data pipelines, dus echt het processen.
625
00:36:53,600 --> 00:36:56,520
En dat kunnen ook retrainingstappen zijn, trainingstappen...
626
00:36:56,520 --> 00:36:58,840
of uiteindelijk inference-stappen.
627
00:36:58,840 --> 00:37:02,800
In die pipelines zien we dat er heel veel conditionele logica wordt gebouwd.
628
00:37:02,800 --> 00:37:06,200
Als dit gebeurt in een pipeline, dan zou je back terug kunnen gaan...
629
00:37:06,200 --> 00:37:07,600
naar een retrainingstap, et cetera.
630
00:37:07,620 --> 00:37:12,220
En natuurlijk is dan, ik weet niet wat de umbrella term is,
631
00:37:12,220 --> 00:37:15,260
maar dan is het ontzettend belangrijk dat je data versioning op orde is.
632
00:37:15,260 --> 00:37:19,540
Kijk, en daar zijn ook alweer tools voor die daar heel krachtig in zijn.
633
00:37:19,540 --> 00:37:23,380
Gisteren toevallig hadden we ook een discussie over intern,
634
00:37:23,380 --> 00:37:26,100
dat we twee jaar geleden hadden het nog over een tool als DVC.
635
00:37:26,100 --> 00:37:29,380
En toen hadden we dat getest en dat vonden we...
636
00:37:29,380 --> 00:37:32,420
Maar vandaag de dag ziet het er al veel belovender uit.
637
00:37:32,420 --> 00:37:34,380
Dus je ziet ook, wat wij wel zien,
638
00:37:34,400 --> 00:37:38,480
is dat veel gebruikers daar ook weer eigen toolsets omheen bouwen.
639
00:37:38,480 --> 00:37:40,180
En waarom doen we dat?
640
00:37:40,180 --> 00:37:44,600
Omdat wij heel veel met de AI-specialisten samen werken.
641
00:37:44,600 --> 00:37:48,280
En die AI-specialisten hebben best wel een goed idee...
642
00:37:48,280 --> 00:37:49,840
hoe ze die straat willen inrichten.
643
00:37:49,840 --> 00:37:52,720
Dus als wij gaan voorschrijven, je moet dit of dat...
644
00:37:52,720 --> 00:37:57,320
ja, dan is het al hetzelfde als we het hebben over de keuze tussen...
645
00:37:57,320 --> 00:38:02,240
ga je in je training gebruik maken van een MLflow, om maar even iets te noemen...
646
00:38:02,260 --> 00:38:06,340
of ga je met een proprietary tool werken als een weights and biases,
647
00:38:06,340 --> 00:38:10,220
wat ook veel in de, of dat zit wel veel meer aan de experimentatie kant.
648
00:38:10,220 --> 00:38:12,100
Maar die vrijheid willen ze wel geven.
649
00:38:12,100 --> 00:38:18,940
Dus ja, het kan in de platform, maar ze richten het zelf in.
650
00:38:18,940 --> 00:38:22,420
Kijk, waar wij wel veel meer op letten is de checks en balances...
651
00:38:22,420 --> 00:38:23,980
die dan gebeuren in zo'n pipeline.
652
00:38:23,980 --> 00:38:28,620
En de operators, zoals we dat noemen, en de conditionele logica daaromheen.
653
00:38:28,640 --> 00:38:33,480
zodat we eigenlijk het proces helpen faciliteren in te richten.
654
00:38:33,480 --> 00:38:34,480
Heb je een voorbeeld?
655
00:38:34,480 --> 00:38:44,160
Nou ja, dat kan al heel simpel zijn als bijvoorbeeld een real-time AB-test.
656
00:38:44,160 --> 00:38:49,960
Dat is al een conditioneel punt, zeg maar, of logica.
657
00:38:49,960 --> 00:38:54,400
Of het hopswappen van een versie gebeurt natuurlijk ook wel eens.
658
00:38:54,400 --> 00:39:01,160
Dus ja, dat betekent een versie is toch minder optimaal dan verwacht.
659
00:39:01,160 --> 00:39:05,480
En we kunnen in één keer terug naar de andere versie waarvan we weten dat die...
660
00:39:05,480 --> 00:39:09,280
Ja, waarvan we wel eerst dachten dat het de tweede was, maar nu weer de eerste, zeg maar.
661
00:39:09,280 --> 00:39:11,920
En we gebruiken het zelfs andersom soms.
662
00:39:11,920 --> 00:39:15,120
Dus we laten de nieuwe versie schaduwdraaien.
663
00:39:15,120 --> 00:39:17,760
En dat je inderdaad ziet van, hé, maar die doet het beter.
664
00:39:17,760 --> 00:39:20,120
Dat is dan gevalideerd.
665
00:39:20,120 --> 00:39:21,520
En dan kan je hem inderdaad ook swoppen.
666
00:39:21,520 --> 00:39:24,320
En dan gaat alles door op de nieuwe versie.
667
00:39:24,320 --> 00:39:27,120
Exact, ja. - En andersom inderdaad.
668
00:39:27,120 --> 00:39:28,140
En andersom.
669
00:39:28,140 --> 00:39:31,120
Dat zijn kleine dingen, maar dat zijn wel...
670
00:39:31,120 --> 00:39:33,780
Die pipelines kunnen op een gegeven moment heel complex worden.
671
00:39:33,780 --> 00:39:38,160
En dat heeft soms ook al te maken met dat je bepaalde processing stappen doet...
672
00:39:38,160 --> 00:39:41,240
waar je weer bepaalde data bij elkaar wil kunnen mergen.
673
00:39:41,240 --> 00:39:46,600
En wat we ook proberen te doen in die pipelines is dat zo...
674
00:39:46,600 --> 00:39:49,680
Al die componenten moeten niet van elkaar afhankelijk zijn.
675
00:39:49,680 --> 00:39:53,200
Dus wij noemen dat in onze pipelines deployments.
676
00:39:53,220 --> 00:39:57,140
Dat is misschien niet helemaal de juiste term, maar het zijn soort operators, zeg maar.
677
00:39:57,140 --> 00:39:59,500
Dus het zijn eigenlijk allemaal individuele microservices.
678
00:39:59,500 --> 00:40:02,980
En daar kan je ieder type Python of ondersteunen bijvoorbeeld ook R,
679
00:40:02,980 --> 00:40:06,940
en dat soort, zo'n taal, kun je aan elkaar verbinden.
680
00:40:06,940 --> 00:40:12,260
Maar die zijn in de compute, zeg maar, om het even zo te zeggen, niet van elkaar afhankelijk.
681
00:40:12,260 --> 00:40:14,020
Dus ze schalen allemaal individueel.
682
00:40:14,020 --> 00:40:17,380
En dat betekent ook dat je hele efficiënte pipelines kan maken.
683
00:40:17,380 --> 00:40:19,020
En dat heeft weer alles te maken met tijd.
684
00:40:19,040 --> 00:40:23,040
en als je het hebt over retrainen, of trainen of inference,
685
00:40:23,040 --> 00:40:25,040
of een combinatie van die drie.
686
00:40:25,040 --> 00:40:30,840
Wat wij nog wel eens in de praktijk zien, is dat er gezien de historie,
687
00:40:30,840 --> 00:40:38,240
dat er wat minder aandacht is bij organisaties rondom het testen
688
00:40:38,240 --> 00:40:44,340
van de dataprocessing, van de pipelines die je nu zegt.
689
00:40:45,240 --> 00:40:49,240
Hoe zie jij dat? Zie je dat in de praktijk terugkomen?
690
00:40:49,240 --> 00:40:55,240
Nou, ik denk dat bedrijven die echt productiedraaien...
691
00:40:55,240 --> 00:40:57,740
daar wel veel over nadenken bij ons.
692
00:40:57,740 --> 00:41:00,240
Je hebt natuurlijk steeds meer tools die...
693
00:41:00,240 --> 00:41:01,740
Als je het hebt over datadrift...
694
00:41:01,740 --> 00:41:05,740
en wij praten ook weer met tools aan de achterkant van de keten.
695
00:41:05,740 --> 00:41:08,540
Dus bijvoorbeeld als je het hebt over modeldrift en dat soort dingen...
696
00:41:08,540 --> 00:41:11,240
en daar ook weer logica in bouwen in zo'n pipeline.
697
00:41:11,240 --> 00:41:14,240
Wij zien de gebruikers dat zeker doen.
698
00:41:14,340 --> 00:41:16,820
Want op het moment dat zij...
699
00:41:16,820 --> 00:41:23,060
Als je het hebt over het voorspellen van of een patiënt wel of geen...
700
00:41:23,060 --> 00:41:26,020
een ernstige ziekte heeft, dan moet je wel donders goed zeker weten...
701
00:41:26,020 --> 00:41:28,020
dat dat daadwerkelijk ook echt zo is.
702
00:41:28,020 --> 00:41:30,980
Dus de repercussies kunnen groot worden.
703
00:41:30,980 --> 00:41:34,180
Dus in de praktijk zien we juist wel...
704
00:41:34,180 --> 00:41:38,980
Wij werken vaak wel met organisaties die vaak iets verder zijn in die maturity...
705
00:41:38,980 --> 00:41:41,860
omdat ze ook een bepaalde verantwoordelijkheid hebben...
706
00:41:41,980 --> 00:41:47,140
om ervoor te zorgen dat die pipeline die in productie is...
707
00:41:47,140 --> 00:41:53,060
van de juiste kwaliteit te houden en te voorzien.
708
00:41:53,060 --> 00:41:54,740
Misschien al juist door de schaalgroten.
709
00:41:54,740 --> 00:41:57,140
Dus er komen natuurlijk bij jullie als de schaalgroten...
710
00:41:57,140 --> 00:42:00,740
zodanig zijn dat je moet gaan schalen.
711
00:42:00,740 --> 00:42:04,980
Wij zitten ook nog best wel bij veel bedrijven die starten.
712
00:42:04,980 --> 00:42:09,020
En daar is dit echt wel iets waar wij veel op moeten hameren.
713
00:42:09,060 --> 00:42:13,460
Dat je echt begint bij je ETL-processen testen.
714
00:42:13,460 --> 00:42:16,860
Dat je je machine learning pipeline test.
715
00:42:16,860 --> 00:42:18,560
Dat je... - Dat je datacwaliteit...
716
00:42:18,560 --> 00:42:20,160
Dat je datacwaliteit, precies.
717
00:42:20,160 --> 00:42:23,460
Dat je je experimenten versioneert.
718
00:42:23,460 --> 00:42:27,260
Dat je echt alles voor tot achter goed in elkaar hebt zitten.
719
00:42:27,260 --> 00:42:29,160
Ik hoorde je zeggen, we praten vaak met tools.
720
00:42:29,160 --> 00:42:31,460
Als de luisteraar in je luistert zegt van, hier wil ik mee aan de slag...
721
00:42:31,460 --> 00:42:34,860
Wat zijn de tools die jij in de markt ziet die gebruikt worden?
722
00:42:37,160 --> 00:42:39,660
Ja, dat is een hele goede vraag.
723
00:42:39,660 --> 00:42:47,960
Als we zien, naar de experimentatie kant zie ik dus heel veel bijvoorbeeld dingen als MLflow terugkomen.
724
00:42:47,960 --> 00:42:50,160
Natuurlijk Git wordt extreem veel gebruikt.
725
00:42:50,160 --> 00:42:54,460
Gitflows of GitHub Actions heb je ook bijvoorbeeld, dat soort dingen.
726
00:42:54,460 --> 00:43:00,460
Aan de achterkant werken we ook wel samen met aan de monitoring kant,
727
00:43:00,460 --> 00:43:03,260
zie je wat meer proprietary tools die het beter doen.
728
00:43:03,260 --> 00:43:07,540
In Amerika heb je bijvoorbeeld werkzaam, bijvoorbeeld een Arise-achtige.
729
00:43:07,540 --> 00:43:12,580
Ik weet niet of jullie dat kennen, maar dat zit puur op model monitoring...
730
00:43:12,580 --> 00:43:14,000
en allerlei type drift.
731
00:43:14,000 --> 00:43:19,540
En we hebben ook klanten die daar dan een integratie mee maken.
732
00:43:19,540 --> 00:43:22,500
En ik denk dat dat soms ook nog wel een challenge is.
733
00:43:22,500 --> 00:43:27,060
We hebben het hier heel erg over het ML Ops, Machine Learning Operations aspect.
734
00:43:27,060 --> 00:43:30,460
En wij doen niet de totale keten.
735
00:43:30,460 --> 00:43:32,860
En daar is ook altijd een discussie over.
736
00:43:32,880 --> 00:43:34,640
Dus in de communities.
737
00:43:34,640 --> 00:43:36,760
Want er zijn natuurlijk partijen die proberen alles te bouwen,
738
00:43:36,760 --> 00:43:39,800
van A tot Z, en die hele keten gesloten te krijgen.
739
00:43:39,800 --> 00:43:45,560
Maar dan zie je vaak dat er toch hele erg suboptimale componenten in zitten.
740
00:43:45,560 --> 00:43:49,240
Daar waar je ook partijen en open source tools hebben,
741
00:43:49,240 --> 00:43:50,600
die wat meer de best of breed,
742
00:43:50,600 --> 00:43:54,800
dus eigenlijk proberen het beste in het klasje te worden, op dat stukje.
743
00:43:54,800 --> 00:43:58,240
Maar hoe zorg je er dan voor dat dat een natural flow is?
744
00:43:58,240 --> 00:44:02,400
En ik moet zeggen, soms kijk ik wel eens naar architectuurplaatjes,
745
00:44:02,420 --> 00:44:04,420
Dan schrik ik me echt helemaal dood.
746
00:44:04,420 --> 00:44:08,720
Want dan denk ik echt, nou ja, UbiOpps, dat covert het grootste deel.
747
00:44:08,720 --> 00:44:11,780
Maar als je ziet wat erachter of ervoor zit, dat is echt een heel arsenaal.
748
00:44:11,780 --> 00:44:17,920
En ja, dus ik ben daar misschien ook een beetje ongekleurd in.
749
00:44:17,920 --> 00:44:20,520
Maar het is niet zo dat wij zeggen, ja, kies die tool of die tool.
750
00:44:20,520 --> 00:44:24,620
Het is wel zo dat wij ook op onze docspagina hebben we allerlei integraties.
751
00:44:24,620 --> 00:44:29,120
Aan de dataversion kant hebben we bijvoorbeeld ook weer tools als PackyDurm...
752
00:44:29,120 --> 00:44:30,720
en dat soort dingen, misschien was er wel gehoord.
753
00:44:30,740 --> 00:44:35,980
Maar vaak hebben onze type gebruikers daar wel al een idee bij.
754
00:44:35,980 --> 00:44:39,000
Dus, en even terugkomend op maturity.
755
00:44:39,000 --> 00:44:44,740
Ik zie ook bijvoorbeeld wel maturity ontstaan bij techbedrijven op dit moment.
756
00:44:44,740 --> 00:44:48,060
Dus niet alleen de grote corporates waar we het net over hebben gehad,
757
00:44:48,060 --> 00:44:50,100
zoals Unbuyer, fantastische teams, hè.
758
00:44:50,100 --> 00:44:53,380
En die hebben ook echt de mensen en de brainpower.
759
00:44:53,380 --> 00:44:56,300
Maar wij werken ook wel met startups en scale-ups samen,
760
00:44:56,300 --> 00:44:59,580
die daar niet echt voor onder doen, om maar zo te zeggen.
761
00:44:59,600 --> 00:45:01,480
en dat is wel impressive om te zien.
762
00:45:01,480 --> 00:45:08,520
Vaak zijn dat dan wel bedrijven die een volledig AI-product in de markt proberen te zetten
763
00:45:08,520 --> 00:45:10,840
en daar ook een heel bedrijf omheen bouwen.
764
00:45:10,840 --> 00:45:17,160
Maar we zien wel dat dat bedrijven zijn die enorm aan het accelereren zijn,
765
00:45:17,160 --> 00:45:18,760
en soms ook acceleren.
766
00:45:18,760 --> 00:45:25,400
En we zien dat ook aan de researchkant, maar dat zit dan wat meer vaak op training.
767
00:45:25,400 --> 00:45:30,100
Maar ook daar heb je ontzettend goede wetenschappers die...
768
00:45:30,100 --> 00:45:34,180
- Absoluut. En we hebben het geluk dat we in Nederland echt goede universiteiten hebben...
769
00:45:34,180 --> 00:45:36,000
die hier serieus mee bezig zijn.
770
00:45:36,000 --> 00:45:36,520
- Ja.
771
00:45:36,520 --> 00:45:42,420
- Ik had een tijdje terug een Duitse student, die studeerde dan in Amsterdam.
772
00:45:42,420 --> 00:45:44,440
Die kwam bij ons praten.
773
00:45:44,440 --> 00:45:46,060
En daar schrok ik van.
774
00:45:46,060 --> 00:45:51,660
Die zei, ja, in Duitsland hebben we eigenlijk gewoon geen specifieke AI-studies aan de universiteit.
775
00:45:51,660 --> 00:45:53,820
- Ongelofelijk. - Echt mind-blowing, toch?
776
00:45:53,840 --> 00:45:56,280
Hoe kan dat nou in deze tijd nog mogelijk zijn?
777
00:45:56,280 --> 00:45:58,280
Dat we in Nederland nog niet zo ver waren.
778
00:45:58,280 --> 00:46:02,320
Nee, Nederland heeft de reputatie hoog te houden, hoor.
779
00:46:02,320 --> 00:46:04,720
Het gebied van kunstmatige intelligentie, nee zeker.
780
00:46:04,720 --> 00:46:07,920
Ja, dat is echt ongelofelijk.
781
00:46:07,920 --> 00:46:09,920
En een gemiste kans.
782
00:46:09,920 --> 00:46:11,920
Ja.
783
00:46:11,920 --> 00:46:15,920
Ik denk dat je daar wel...
784
00:46:15,920 --> 00:46:19,160
Ik denk dat Nederland daar echt wel in voorop loopt.
785
00:46:19,160 --> 00:46:22,240
En dan is eigenlijk de vraag, hoe zorg je ervoor dat dat talent niet direct wegloopt?
786
00:46:22,240 --> 00:46:24,240
Ja, de vraag is groot.
787
00:46:24,240 --> 00:46:26,240
Ja, de vraag is heel groot.
788
00:46:26,240 --> 00:46:27,240
Zeker, zeker.
789
00:46:27,240 --> 00:46:29,240
Hé Yannick, ik denk, ik heb veel geleerd.
790
00:46:29,240 --> 00:46:30,240
Niels?
791
00:46:30,240 --> 00:46:31,240
Ja, zeker.
792
00:46:31,240 --> 00:46:32,240
Dank je wel.
793
00:46:32,240 --> 00:46:33,240
Ik ook.
794
00:46:33,240 --> 00:46:34,240
Dank jullie ook.
795
00:46:34,240 --> 00:46:35,240
Heel fijn dat je wilde komen.
796
00:46:35,240 --> 00:46:42,240
Ik denk vooral, nou ja, dingen geleerd over schaalbaarheid, dat soort zaken.
797
00:46:42,240 --> 00:46:46,240
Dus, nou, dan sluiten we hierbij af.
798
00:46:46,240 --> 00:46:47,240
Dank je wel.
799
00:46:47,240 --> 00:46:48,240
Dank je wel.
800
00:46:48,240 --> 00:46:52,240
Fijn dat je weer luisterde naar de AI Today Live podcast.
801
00:46:52,240 --> 00:46:54,240
Zorg dat je je abonneert.
802
00:46:54,240 --> 00:46:57,240
Bij Spotify kan je op een belletje drukken.
803
00:46:57,240 --> 00:47:00,240
Bij Apple Music heb je misschien zoiets ook wel.
804
00:47:00,240 --> 00:47:02,240
Daar kijk ik iets te weinig naar.
805
00:47:02,240 --> 00:47:04,240
Nou, vertel het door.
806
00:47:04,240 --> 00:47:09,240
Volg de socials om op de up-to-date te blijven.
807
00:47:09,240 --> 00:47:11,240
Berichtjes spammen we er graag op.
808
00:47:11,240 --> 00:47:13,240
Dus volg ons en abonneer je.
809
00:47:13,240 --> 00:47:15,240
Oké, tot de volgende keer.
810
00:47:15,240 --> 00:47:19,240
[Muziek]