1
00:00:00,001 --> 00:00:04,480
Hoi, welkom bij een nieuwe aflevering van AIToday Live.
2
00:00:04,480 --> 00:00:09,000
In deze korte aflevering vandaag gaan we het hebben over een onderwerp dat steeds meer
3
00:00:09,000 --> 00:00:10,000
aandacht krijgt.
4
00:00:10,000 --> 00:00:14,880
Namelijk de vraag of leveranciers van Large Language Models (LLM's) als open source moeten
5
00:00:14,880 --> 00:00:20,400
worden aangemerkt om strengere regelgeving van de nieuwe EU-AI Act te ontzeilen.
6
00:00:20,400 --> 00:00:25,400
Want dit zou hen kunnen helpen om veel geld en gedoe te besparen.
7
00:00:25,400 --> 00:00:28,920
Maar is dat echt zo eenvoudig?
8
00:00:28,920 --> 00:00:35,100
Onderzoek van de Radboud Universiteit laat weinig heel van die open source claims van
9
00:00:35,100 --> 00:00:36,100
bekende modellen.
10
00:00:36,100 --> 00:00:41,120
Bij open source denken de meeste mensen aan gratis software die je kunt downloaden en
11
00:00:41,120 --> 00:00:42,120
gebruiken.
12
00:00:42,120 --> 00:00:44,000
Maar het concept gaat veel dieper.
13
00:00:44,000 --> 00:00:48,680
Open source betekent dat je toegang hebt tot de broncode en deze kunt aanpassen.
14
00:00:48,680 --> 00:00:53,440
Dit verhoogt de transparantie en betrouwbaarheid omdat je precies kunt zien hoe iets werkt.
15
00:00:53,440 --> 00:01:00,880
Maar goed, in de wereld van kunstmatige intelligentie wordt de term open source ook vaak gebruikt.
16
00:01:00,880 --> 00:01:02,360
Maar hier ligt het toch wel anders.
17
00:01:02,360 --> 00:01:06,200
Bij AI gaat het niet alleen om de broncode.
18
00:01:06,200 --> 00:01:13,120
Je hebt ook inzicht nodig in de data waarop het model is getraind, de berekende gewichten
19
00:01:13,120 --> 00:01:15,840
en de nabewerkingen die zijn uitgevoerd.
20
00:01:15,840 --> 00:01:18,760
Dat geheel maakt uiteindelijk een model.
21
00:01:18,760 --> 00:01:29,120
Het onderzoek van het Radboud heeft 14 karakter-eigenschappen geïdentificeerd om aan te geven hoe open
22
00:01:29,120 --> 00:01:31,120
een model echt is.
23
00:01:31,120 --> 00:01:37,160
En nogmaals, het fundamentele probleem is dat een AI-model meer is dan alleen code.
24
00:01:37,160 --> 00:01:39,680
Daarom dat ze die 14 hebben gepakt.
25
00:01:39,680 --> 00:01:47,360
Zo'n AI-model is getraind op enorm hoeveelheden data en bevat ontelbare parameters.
26
00:01:47,360 --> 00:01:52,760
Zelfs als een model als open source wordt gelabeld, betekent dit niet automatisch dat
27
00:01:52,760 --> 00:01:54,800
het volledig transparant is.
28
00:01:54,800 --> 00:01:59,600
De onderzoekers hebben aangetoond dat slechts een klein deel van de zogenaamde open source
29
00:01:59,600 --> 00:02:02,200
modellen echt volledig open is.
30
00:02:02,200 --> 00:02:03,960
Laten we een voorbeeld nemen.
31
00:02:03,960 --> 00:02:10,680
Een van de meer bekendere, tussen aanhalingstekens open source modellen, is het Franse Mistral7B.
32
00:02:10,680 --> 00:02:14,480
Sorry voor de moeilijke namen, die verzinnen ze allemaal.
33
00:02:14,480 --> 00:02:15,720
Ik heb ze niet verzonnen.
34
00:02:15,720 --> 00:02:18,880
Het Franse Mistral7B.
35
00:02:18,880 --> 00:02:26,520
Het enige wat ze open hebben gemaakt, is dat je het model kan downloaden en zelf lokaal
36
00:02:26,520 --> 00:02:27,520
kan draaien.
37
00:02:27,520 --> 00:02:34,520
Het is een getraind model met toegang tot de programmeertaal, maar je hebt geen idee op
38
00:02:34,520 --> 00:02:36,760
basis van welke data er getraind is.
39
00:02:36,760 --> 00:02:40,360
Van die 14 karakteristieken zijn er een hele hoop gesloten.
40
00:02:40,360 --> 00:02:44,960
In Nederland hebben we trouwens ook een open source model, genaamd GEITje.
41
00:02:44,960 --> 00:02:46,760
Een grappige naam toch?
42
00:02:46,760 --> 00:02:48,800
GEIT met hoofdletters en je,
43
00:02:48,800 --> 00:02:50,280
Met kleine letters.
44
00:02:50,280 --> 00:02:51,280
GEITje.
45
00:02:51,280 --> 00:02:52,680
En dat is een geweldig initiatief.
46
00:02:52,680 --> 00:03:01,160
Maar omdat het gebouwd is bovenop deze Mistral7B modellen, en wel getraind op 10 miljard tokens
47
00:03:01,160 --> 00:03:08,480
en Nederlandse tekst, blijft het, dat hoewel dan die bovenliggende lagen van Geitje open
48
00:03:08,480 --> 00:03:12,880
source zijn, dus daar kan je ook echt de data van inzien en dat soort dingen, is dat dus
49
00:03:12,880 --> 00:03:14,200
in de basis niet.
50
00:03:14,200 --> 00:03:18,640
Omdat het dus bovenop Mistral7B getraind is.
51
00:03:18,640 --> 00:03:22,800
Dat betekent dat er nog steeds een gebrek aan volledige transparantie is.
52
00:03:22,800 --> 00:03:27,920
En dat maakt het controleren van deze claims behoorlijk lastig.
53
00:03:27,920 --> 00:03:33,040
Daarnaast is er een groeiende trend van wat we open washing noemen.
54
00:03:33,040 --> 00:03:36,760
Net als wat je met de greenwashing hebt.
55
00:03:36,760 --> 00:03:42,920
Het open washing houdt in dat bedrijven beweren open source te zijn zonder daadwerkelijk volledige
56
00:03:42,920 --> 00:03:44,640
transparantie te bieden.
57
00:03:44,640 --> 00:03:50,640
Ze publiceren bijvoorbeeld een blogpost waarin ze hun model zelf als open source bestempelen
58
00:03:50,640 --> 00:03:54,600
maar bieden geen volledige toegang tot de data of de training methodologie.
59
00:03:54,600 --> 00:03:59,440
Dit kan best verwarrend zijn en de wetenschappelijke integriteit ondermijnen.
60
00:03:59,440 --> 00:04:04,840
Een opvallend voorbeeld is OpenIR's JGPT, kennen we allemaal.
61
00:04:04,840 --> 00:04:11,520
Oorspronkelijk opgericht met als ideologie van juist vanuit de open source.
62
00:04:11,520 --> 00:04:14,960
Maar nu is het model zo gesloten als een oester.
63
00:04:14,960 --> 00:04:21,760
Van de 40 onderzochte modellen hebben slechts 2 een wetenschappelijk paper beschikbaar
64
00:04:21,760 --> 00:04:27,160
gesteld en JGPT is de meest gesloten van deze allemaal.
65
00:04:27,160 --> 00:04:36,120
Minder dan de helft van de 40 onderzochte modellen heeft de broncode open source gemaakt en slechts
66
00:04:36,120 --> 00:04:39,920
een kwart is open over de data waarmee ze zijn getraind.
67
00:04:39,920 --> 00:04:48,640
De EU AI Act die naar verwachting in 2026 van kracht gaat stelt strenge eisen aan AI
68
00:04:48,640 --> 00:04:50,600
modellen die als hoog risico worden beschouwd.
69
00:04:50,600 --> 00:04:56,920
Leveranciers van large language models zoals OpenAI, Google, Meta, HuggingFace moeten dan
70
00:04:56,920 --> 00:05:01,800
transparant zijn over hun data, trainingsmethode en het energieverbruik van de modellen.
71
00:05:01,800 --> 00:05:08,520
De Act, de wet, vereist ook dat deze leveranciers risico's identificeren en beperken.
72
00:05:08,520 --> 00:05:14,120
Dat betekent dat het niet naleven van deze verplichtingen kan leiden tot hoge boetes.
73
00:05:14,120 --> 00:05:19,720
En dan is duidelijk dat het term open source binnen de context van AI niet altijd betekent
74
00:05:19,720 --> 00:05:25,400
wat we denken en dat dat dus grote betekenis kan hebben ten opzichte van die wet.
75
00:05:25,400 --> 00:05:30,960
Dus terwijl open source software in de traditionele zin eenvoudig te begrijpen en te controleren
76
00:05:30,960 --> 00:05:35,560
is, brengt de complexiteit van AI modellen juist nieuwe uitdagingen met zich mee.
77
00:05:35,560 --> 00:05:40,480
Zelfs als bedrijven beweren open source te zijn, is het vaak onmogelijk om de volledige
78
00:05:40,480 --> 00:05:45,760
reproduceerbaarheid van een model te garanderen zonder enorme middelen.
79
00:05:45,760 --> 00:05:53,240
Het trainen van dit soort modellen vergt zoveel rekenkracht, energie, dat het maar de vraag
80
00:05:53,240 --> 00:05:54,840
is wie dat kan controleren.
81
00:05:54,840 --> 00:06:01,440
Wat betekent dit dan voor de toekomst van open source modellen?
82
00:06:01,440 --> 00:06:05,880
Ik denk dat we naar een situatie gaan waar de term open source wellicht opnieuw moet
83
00:06:05,880 --> 00:06:11,240
worden geïdentificeerd of waar nieuwe termen worden geïntroduceerd die de mate van openheid
84
00:06:11,240 --> 00:06:14,760
en transparantie van AI modellen juist beter weergeven.
85
00:06:14,760 --> 00:06:20,640
Tot die tijd is het wel cruciaal dat we kritisch blijven kijken naar de claims van bedrijven
86
00:06:20,640 --> 00:06:24,280
en streven naar echte transparantie en verantwoordelijke AI.
87
00:06:24,280 --> 00:06:31,280
De onderzoekers benadrukken trouwens de betekenisvolle bijdrage van kleinere spelers en juist niet
88
00:06:31,280 --> 00:06:32,520
commerciële producenten.
89
00:06:32,520 --> 00:06:38,120
Dit zijn verborgen kampioenen in de wereld van de generatieve AI.
90
00:06:38,120 --> 00:06:44,640
En dat zijn juist de plekken waar de vooruitgang richting meer open systemen het meest waarschijnlijk
91
00:06:44,640 --> 00:06:45,640
is.
92
00:06:45,640 --> 00:06:52,160
En het vervelende is, ik heb het al eens eerder gehad over de giftigheid van benchmarks rondom
93
00:06:52,160 --> 00:06:57,160
AI modellen en de logica van 'groter is altijd beter'.
94
00:06:57,160 --> 00:07:04,240
Als het daar nou is van afstappen kunnen deze kleine maar open modellen net zo nuttig zijn
95
00:07:04,240 --> 00:07:05,600
voor heel veel eindgebruikers.
96
00:07:05,600 --> 00:07:10,240
Gewone use cases vereisen vaak helemaal niet die gigantische modellen.
97
00:07:10,240 --> 00:07:13,480
Dankjewel weer voor het luisteren.
98
00:07:13,480 --> 00:07:17,960
Vergeet je niet te abonneren via je favoriete podcast app en blijf op de hoogte van de laatste
99
00:07:17,960 --> 00:07:19,920
ontwikkelingen in de wereld van AI.
100
00:07:19,920 --> 00:07:21,000
Tot de volgende keer!
101
00:07:21,000 --> 00:07:26,000
[Muziek]
102
00:07:26,000 --> 00:07:28,000
[Muziek]