S06E54 - De waarheid achter open source AI-modellen

In deze aflevering van AIToday Live staat de vraag centraal of leveranciers van Large Language Models (LLM's) deze als open source moeten classificeren om regelgeving van de nieuwe EU-AI Act te omzeilen. Een onderzoek van de Radboud Universiteit onthult de complexiteit achter de open source claims van bekende AI-modellen, waarbij de definitie van openheid in de context van AI onder de loep wordt genomen.

Met voorbeelden zoals het Franse Mistral7B en het Nederlandse GEITje, wordt de uitdaging rondom transparantie en de zogenaamde 'open washing' praktijken belicht. De aflevering verkent de implicaties van de EU AI Act en de noodzaak voor een herdefiniëring van open source binnen de AI-sector, met een blik op de rol van kleinere, niet-commerciële spelers in de ontwikkeling van verantwoordelijke en transparante AI.

Links

Onderzoek: Radboud Universiteit onderzoek naar open source claims (https://dl.acm.org/doi/10.1145/3630106.3659005)
Model: Mistral7B (https://mistral.ai/news/announcing-mistral-7b/)
Model: GEITje (https://github.com/Rijgersberg/GEITje/blob/)

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:00,001 --> 00:00:04,480
Hoi, welkom bij een nieuwe aflevering van AIToday Live.

2
00:00:04,480 --> 00:00:09,000
In deze korte aflevering vandaag gaan we het hebben over een onderwerp dat steeds meer

3
00:00:09,000 --> 00:00:10,000
aandacht krijgt.

4
00:00:10,000 --> 00:00:14,880
Namelijk de vraag of leveranciers van Large Language Models (LLM's) als open source moeten

5
00:00:14,880 --> 00:00:20,400
worden aangemerkt om strengere regelgeving van de nieuwe EU-AI Act te ontzeilen.

6
00:00:20,400 --> 00:00:25,400
Want dit zou hen kunnen helpen om veel geld en gedoe te besparen.

7
00:00:25,400 --> 00:00:28,920
Maar is dat echt zo eenvoudig?

8
00:00:28,920 --> 00:00:35,100
Onderzoek van de Radboud Universiteit laat weinig heel van die open source claims van

9
00:00:35,100 --> 00:00:36,100
bekende modellen.

10
00:00:36,100 --> 00:00:41,120
Bij open source denken de meeste mensen aan gratis software die je kunt downloaden en

11
00:00:41,120 --> 00:00:42,120
gebruiken.

12
00:00:42,120 --> 00:00:44,000
Maar het concept gaat veel dieper.

13
00:00:44,000 --> 00:00:48,680
Open source betekent dat je toegang hebt tot de broncode en deze kunt aanpassen.

14
00:00:48,680 --> 00:00:53,440
Dit verhoogt de transparantie en betrouwbaarheid omdat je precies kunt zien hoe iets werkt.

15
00:00:53,440 --> 00:01:00,880
Maar goed, in de wereld van kunstmatige intelligentie wordt de term open source ook vaak gebruikt.

16
00:01:00,880 --> 00:01:02,360
Maar hier ligt het toch wel anders.

17
00:01:02,360 --> 00:01:06,200
Bij AI gaat het niet alleen om de broncode.

18
00:01:06,200 --> 00:01:13,120
Je hebt ook inzicht nodig in de data waarop het model is getraind, de berekende gewichten

19
00:01:13,120 --> 00:01:15,840
en de nabewerkingen die zijn uitgevoerd.

20
00:01:15,840 --> 00:01:18,760
Dat geheel maakt uiteindelijk een model.

21
00:01:18,760 --> 00:01:29,120
Het onderzoek van het Radboud heeft 14 karakter-eigenschappen geïdentificeerd om aan te geven hoe open

22
00:01:29,120 --> 00:01:31,120
een model echt is.

23
00:01:31,120 --> 00:01:37,160
En nogmaals, het fundamentele probleem is dat een AI-model meer is dan alleen code.

24
00:01:37,160 --> 00:01:39,680
Daarom dat ze die 14 hebben gepakt.

25
00:01:39,680 --> 00:01:47,360
Zo'n AI-model is getraind op enorm hoeveelheden data en bevat ontelbare parameters.

26
00:01:47,360 --> 00:01:52,760
Zelfs als een model als open source wordt gelabeld, betekent dit niet automatisch dat

27
00:01:52,760 --> 00:01:54,800
het volledig transparant is.

28
00:01:54,800 --> 00:01:59,600
De onderzoekers hebben aangetoond dat slechts een klein deel van de zogenaamde open source

29
00:01:59,600 --> 00:02:02,200
modellen echt volledig open is.

30
00:02:02,200 --> 00:02:03,960
Laten we een voorbeeld nemen.

31
00:02:03,960 --> 00:02:10,680
Een van de meer bekendere, tussen aanhalingstekens open source modellen, is het Franse Mistral7B.

32
00:02:10,680 --> 00:02:14,480
Sorry voor de moeilijke namen, die verzinnen ze allemaal.

33
00:02:14,480 --> 00:02:15,720
Ik heb ze niet verzonnen.

34
00:02:15,720 --> 00:02:18,880
Het Franse Mistral7B.

35
00:02:18,880 --> 00:02:26,520
Het enige wat ze open hebben gemaakt, is dat je het model kan downloaden en zelf lokaal

36
00:02:26,520 --> 00:02:27,520
kan draaien.

37
00:02:27,520 --> 00:02:34,520
Het is een getraind model met toegang tot de programmeertaal, maar je hebt geen idee op

38
00:02:34,520 --> 00:02:36,760
basis van welke data er getraind is.

39
00:02:36,760 --> 00:02:40,360
Van die 14 karakteristieken zijn er een hele hoop gesloten.

40
00:02:40,360 --> 00:02:44,960
In Nederland hebben we trouwens ook een open source model, genaamd GEITje.

41
00:02:44,960 --> 00:02:46,760
Een grappige naam toch?

42
00:02:46,760 --> 00:02:48,800
GEIT met hoofdletters en je,

43
00:02:48,800 --> 00:02:50,280
Met kleine letters.

44
00:02:50,280 --> 00:02:51,280
GEITje.

45
00:02:51,280 --> 00:02:52,680
En dat is een geweldig initiatief.

46
00:02:52,680 --> 00:03:01,160
Maar omdat het gebouwd is bovenop deze Mistral7B modellen, en wel getraind op 10 miljard tokens

47
00:03:01,160 --> 00:03:08,480
en Nederlandse tekst, blijft het, dat hoewel dan die bovenliggende lagen van Geitje open

48
00:03:08,480 --> 00:03:12,880
source zijn, dus daar kan je ook echt de data van inzien en dat soort dingen, is dat dus

49
00:03:12,880 --> 00:03:14,200
in de basis niet.

50
00:03:14,200 --> 00:03:18,640
Omdat het dus bovenop Mistral7B getraind is.

51
00:03:18,640 --> 00:03:22,800
Dat betekent dat er nog steeds een gebrek aan volledige transparantie is.

52
00:03:22,800 --> 00:03:27,920
En dat maakt het controleren van deze claims behoorlijk lastig.

53
00:03:27,920 --> 00:03:33,040
Daarnaast is er een groeiende trend van wat we open washing noemen.

54
00:03:33,040 --> 00:03:36,760
Net als wat je met de greenwashing hebt.

55
00:03:36,760 --> 00:03:42,920
Het open washing houdt in dat bedrijven beweren open source te zijn zonder daadwerkelijk volledige

56
00:03:42,920 --> 00:03:44,640
transparantie te bieden.

57
00:03:44,640 --> 00:03:50,640
Ze publiceren bijvoorbeeld een blogpost waarin ze hun model zelf als open source bestempelen

58
00:03:50,640 --> 00:03:54,600
maar bieden geen volledige toegang tot de data of de training methodologie.

59
00:03:54,600 --> 00:03:59,440
Dit kan best verwarrend zijn en de wetenschappelijke integriteit ondermijnen.

60
00:03:59,440 --> 00:04:04,840
Een opvallend voorbeeld is OpenIR's JGPT, kennen we allemaal.

61
00:04:04,840 --> 00:04:11,520
Oorspronkelijk opgericht met als ideologie van juist vanuit de open source.

62
00:04:11,520 --> 00:04:14,960
Maar nu is het model zo gesloten als een oester.

63
00:04:14,960 --> 00:04:21,760
Van de 40 onderzochte modellen hebben slechts 2 een wetenschappelijk paper beschikbaar

64
00:04:21,760 --> 00:04:27,160
gesteld en JGPT is de meest gesloten van deze allemaal.

65
00:04:27,160 --> 00:04:36,120
Minder dan de helft van de 40 onderzochte modellen heeft de broncode open source gemaakt en slechts

66
00:04:36,120 --> 00:04:39,920
een kwart is open over de data waarmee ze zijn getraind.

67
00:04:39,920 --> 00:04:48,640
De EU AI Act die naar verwachting in 2026 van kracht gaat stelt strenge eisen aan AI

68
00:04:48,640 --> 00:04:50,600
modellen die als hoog risico worden beschouwd.

69
00:04:50,600 --> 00:04:56,920
Leveranciers van large language models zoals OpenAI, Google, Meta, HuggingFace moeten dan

70
00:04:56,920 --> 00:05:01,800
transparant zijn over hun data, trainingsmethode en het energieverbruik van de modellen.

71
00:05:01,800 --> 00:05:08,520
De Act, de wet, vereist ook dat deze leveranciers risico's identificeren en beperken.

72
00:05:08,520 --> 00:05:14,120
Dat betekent dat het niet naleven van deze verplichtingen kan leiden tot hoge boetes.

73
00:05:14,120 --> 00:05:19,720
En dan is duidelijk dat het term open source binnen de context van AI niet altijd betekent

74
00:05:19,720 --> 00:05:25,400
wat we denken en dat dat dus grote betekenis kan hebben ten opzichte van die wet.

75
00:05:25,400 --> 00:05:30,960
Dus terwijl open source software in de traditionele zin eenvoudig te begrijpen en te controleren

76
00:05:30,960 --> 00:05:35,560
is, brengt de complexiteit van AI modellen juist nieuwe uitdagingen met zich mee.

77
00:05:35,560 --> 00:05:40,480
Zelfs als bedrijven beweren open source te zijn, is het vaak onmogelijk om de volledige

78
00:05:40,480 --> 00:05:45,760
reproduceerbaarheid van een model te garanderen zonder enorme middelen.

79
00:05:45,760 --> 00:05:53,240
Het trainen van dit soort modellen vergt zoveel rekenkracht, energie, dat het maar de vraag

80
00:05:53,240 --> 00:05:54,840
is wie dat kan controleren.

81
00:05:54,840 --> 00:06:01,440
Wat betekent dit dan voor de toekomst van open source modellen?

82
00:06:01,440 --> 00:06:05,880
Ik denk dat we naar een situatie gaan waar de term open source wellicht opnieuw moet

83
00:06:05,880 --> 00:06:11,240
worden geïdentificeerd of waar nieuwe termen worden geïntroduceerd die de mate van openheid

84
00:06:11,240 --> 00:06:14,760
en transparantie van AI modellen juist beter weergeven.

85
00:06:14,760 --> 00:06:20,640
Tot die tijd is het wel cruciaal dat we kritisch blijven kijken naar de claims van bedrijven

86
00:06:20,640 --> 00:06:24,280
en streven naar echte transparantie en verantwoordelijke AI.

87
00:06:24,280 --> 00:06:31,280
De onderzoekers benadrukken trouwens de betekenisvolle bijdrage van kleinere spelers en juist niet

88
00:06:31,280 --> 00:06:32,520
commerciële producenten.

89
00:06:32,520 --> 00:06:38,120
Dit zijn verborgen kampioenen in de wereld van de generatieve AI.

90
00:06:38,120 --> 00:06:44,640
En dat zijn juist de plekken waar de vooruitgang richting meer open systemen het meest waarschijnlijk

91
00:06:44,640 --> 00:06:45,640
is.

92
00:06:45,640 --> 00:06:52,160
En het vervelende is, ik heb het al eens eerder gehad over de giftigheid van benchmarks rondom

93
00:06:52,160 --> 00:06:57,160
AI modellen en de logica van 'groter is altijd beter'.

94
00:06:57,160 --> 00:07:04,240
Als het daar nou is van afstappen kunnen deze kleine maar open modellen net zo nuttig zijn

95
00:07:04,240 --> 00:07:05,600
voor heel veel eindgebruikers.

96
00:07:05,600 --> 00:07:10,240
Gewone use cases vereisen vaak helemaal niet die gigantische modellen.

97
00:07:10,240 --> 00:07:13,480
Dankjewel weer voor het luisteren.

98
00:07:13,480 --> 00:07:17,960
Vergeet je niet te abonneren via je favoriete podcast app en blijf op de hoogte van de laatste

99
00:07:17,960 --> 00:07:19,920
ontwikkelingen in de wereld van AI.

100
00:07:19,920 --> 00:07:21,000
Tot de volgende keer!

101
00:07:21,000 --> 00:07:26,000
[Muziek]

102
00:07:26,000 --> 00:07:28,000
[Muziek]

AIToday Live

S06E54 - De waarheid achter open source AI-modellen

Listen to this podcast on