1
00:00:00,000 --> 00:00:05,560
Wat mij betreft zeggen we vaarwel tegen de tijden waarin groter altijd beter was in
2
00:00:05,560 --> 00:00:07,080
de wereld van grote taalmodellen.
3
00:00:07,080 --> 00:00:12,720
Terwijl we nog steeds reikhalzend uitkijken naar de volgende generatie van de GPT's,
4
00:00:12,720 --> 00:00:17,880
broeit er een stele revolutie die onze aanpak van AI fundamenteel zal veranderen.
5
00:00:17,880 --> 00:00:18,880
Hoe?
6
00:00:18,880 --> 00:00:23,000
Dat hoor je in deze korte aflevering van AIToday Live.
7
00:00:23,000 --> 00:00:26,040
Mijn naam, Joop Snijder, CTO bij Aigency.
8
00:00:26,040 --> 00:00:38,080
Sinds november 2022, toen we ChatGPT zagen, hebben we een spectaculaire groei gezien in
9
00:00:38,080 --> 00:00:39,600
de ontwikkeling van taalmodellen.
10
00:00:39,600 --> 00:00:47,840
Namen als GPT-4, Google Gemini en Anthropic symboliseren een wedloop naar steeds grotere
11
00:00:47,840 --> 00:00:48,840
capaciteiten.
12
00:00:48,840 --> 00:00:55,000
Eerst waren we al tevreden met een context van 4 tokens, vergelijkbaar met het korte
13
00:00:55,000 --> 00:00:59,240
termijngeheugen van een model dat de kern van onze dialoog bijhoudt.
14
00:00:59,240 --> 00:01:06,600
Nu zien we een sprong naar 128k, soms wordt er gesproken over 1 miljoen tokens, het wordt
15
00:01:06,600 --> 00:01:08,640
maar groter, groter, groter.
16
00:01:08,640 --> 00:01:15,320
Parallel aan deze groei is de capaciteit van de modellen zelf ook exponentieel toegenomen.
17
00:01:15,320 --> 00:01:22,200
De miljarden parameters waarover we nu beschikken waren ondenkbaar in de eerste dagen van deze
18
00:01:22,200 --> 00:01:23,200
technologie.
19
00:01:23,200 --> 00:01:31,760
Op social media wordt al reikhalzend uitgekeken naar de onthulling van GPT-5 waarvan de verwachtingen
20
00:01:31,760 --> 00:01:34,560
torenhoog zijn.
21
00:01:34,560 --> 00:01:42,240
Ik verwacht dat deze trend van groot, groot, groot nog wel even zal aanhouden, maar deze
22
00:01:42,240 --> 00:01:43,960
race zal niet eindeloos doorgaan.
23
00:01:43,960 --> 00:01:45,920
Waarom denk ik dat?
24
00:01:45,920 --> 00:01:49,080
Omdat de wetenschap ons een blik in de toekomst biedt.
25
00:01:49,080 --> 00:01:55,760
De focus verschuift namelijk naar het ontwikkelen van kleinere, krachtigere modellen die zowel
26
00:01:55,760 --> 00:01:58,360
energiezuiniger als goedkoper zijn.
27
00:01:58,360 --> 00:02:05,280
Misschien denk je, dat klinkt tegenstrijdig, maar ik zal het uitleggen waarom dit een logische
28
00:02:05,280 --> 00:02:06,280
evolutie is.
29
00:02:06,280 --> 00:02:14,480
Namelijk, de noodzaak om operationele kosten te verlagen binnen de wereld van grote taalmodellen
30
00:02:14,480 --> 00:02:15,880
wordt steeds urgenter.
31
00:02:15,880 --> 00:02:22,120
Deze kosten zijn vaak hoog, moeilijk te voorspellen, wat de onderbouwing van de business cases
32
00:02:22,120 --> 00:02:24,600
juist zo kan ondermijnen.
33
00:02:24,600 --> 00:02:31,680
Naarmate taalmodellen groter en complexer worden, nemen de bijbehorende kosten evenredig
34
00:02:31,680 --> 00:02:32,680
toe.
35
00:02:32,680 --> 00:02:34,200
Tenminste, dat zien we tot nu toe.
36
00:02:34,200 --> 00:02:41,080
Want het meest geavanceerde model van openAI is momenteel maar liefst 80 keer duurder dan
37
00:02:41,080 --> 00:02:42,080
het instapmodel.
38
00:02:42,080 --> 00:02:47,800
Het reduceren van deze kosten is dus cruciaal, niet alleen om de technologie toegankelijk
39
00:02:47,800 --> 00:02:52,360
te maken, maar ook om de duurzame groei in de toekomst te waarborgen.
40
00:02:52,360 --> 00:02:59,560
Vandaag licht ik drie richtingen uit waarbij we zien dat er een beweging komt naar efficiëntie
41
00:02:59,560 --> 00:03:00,560
en verkleining.
42
00:03:00,560 --> 00:03:05,000
Het eerste is het efficiënte omgaan met tokens.
43
00:03:05,000 --> 00:03:09,440
Tokens is het afrekenmodel van alle grote taalmodellen.
44
00:03:09,440 --> 00:03:19,160
Hoe meer tokens je gebruikt, zowel wat je in een model stopt als eruit, daar betaal je
45
00:03:19,160 --> 00:03:20,160
voor.
46
00:03:20,160 --> 00:03:27,720
Zo heeft Microsoft software ontwikkeld waarmee een prompt 5 keer kleiner kan worden gemaakt
47
00:03:27,720 --> 00:03:33,080
door irrelevante woorden te verwijderen uit de prompt voordat deze naar het taalmodel
48
00:03:33,080 --> 00:03:34,080
wordt gestuurd.
49
00:03:34,080 --> 00:03:39,560
Dit verlaagt de kosten van de inputtokens aanzienlijk wat een groot verschil maakt in
50
00:03:39,560 --> 00:03:40,880
die operationele kosten.
51
00:03:40,880 --> 00:03:47,120
We zien ook steeds meer populariteit rondom RAG-systems.
52
00:03:47,120 --> 00:03:53,440
Dat is uiteindelijk ook een vorm waarbij je het helpt om de operationele kosten naar beneden
53
00:03:53,440 --> 00:03:56,240
te krijgen, in ieder geval qua tokens.
54
00:03:56,240 --> 00:04:02,760
In zo'n rack system combineer je zoeken en taalmodellen met elkaar.
55
00:04:02,760 --> 00:04:08,440
Dat systeem zorgt met de documenten die erin zitten voor een soort van lange termijn geheugen
56
00:04:08,440 --> 00:04:11,600
dat wordt aangesproken in zo'n dialoog.
57
00:04:11,600 --> 00:04:18,320
Wanneer nodig in die dialoog wordt namelijk eerst gezocht in het lange termijn geheugen.
58
00:04:18,320 --> 00:04:20,440
Dat zoeken is relatief goedkoop.
59
00:04:20,440 --> 00:04:26,240
En alleen de relevante informatie wordt dan met het taalmodel omgezet in een antwoord.
60
00:04:26,240 --> 00:04:28,400
Het rekenen aan het antwoord wordt zo goedkoper.
61
00:04:28,400 --> 00:04:36,520
De tweede richting die we zien is het kunnen hosten van een taalmodel op je eigen hardware.
62
00:04:36,520 --> 00:04:43,720
Daarvoor is al een techniek ontwikkeld en die heet quantization.
63
00:04:43,720 --> 00:04:50,360
Moeilijk woord, maar die quantization maakt het mogelijk om modellen in eigen datacenters
64
00:04:50,360 --> 00:04:51,360
te draaien.
65
00:04:51,360 --> 00:04:58,960
Die quantization is een techniek die is vergelijkbaar met het comprimeren van foto's naar jpeg formaat.
66
00:04:58,960 --> 00:05:06,560
Waarbij je een 24 megapixel foto zoveel kleiner maakt dat deze minder ruimte inneemt zonder
67
00:05:06,560 --> 00:05:08,160
dat het beeld eronder leidt.
68
00:05:08,160 --> 00:05:10,480
Je ziet in principe niet het verschil.
69
00:05:10,480 --> 00:05:13,680
Datzelfde kan gedaan worden met een taalmodel.
70
00:05:13,680 --> 00:05:15,320
Dat heet dan die quantization.
71
00:05:15,320 --> 00:05:22,840
Een taalmodel dat normaal met 32 bits berekeningen rekent.
72
00:05:22,840 --> 00:05:23,840
Een moeilijke zin.
73
00:05:23,840 --> 00:05:30,560
Die 32 bits voor berekeningen gebruikt kan worden teruggebracht naar 4 bits berekeningen.
74
00:05:30,560 --> 00:05:38,160
Klinkt heel technisch, maar betekent dat zo'n taalmodel tot wel 75 tot 85 procent kleiner
75
00:05:38,160 --> 00:05:39,160
kan worden gemaakt.
76
00:05:39,160 --> 00:05:40,640
Dus een omvang.
77
00:05:40,640 --> 00:05:46,440
Maar niet alleen een omvang, maar ook in de rekenkracht die die nodig heeft.
78
00:05:46,440 --> 00:05:49,600
Uiteraard met een trade-off tussen precisie en grootte.
79
00:05:49,600 --> 00:05:55,400
Maar de wetenschap en zelfs in de praktijk laat het zien dat deze modellen, die gecomprimeerde
80
00:05:55,400 --> 00:05:58,960
modellen, nog zeer goed werken.
81
00:05:58,960 --> 00:06:09,400
En daarmee biedt deze form, deze gecomprimeerde modellen, unieke mogelijkheden.
82
00:06:09,400 --> 00:06:14,640
Omdat ze minder ruimte in beslag nemen en minder rekenkracht nodig hebben, kun je ze
83
00:06:14,640 --> 00:06:16,920
bijvoorbeeld hosten op je eigen hardware.
84
00:06:16,920 --> 00:06:22,480
Het wordt daarmee zelfs mogelijk om krachtige large language models op mobiele apparaten
85
00:06:22,480 --> 00:06:23,480
te draaien.
86
00:06:23,480 --> 00:06:29,040
Zo heeft Apple afgelopen maand 8 van dit soort modellen open source beschikbaar gesteld.
87
00:06:29,040 --> 00:06:34,000
En komen deze modellen ook in de nieuwste iOS versie.
88
00:06:34,000 --> 00:06:36,920
En dan zijn je denken, waarom 8?
89
00:06:36,920 --> 00:06:38,480
En waarom 8 modellen?
90
00:06:38,480 --> 00:06:45,400
Dat heeft te maken met het volgende laatste punt, namelijk specialisatie met kleinere
91
00:06:45,400 --> 00:06:46,400
modellen.
92
00:06:46,400 --> 00:06:52,480
Dus door kleinere modellen te trainen combineer je het beste van twee werelden.
93
00:06:52,480 --> 00:06:58,360
Zo'n kleine model kan een specifieke taak extreem goed uitvoeren en kan daardoor kleiner
94
00:06:58,360 --> 00:07:04,160
blijven terwijl het toch de algemene kennis van een groot taalmodel gebruikt om getraind
95
00:07:04,160 --> 00:07:05,520
te worden tot expert.
96
00:07:05,520 --> 00:07:08,800
Het uiteindelijke model is dus veel kleiner.
97
00:07:08,800 --> 00:07:10,680
En kan veel minder.
98
00:07:10,680 --> 00:07:12,040
Het kan veel minder.
99
00:07:12,040 --> 00:07:17,360
Dit betekent dat zowel het hosten van het model als het berekenen van de antwoorden veel goed
100
00:07:17,360 --> 00:07:18,360
koper worden.
101
00:07:18,360 --> 00:07:22,560
Dat zijn de drie die ik eruit wilde lichten.
102
00:07:22,560 --> 00:07:26,560
En weet je, ons hoofd zal de aankomende tijd echt op hol worden gebracht door de producenten
103
00:07:26,560 --> 00:07:27,560
van grote taalmodellen.
104
00:07:27,560 --> 00:07:29,840
Met meer, groter, beter.
105
00:07:29,840 --> 00:07:33,720
Maar meer, groter, beter betekent automatisch ook duurder.
106
00:07:33,720 --> 00:07:40,240
Dus zal er een tegenkracht komen van het goedkoper en toegankelijker maken van modellen.
107
00:07:40,240 --> 00:07:42,640
Dat zal niet lang op zich laten wachten.
108
00:07:42,640 --> 00:07:48,960
Dankjewel voor het luisteren naar deze korte aflevering van AIToday.
109
00:07:48,960 --> 00:07:53,400
Vergeet je niet te abonneren via je favoriete podcast app en mis geen aflevering.
110
00:07:53,400 --> 00:07:54,400
Tot de volgende!
111
00:07:54,400 --> 00:07:54,400
[Muziek]
112
00:07:55,400 --> 00:07:58,400
[Muziek]
113
00:07:58,400 --> 00:08:00,400
[Muziek]
114
00:08:00,400 --> 00:08:23,200
[Muziek]