AIToday Live
AIToday Live is een boeiende Nederlandstalige podcast voor iedereen die geïnteresseerd is in de wereld van kunstmatige intelligentie, ongeacht hun technische achtergrond. Hier zijn een paar redenen waarom je misschien wilt luisteren naar AIToday Live:
- Expert Inzichten: De podcast biedt gesprekken met Nederlandse en Belgische experts op het gebied van AI, waardoor luisteraars waardevolle inzichten en meningen rechtstreeks van leiders en vernieuwers in de industrie krijgen.
- Toegankelijk voor een Breed Publiek: Of je nu diep in de technische details zit of gewoon nieuwsgierig bent naar AI, de podcast presenteert informatie op een manier die zowel begrijpelijk als boeiend is voor zowel zakelijke als IT-professionals.
- Laatste Nieuws en Trends: Blijf op de hoogte van de nieuwste ontwikkelingen en innovaties in AI. De podcast dekt AI for Good en andere belangrijke trends die invloed kunnen hebben op verschillende industrieën en de samenleving als geheel.
Gepresenteerd door Joop Snijder, CTO van Aigency, en Niels Naglé, Area Lead Data & AI van Info Support, biedt de podcast een uniek perspectief op de praktische toepassing van AI binnen organisaties. Het duo bespreekt de (on)mogelijkheden van AI, de impact ervan op bedrijfsprocessen en hoe organisaties deze technologie kunnen inzetten om hun doelstellingen te bereiken.
"AIToday Live is twee keer genomineerd voor 'De Prijs van Oranje' door de Belgian Podcast Awards en staat op nummer 1 in de lijst van Zomerse luister-inspiratie: podcasts over AI, productiviteit, SEO & meer (Frankwatching, juni 2024)."
Met deskundige gasten uit de industrie en academische wereld, biedt de AIToday Live podcast een platform voor het delen van best practices, innovaties en belangrijke inzichten in de wereld van AI. Van de nieuwste algoritmen en modellen tot de impact van AI op de toekomst van werk, de podcast biedt waardevolle informatie voor iedereen die geïnteresseerd is in AI en de rol die het speelt in organisaties.
Voor exclusieve content over de podcast achter de schermen, aankondiging van gasten en exclusieve artikelen, schrijf je dan in voor de nieuwsbrief: https://aitodaylive.substack.com
AIToday Live
S06E36 - Klein is de toekomst voor grote taalmodellen
In deze aflevering van AIToday Live verkent de podcast de toekomst van grote taalmodellen in de wereld van kunstmatige intelligentie. Met de snelle ontwikkeling van technologieën zoals GPT-4 en ChatGPT, lijkt de trend naar steeds grotere en complexere modellen onstuitbaar.
Echter, Joop Snijder, CTO bij Aigency, deelt een ander perspectief. Hij bespreekt de opkomende focus op het ontwikkelen van kleinere, krachtigere modellen die niet alleen kostenefficiënter maar ook energiezuiniger zijn.
Aan de hand van voorbeelden zoals Microsoft's software voor het efficiënter omgaan met tokens en de techniek van quantization, illustreert hij hoe deze evolutie de toegankelijkheid en duurzaamheid van AI-technologieën kan verbeteren. Luister naar deze boeiende discussie over de balans tussen grootte en efficiëntie in de toekomst van AI.
Links
- Artikel: Sam Altman hints at the future of AI and GPT-5 - and big things are coming (https://www.techradar.com/computing/artificial-intelligence/sam-altman-hints-at-the-future-of-ai-and-gpt-5-and-big-things-are-coming)
- Artikel: Apple releases eight small AI language models aimed at on-device use (https://arstechnica.com/information-technology/2024/04/apple-releases-eight-small-ai-language-models-aimed-at-on-device-use/)
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.
Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).
Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.
Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!
1
00:00:00,000 --> 00:00:05,560
Wat mij betreft zeggen we vaarwel tegen de tijden waarin groter altijd beter was in
2
00:00:05,560 --> 00:00:07,080
de wereld van grote taalmodellen.
3
00:00:07,080 --> 00:00:12,720
Terwijl we nog steeds reikhalzend uitkijken naar de volgende generatie van de GPT's,
4
00:00:12,720 --> 00:00:17,880
broeit er een stele revolutie die onze aanpak van AI fundamenteel zal veranderen.
5
00:00:17,880 --> 00:00:18,880
Hoe?
6
00:00:18,880 --> 00:00:23,000
Dat hoor je in deze korte aflevering van AIToday Live.
7
00:00:23,000 --> 00:00:26,040
Mijn naam, Joop Snijder, CTO bij Aigency.
8
00:00:26,040 --> 00:00:38,080
Sinds november 2022, toen we ChatGPT zagen, hebben we een spectaculaire groei gezien in
9
00:00:38,080 --> 00:00:39,600
de ontwikkeling van taalmodellen.
10
00:00:39,600 --> 00:00:47,840
Namen als GPT-4, Google Gemini en Anthropic symboliseren een wedloop naar steeds grotere
11
00:00:47,840 --> 00:00:48,840
capaciteiten.
12
00:00:48,840 --> 00:00:55,000
Eerst waren we al tevreden met een context van 4 tokens, vergelijkbaar met het korte
13
00:00:55,000 --> 00:00:59,240
termijngeheugen van een model dat de kern van onze dialoog bijhoudt.
14
00:00:59,240 --> 00:01:06,600
Nu zien we een sprong naar 128k, soms wordt er gesproken over 1 miljoen tokens, het wordt
15
00:01:06,600 --> 00:01:08,640
maar groter, groter, groter.
16
00:01:08,640 --> 00:01:15,320
Parallel aan deze groei is de capaciteit van de modellen zelf ook exponentieel toegenomen.
17
00:01:15,320 --> 00:01:22,200
De miljarden parameters waarover we nu beschikken waren ondenkbaar in de eerste dagen van deze
18
00:01:22,200 --> 00:01:23,200
technologie.
19
00:01:23,200 --> 00:01:31,760
Op social media wordt al reikhalzend uitgekeken naar de onthulling van GPT-5 waarvan de verwachtingen
20
00:01:31,760 --> 00:01:34,560
torenhoog zijn.
21
00:01:34,560 --> 00:01:42,240
Ik verwacht dat deze trend van groot, groot, groot nog wel even zal aanhouden, maar deze
22
00:01:42,240 --> 00:01:43,960
race zal niet eindeloos doorgaan.
23
00:01:43,960 --> 00:01:45,920
Waarom denk ik dat?
24
00:01:45,920 --> 00:01:49,080
Omdat de wetenschap ons een blik in de toekomst biedt.
25
00:01:49,080 --> 00:01:55,760
De focus verschuift namelijk naar het ontwikkelen van kleinere, krachtigere modellen die zowel
26
00:01:55,760 --> 00:01:58,360
energiezuiniger als goedkoper zijn.
27
00:01:58,360 --> 00:02:05,280
Misschien denk je, dat klinkt tegenstrijdig, maar ik zal het uitleggen waarom dit een logische
28
00:02:05,280 --> 00:02:06,280
evolutie is.
29
00:02:06,280 --> 00:02:14,480
Namelijk, de noodzaak om operationele kosten te verlagen binnen de wereld van grote taalmodellen
30
00:02:14,480 --> 00:02:15,880
wordt steeds urgenter.
31
00:02:15,880 --> 00:02:22,120
Deze kosten zijn vaak hoog, moeilijk te voorspellen, wat de onderbouwing van de business cases
32
00:02:22,120 --> 00:02:24,600
juist zo kan ondermijnen.
33
00:02:24,600 --> 00:02:31,680
Naarmate taalmodellen groter en complexer worden, nemen de bijbehorende kosten evenredig
34
00:02:31,680 --> 00:02:32,680
toe.
35
00:02:32,680 --> 00:02:34,200
Tenminste, dat zien we tot nu toe.
36
00:02:34,200 --> 00:02:41,080
Want het meest geavanceerde model van openAI is momenteel maar liefst 80 keer duurder dan
37
00:02:41,080 --> 00:02:42,080
het instapmodel.
38
00:02:42,080 --> 00:02:47,800
Het reduceren van deze kosten is dus cruciaal, niet alleen om de technologie toegankelijk
39
00:02:47,800 --> 00:02:52,360
te maken, maar ook om de duurzame groei in de toekomst te waarborgen.
40
00:02:52,360 --> 00:02:59,560
Vandaag licht ik drie richtingen uit waarbij we zien dat er een beweging komt naar efficiëntie
41
00:02:59,560 --> 00:03:00,560
en verkleining.
42
00:03:00,560 --> 00:03:05,000
Het eerste is het efficiënte omgaan met tokens.
43
00:03:05,000 --> 00:03:09,440
Tokens is het afrekenmodel van alle grote taalmodellen.
44
00:03:09,440 --> 00:03:19,160
Hoe meer tokens je gebruikt, zowel wat je in een model stopt als eruit, daar betaal je
45
00:03:19,160 --> 00:03:20,160
voor.
46
00:03:20,160 --> 00:03:27,720
Zo heeft Microsoft software ontwikkeld waarmee een prompt 5 keer kleiner kan worden gemaakt
47
00:03:27,720 --> 00:03:33,080
door irrelevante woorden te verwijderen uit de prompt voordat deze naar het taalmodel
48
00:03:33,080 --> 00:03:34,080
wordt gestuurd.
49
00:03:34,080 --> 00:03:39,560
Dit verlaagt de kosten van de inputtokens aanzienlijk wat een groot verschil maakt in
50
00:03:39,560 --> 00:03:40,880
die operationele kosten.
51
00:03:40,880 --> 00:03:47,120
We zien ook steeds meer populariteit rondom RAG-systems.
52
00:03:47,120 --> 00:03:53,440
Dat is uiteindelijk ook een vorm waarbij je het helpt om de operationele kosten naar beneden
53
00:03:53,440 --> 00:03:56,240
te krijgen, in ieder geval qua tokens.
54
00:03:56,240 --> 00:04:02,760
In zo'n rack system combineer je zoeken en taalmodellen met elkaar.
55
00:04:02,760 --> 00:04:08,440
Dat systeem zorgt met de documenten die erin zitten voor een soort van lange termijn geheugen
56
00:04:08,440 --> 00:04:11,600
dat wordt aangesproken in zo'n dialoog.
57
00:04:11,600 --> 00:04:18,320
Wanneer nodig in die dialoog wordt namelijk eerst gezocht in het lange termijn geheugen.
58
00:04:18,320 --> 00:04:20,440
Dat zoeken is relatief goedkoop.
59
00:04:20,440 --> 00:04:26,240
En alleen de relevante informatie wordt dan met het taalmodel omgezet in een antwoord.
60
00:04:26,240 --> 00:04:28,400
Het rekenen aan het antwoord wordt zo goedkoper.
61
00:04:28,400 --> 00:04:36,520
De tweede richting die we zien is het kunnen hosten van een taalmodel op je eigen hardware.
62
00:04:36,520 --> 00:04:43,720
Daarvoor is al een techniek ontwikkeld en die heet quantization.
63
00:04:43,720 --> 00:04:50,360
Moeilijk woord, maar die quantization maakt het mogelijk om modellen in eigen datacenters
64
00:04:50,360 --> 00:04:51,360
te draaien.
65
00:04:51,360 --> 00:04:58,960
Die quantization is een techniek die is vergelijkbaar met het comprimeren van foto's naar jpeg formaat.
66
00:04:58,960 --> 00:05:06,560
Waarbij je een 24 megapixel foto zoveel kleiner maakt dat deze minder ruimte inneemt zonder
67
00:05:06,560 --> 00:05:08,160
dat het beeld eronder leidt.
68
00:05:08,160 --> 00:05:10,480
Je ziet in principe niet het verschil.
69
00:05:10,480 --> 00:05:13,680
Datzelfde kan gedaan worden met een taalmodel.
70
00:05:13,680 --> 00:05:15,320
Dat heet dan die quantization.
71
00:05:15,320 --> 00:05:22,840
Een taalmodel dat normaal met 32 bits berekeningen rekent.
72
00:05:22,840 --> 00:05:23,840
Een moeilijke zin.
73
00:05:23,840 --> 00:05:30,560
Die 32 bits voor berekeningen gebruikt kan worden teruggebracht naar 4 bits berekeningen.
74
00:05:30,560 --> 00:05:38,160
Klinkt heel technisch, maar betekent dat zo'n taalmodel tot wel 75 tot 85 procent kleiner
75
00:05:38,160 --> 00:05:39,160
kan worden gemaakt.
76
00:05:39,160 --> 00:05:40,640
Dus een omvang.
77
00:05:40,640 --> 00:05:46,440
Maar niet alleen een omvang, maar ook in de rekenkracht die die nodig heeft.
78
00:05:46,440 --> 00:05:49,600
Uiteraard met een trade-off tussen precisie en grootte.
79
00:05:49,600 --> 00:05:55,400
Maar de wetenschap en zelfs in de praktijk laat het zien dat deze modellen, die gecomprimeerde
80
00:05:55,400 --> 00:05:58,960
modellen, nog zeer goed werken.
81
00:05:58,960 --> 00:06:09,400
En daarmee biedt deze form, deze gecomprimeerde modellen, unieke mogelijkheden.
82
00:06:09,400 --> 00:06:14,640
Omdat ze minder ruimte in beslag nemen en minder rekenkracht nodig hebben, kun je ze
83
00:06:14,640 --> 00:06:16,920
bijvoorbeeld hosten op je eigen hardware.
84
00:06:16,920 --> 00:06:22,480
Het wordt daarmee zelfs mogelijk om krachtige large language models op mobiele apparaten
85
00:06:22,480 --> 00:06:23,480
te draaien.
86
00:06:23,480 --> 00:06:29,040
Zo heeft Apple afgelopen maand 8 van dit soort modellen open source beschikbaar gesteld.
87
00:06:29,040 --> 00:06:34,000
En komen deze modellen ook in de nieuwste iOS versie.
88
00:06:34,000 --> 00:06:36,920
En dan zijn je denken, waarom 8?
89
00:06:36,920 --> 00:06:38,480
En waarom 8 modellen?
90
00:06:38,480 --> 00:06:45,400
Dat heeft te maken met het volgende laatste punt, namelijk specialisatie met kleinere
91
00:06:45,400 --> 00:06:46,400
modellen.
92
00:06:46,400 --> 00:06:52,480
Dus door kleinere modellen te trainen combineer je het beste van twee werelden.
93
00:06:52,480 --> 00:06:58,360
Zo'n kleine model kan een specifieke taak extreem goed uitvoeren en kan daardoor kleiner
94
00:06:58,360 --> 00:07:04,160
blijven terwijl het toch de algemene kennis van een groot taalmodel gebruikt om getraind
95
00:07:04,160 --> 00:07:05,520
te worden tot expert.
96
00:07:05,520 --> 00:07:08,800
Het uiteindelijke model is dus veel kleiner.
97
00:07:08,800 --> 00:07:10,680
En kan veel minder.
98
00:07:10,680 --> 00:07:12,040
Het kan veel minder.
99
00:07:12,040 --> 00:07:17,360
Dit betekent dat zowel het hosten van het model als het berekenen van de antwoorden veel goed
100
00:07:17,360 --> 00:07:18,360
koper worden.
101
00:07:18,360 --> 00:07:22,560
Dat zijn de drie die ik eruit wilde lichten.
102
00:07:22,560 --> 00:07:26,560
En weet je, ons hoofd zal de aankomende tijd echt op hol worden gebracht door de producenten
103
00:07:26,560 --> 00:07:27,560
van grote taalmodellen.
104
00:07:27,560 --> 00:07:29,840
Met meer, groter, beter.
105
00:07:29,840 --> 00:07:33,720
Maar meer, groter, beter betekent automatisch ook duurder.
106
00:07:33,720 --> 00:07:40,240
Dus zal er een tegenkracht komen van het goedkoper en toegankelijker maken van modellen.
107
00:07:40,240 --> 00:07:42,640
Dat zal niet lang op zich laten wachten.
108
00:07:42,640 --> 00:07:48,960
Dankjewel voor het luisteren naar deze korte aflevering van AIToday.
109
00:07:48,960 --> 00:07:53,400
Vergeet je niet te abonneren via je favoriete podcast app en mis geen aflevering.
110
00:07:53,400 --> 00:07:54,400
Tot de volgende!
111
00:07:54,400 --> 00:07:54,400
[Muziek]
112
00:07:55,400 --> 00:07:58,400
[Muziek]
113
00:07:58,400 --> 00:08:00,400
[Muziek]
114
00:08:00,400 --> 00:08:23,200
[Muziek]