AIToday Live

S06E36 - Klein is de toekomst voor grote taalmodellen

May 02, 2024 Aigency by Info Support Season 6 Episode 36
S06E36 - Klein is de toekomst voor grote taalmodellen
AIToday Live
More Info
AIToday Live
S06E36 - Klein is de toekomst voor grote taalmodellen
May 02, 2024 Season 6 Episode 36
Aigency by Info Support

In deze aflevering van AIToday Live verkent de podcast de toekomst van grote taalmodellen in de wereld van kunstmatige intelligentie. Met de snelle ontwikkeling van technologieën zoals GPT-4 en ChatGPT, lijkt de trend naar steeds grotere en complexere modellen onstuitbaar.

Echter, Joop Snijder, CTO bij Aigency, deelt een ander perspectief. Hij bespreekt de opkomende focus op het ontwikkelen van kleinere, krachtigere modellen die niet alleen kostenefficiënter maar ook energiezuiniger zijn.

Aan de hand van voorbeelden zoals Microsoft's software voor het efficiënter omgaan met tokens en de techniek van quantization, illustreert hij hoe deze evolutie de toegankelijkheid en duurzaamheid van AI-technologieën kan verbeteren. Luister naar deze boeiende discussie over de balans tussen grootte en efficiëntie in de toekomst van AI.



Links

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

Show Notes Transcript

In deze aflevering van AIToday Live verkent de podcast de toekomst van grote taalmodellen in de wereld van kunstmatige intelligentie. Met de snelle ontwikkeling van technologieën zoals GPT-4 en ChatGPT, lijkt de trend naar steeds grotere en complexere modellen onstuitbaar.

Echter, Joop Snijder, CTO bij Aigency, deelt een ander perspectief. Hij bespreekt de opkomende focus op het ontwikkelen van kleinere, krachtigere modellen die niet alleen kostenefficiënter maar ook energiezuiniger zijn.

Aan de hand van voorbeelden zoals Microsoft's software voor het efficiënter omgaan met tokens en de techniek van quantization, illustreert hij hoe deze evolutie de toegankelijkheid en duurzaamheid van AI-technologieën kan verbeteren. Luister naar deze boeiende discussie over de balans tussen grootte en efficiëntie in de toekomst van AI.



Links

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:00,000 --> 00:00:05,560
Wat mij betreft zeggen we vaarwel tegen de tijden waarin groter altijd beter was in

2
00:00:05,560 --> 00:00:07,080
de wereld van grote taalmodellen.

3
00:00:07,080 --> 00:00:12,720
Terwijl we nog steeds reikhalzend uitkijken naar de volgende generatie van de GPT's,

4
00:00:12,720 --> 00:00:17,880
broeit er een stele revolutie die onze aanpak van AI fundamenteel zal veranderen.

5
00:00:17,880 --> 00:00:18,880
Hoe?

6
00:00:18,880 --> 00:00:23,000
Dat hoor je in deze korte aflevering van AIToday Live.

7
00:00:23,000 --> 00:00:26,040
Mijn naam, Joop Snijder, CTO bij Aigency.

8
00:00:26,040 --> 00:00:38,080
Sinds november 2022, toen we ChatGPT zagen, hebben we een spectaculaire groei gezien in

9
00:00:38,080 --> 00:00:39,600
de ontwikkeling van taalmodellen.

10
00:00:39,600 --> 00:00:47,840
Namen als GPT-4, Google Gemini en Anthropic symboliseren een wedloop naar steeds grotere

11
00:00:47,840 --> 00:00:48,840
capaciteiten.

12
00:00:48,840 --> 00:00:55,000
Eerst waren we al tevreden met een context van 4 tokens, vergelijkbaar met het korte

13
00:00:55,000 --> 00:00:59,240
termijngeheugen van een model dat de kern van onze dialoog bijhoudt.

14
00:00:59,240 --> 00:01:06,600
Nu zien we een sprong naar 128k, soms wordt er gesproken over 1 miljoen tokens, het wordt

15
00:01:06,600 --> 00:01:08,640
maar groter, groter, groter.

16
00:01:08,640 --> 00:01:15,320
Parallel aan deze groei is de capaciteit van de modellen zelf ook exponentieel toegenomen.

17
00:01:15,320 --> 00:01:22,200
De miljarden parameters waarover we nu beschikken waren ondenkbaar in de eerste dagen van deze

18
00:01:22,200 --> 00:01:23,200
technologie.

19
00:01:23,200 --> 00:01:31,760
Op social media wordt al reikhalzend uitgekeken naar de onthulling van GPT-5 waarvan de verwachtingen

20
00:01:31,760 --> 00:01:34,560
torenhoog zijn.

21
00:01:34,560 --> 00:01:42,240
Ik verwacht dat deze trend van groot, groot, groot nog wel even zal aanhouden, maar deze

22
00:01:42,240 --> 00:01:43,960
race zal niet eindeloos doorgaan.

23
00:01:43,960 --> 00:01:45,920
Waarom denk ik dat?

24
00:01:45,920 --> 00:01:49,080
Omdat de wetenschap ons een blik in de toekomst biedt.

25
00:01:49,080 --> 00:01:55,760
De focus verschuift namelijk naar het ontwikkelen van kleinere, krachtigere modellen die zowel

26
00:01:55,760 --> 00:01:58,360
energiezuiniger als goedkoper zijn.

27
00:01:58,360 --> 00:02:05,280
Misschien denk je, dat klinkt tegenstrijdig, maar ik zal het uitleggen waarom dit een logische

28
00:02:05,280 --> 00:02:06,280
evolutie is.

29
00:02:06,280 --> 00:02:14,480
Namelijk, de noodzaak om operationele kosten te verlagen binnen de wereld van grote taalmodellen

30
00:02:14,480 --> 00:02:15,880
wordt steeds urgenter.

31
00:02:15,880 --> 00:02:22,120
Deze kosten zijn vaak hoog, moeilijk te voorspellen, wat de onderbouwing van de business cases

32
00:02:22,120 --> 00:02:24,600
juist zo kan ondermijnen.

33
00:02:24,600 --> 00:02:31,680
Naarmate taalmodellen groter en complexer worden, nemen de bijbehorende kosten evenredig

34
00:02:31,680 --> 00:02:32,680
toe.

35
00:02:32,680 --> 00:02:34,200
Tenminste, dat zien we tot nu toe.

36
00:02:34,200 --> 00:02:41,080
Want het meest geavanceerde model van openAI is momenteel maar liefst 80 keer duurder dan

37
00:02:41,080 --> 00:02:42,080
het instapmodel.

38
00:02:42,080 --> 00:02:47,800
Het reduceren van deze kosten is dus cruciaal, niet alleen om de technologie toegankelijk

39
00:02:47,800 --> 00:02:52,360
te maken, maar ook om de duurzame groei in de toekomst te waarborgen.

40
00:02:52,360 --> 00:02:59,560
Vandaag licht ik drie richtingen uit waarbij we zien dat er een beweging komt naar efficiëntie

41
00:02:59,560 --> 00:03:00,560
en verkleining.

42
00:03:00,560 --> 00:03:05,000
Het eerste is het efficiënte omgaan met tokens.

43
00:03:05,000 --> 00:03:09,440
Tokens is het afrekenmodel van alle grote taalmodellen.

44
00:03:09,440 --> 00:03:19,160
Hoe meer tokens je gebruikt, zowel wat je in een model stopt als eruit, daar betaal je

45
00:03:19,160 --> 00:03:20,160
voor.

46
00:03:20,160 --> 00:03:27,720
Zo heeft Microsoft software ontwikkeld waarmee een prompt 5 keer kleiner kan worden gemaakt

47
00:03:27,720 --> 00:03:33,080
door irrelevante woorden te verwijderen uit de prompt voordat deze naar het taalmodel

48
00:03:33,080 --> 00:03:34,080
wordt gestuurd.

49
00:03:34,080 --> 00:03:39,560
Dit verlaagt de kosten van de inputtokens aanzienlijk wat een groot verschil maakt in

50
00:03:39,560 --> 00:03:40,880
die operationele kosten.

51
00:03:40,880 --> 00:03:47,120
We zien ook steeds meer populariteit rondom RAG-systems.

52
00:03:47,120 --> 00:03:53,440
Dat is uiteindelijk ook een vorm waarbij je het helpt om de operationele kosten naar beneden

53
00:03:53,440 --> 00:03:56,240
te krijgen, in ieder geval qua tokens.

54
00:03:56,240 --> 00:04:02,760
In zo'n rack system combineer je zoeken en taalmodellen met elkaar.

55
00:04:02,760 --> 00:04:08,440
Dat systeem zorgt met de documenten die erin zitten voor een soort van lange termijn geheugen

56
00:04:08,440 --> 00:04:11,600
dat wordt aangesproken in zo'n dialoog.

57
00:04:11,600 --> 00:04:18,320
Wanneer nodig in die dialoog wordt namelijk eerst gezocht in het lange termijn geheugen.

58
00:04:18,320 --> 00:04:20,440
Dat zoeken is relatief goedkoop.

59
00:04:20,440 --> 00:04:26,240
En alleen de relevante informatie wordt dan met het taalmodel omgezet in een antwoord.

60
00:04:26,240 --> 00:04:28,400
Het rekenen aan het antwoord wordt zo goedkoper.

61
00:04:28,400 --> 00:04:36,520
De tweede richting die we zien is het kunnen hosten van een taalmodel op je eigen hardware.

62
00:04:36,520 --> 00:04:43,720
Daarvoor is al een techniek ontwikkeld en die heet quantization.

63
00:04:43,720 --> 00:04:50,360
Moeilijk woord, maar die quantization maakt het mogelijk om modellen in eigen datacenters

64
00:04:50,360 --> 00:04:51,360
te draaien.

65
00:04:51,360 --> 00:04:58,960
Die quantization is een techniek die is vergelijkbaar met het comprimeren van foto's naar jpeg formaat.

66
00:04:58,960 --> 00:05:06,560
Waarbij je een 24 megapixel foto zoveel kleiner maakt dat deze minder ruimte inneemt zonder

67
00:05:06,560 --> 00:05:08,160
dat het beeld eronder leidt.

68
00:05:08,160 --> 00:05:10,480
Je ziet in principe niet het verschil.

69
00:05:10,480 --> 00:05:13,680
Datzelfde kan gedaan worden met een taalmodel.

70
00:05:13,680 --> 00:05:15,320
Dat heet dan die quantization.

71
00:05:15,320 --> 00:05:22,840
Een taalmodel dat normaal met 32 bits berekeningen rekent.

72
00:05:22,840 --> 00:05:23,840
Een moeilijke zin.

73
00:05:23,840 --> 00:05:30,560
Die 32 bits voor berekeningen gebruikt kan worden teruggebracht naar 4 bits berekeningen.

74
00:05:30,560 --> 00:05:38,160
Klinkt heel technisch, maar betekent dat zo'n taalmodel tot wel 75 tot 85 procent kleiner

75
00:05:38,160 --> 00:05:39,160
kan worden gemaakt.

76
00:05:39,160 --> 00:05:40,640
Dus een omvang.

77
00:05:40,640 --> 00:05:46,440
Maar niet alleen een omvang, maar ook in de rekenkracht die die nodig heeft.

78
00:05:46,440 --> 00:05:49,600
Uiteraard met een trade-off tussen precisie en grootte.

79
00:05:49,600 --> 00:05:55,400
Maar de wetenschap en zelfs in de praktijk laat het zien dat deze modellen, die gecomprimeerde

80
00:05:55,400 --> 00:05:58,960
modellen, nog zeer goed werken.

81
00:05:58,960 --> 00:06:09,400
En daarmee biedt deze form, deze gecomprimeerde modellen, unieke mogelijkheden.

82
00:06:09,400 --> 00:06:14,640
Omdat ze minder ruimte in beslag nemen en minder rekenkracht nodig hebben, kun je ze

83
00:06:14,640 --> 00:06:16,920
bijvoorbeeld hosten op je eigen hardware.

84
00:06:16,920 --> 00:06:22,480
Het wordt daarmee zelfs mogelijk om krachtige large language models op mobiele apparaten

85
00:06:22,480 --> 00:06:23,480
te draaien.

86
00:06:23,480 --> 00:06:29,040
Zo heeft Apple afgelopen maand 8 van dit soort modellen open source beschikbaar gesteld.

87
00:06:29,040 --> 00:06:34,000
En komen deze modellen ook in de nieuwste iOS versie.

88
00:06:34,000 --> 00:06:36,920
En dan zijn je denken, waarom 8?

89
00:06:36,920 --> 00:06:38,480
En waarom 8 modellen?

90
00:06:38,480 --> 00:06:45,400
Dat heeft te maken met het volgende laatste punt, namelijk specialisatie met kleinere

91
00:06:45,400 --> 00:06:46,400
modellen.

92
00:06:46,400 --> 00:06:52,480
Dus door kleinere modellen te trainen combineer je het beste van twee werelden.

93
00:06:52,480 --> 00:06:58,360
Zo'n kleine model kan een specifieke taak extreem goed uitvoeren en kan daardoor kleiner

94
00:06:58,360 --> 00:07:04,160
blijven terwijl het toch de algemene kennis van een groot taalmodel gebruikt om getraind

95
00:07:04,160 --> 00:07:05,520
te worden tot expert.

96
00:07:05,520 --> 00:07:08,800
Het uiteindelijke model is dus veel kleiner.

97
00:07:08,800 --> 00:07:10,680
En kan veel minder.

98
00:07:10,680 --> 00:07:12,040
Het kan veel minder.

99
00:07:12,040 --> 00:07:17,360
Dit betekent dat zowel het hosten van het model als het berekenen van de antwoorden veel goed

100
00:07:17,360 --> 00:07:18,360
koper worden.

101
00:07:18,360 --> 00:07:22,560
Dat zijn de drie die ik eruit wilde lichten.

102
00:07:22,560 --> 00:07:26,560
En weet je, ons hoofd zal de aankomende tijd echt op hol worden gebracht door de producenten

103
00:07:26,560 --> 00:07:27,560
van grote taalmodellen.

104
00:07:27,560 --> 00:07:29,840
Met meer, groter, beter.

105
00:07:29,840 --> 00:07:33,720
Maar meer, groter, beter betekent automatisch ook duurder.

106
00:07:33,720 --> 00:07:40,240
Dus zal er een tegenkracht komen van het goedkoper en toegankelijker maken van modellen.

107
00:07:40,240 --> 00:07:42,640
Dat zal niet lang op zich laten wachten.

108
00:07:42,640 --> 00:07:48,960
Dankjewel voor het luisteren naar deze korte aflevering van AIToday.

109
00:07:48,960 --> 00:07:53,400
Vergeet je niet te abonneren via je favoriete podcast app en mis geen aflevering.

110
00:07:53,400 --> 00:07:54,400
Tot de volgende!

111
00:07:54,400 --> 00:07:54,400
[Muziek]

112
00:07:55,400 --> 00:07:58,400
[Muziek]

113
00:07:58,400 --> 00:08:00,400
[Muziek]

114
00:08:00,400 --> 00:08:23,200
[Muziek]