1
00:00:00,000 --> 00:00:07,240
Hoi, leuk dat je weer luistert naar een korte, actuele aflevering van AIToday Live met vandaag
2
00:00:07,240 --> 00:00:11,600
"Is OpenAI's ChatGPT verslagen door een nieuwe winnaar?"
3
00:00:11,600 --> 00:00:14,200
Je hoort er alles over in deze aflevering.
4
00:00:14,200 --> 00:00:22,560
In het recente speelveld van Large Language Models heeft Anthropic, een startup opgericht
5
00:00:22,560 --> 00:00:28,320
door voormalige OpenAI medewerkers, een flinke stap voorwaarts gezet met de lancering van
6
00:00:28,320 --> 00:00:30,040
Claude 3.
7
00:00:30,040 --> 00:00:36,760
Deze derde generatie van hun AI-model is er in drie varianten, waarbij Opus, de naam
8
00:00:36,760 --> 00:00:43,800
van de variant, de kroon spant als het meest geavanceerde en duurste model, met capaciteiten
9
00:00:43,800 --> 00:00:48,040
om uitgebreide teksten tot wel 150.000 woorden te verwerken.
10
00:00:48,040 --> 00:00:56,800
Daarmee stelt Anthropic dat Opus superieure resultaten levert in vergelijking met toonaangevende
11
00:00:56,800 --> 00:01:03,400
concurrenten zoals OpenAI's GPT-4 en Google's Gemini 1.0 Ultra.
12
00:01:03,400 --> 00:01:08,880
Vooral op gebieden als redenering, programmeren en wiskundige probleemoplossing.
13
00:01:08,880 --> 00:01:16,120
Zij claimen dit vanwege de uitslagen in vergelijkende testen en dat ze daar het beste in scoren.
14
00:01:16,120 --> 00:01:23,360
In de wereld van taalmodellen lijken vergelijkende testen, benchmarks, vaak de heilige graal
15
00:01:23,360 --> 00:01:25,320
van prestatie-evaluatie.
16
00:01:25,320 --> 00:01:32,320
Volgens mij schuilt de ware waarde van een taalmodel niet in de meest indrukwekkende
17
00:01:32,320 --> 00:01:39,280
cijfers van vergelijkende testen, maar in de specifieke use-cases waarvoor het model ingezet
18
00:01:39,280 --> 00:01:40,280
wordt.
19
00:01:40,280 --> 00:01:46,760
Wat mij betreft is het een misvatting te denken dat het hoogstscorende model in benchmark-tests
20
00:01:46,760 --> 00:01:49,760
automatisch de beste keuze is voor elke situatie.
21
00:01:49,760 --> 00:01:53,360
Laten we eens kijken naar de benchmarks.
22
00:01:53,360 --> 00:01:59,320
Large Language Models, die benchmarks daarvoor zijn ontworpen om de prestaties en de bekwaamheden
23
00:01:59,320 --> 00:02:03,760
van AI modellen zoals GPT, Claude en Gemini te meten.
24
00:02:03,760 --> 00:02:10,680
Deze benchmarks omvatten een reeks test die zijn ontworpen om verschillende aspecten van
25
00:02:10,680 --> 00:02:14,920
taalbegrip, redeneringsvermogen en domeinspecifieke kennis te beoordelen.
26
00:02:14,920 --> 00:02:17,080
Zo heb je bijvoorbeeld de…
27
00:02:17,080 --> 00:02:24,320
Ja, het zijn een beetje rare afkortingen en titels, maar zo heb je bijvoorbeeld de ML…
28
00:02:24,320 --> 00:02:28,200
MMLU, de Massive Multitask Language Understanding.
29
00:02:28,200 --> 00:02:34,400
Deze benchmark meet het begrip op kennisniveau door het model te testen op een reeks van meer
30
00:02:34,400 --> 00:02:40,320
dan 50 taken die betrekking hebben op onderwerpen zoals geschiedenis, literatuur en wetenschap.
31
00:02:40,320 --> 00:02:45,960
Het is ontworpen om te evalueren hoe goed modellen complexe vragen kunnen begrijpen
32
00:02:45,960 --> 00:02:46,960
en beantwoorden.
33
00:02:46,960 --> 00:02:54,160
Maar je hebt ook de Great School Math, de GSM8K.
34
00:02:54,160 --> 00:03:00,680
Deze benchmark evalueert de vaardigheid van modellen in het oplossen van wiskundige problemen
35
00:03:00,680 --> 00:03:02,800
die typisch zijn voor de basisschool.
36
00:03:02,800 --> 00:03:07,000
Deze benchmark bevat zo'n 8000 problemen en testen.
37
00:03:07,000 --> 00:03:13,800
En daarmee test het basisrekenen, algebra, geometrie en nog veel meer.
38
00:03:13,800 --> 00:03:20,920
Dit zijn er twee, er is een lijst van zo'n 8 benchmarks waar de meeste large language
39
00:03:20,920 --> 00:03:22,400
models tegen gescoord worden.
40
00:03:22,400 --> 00:03:28,960
En omdat deze uitkomsten steeds gepubliceerd worden, ontstaat er een race en misschien
41
00:03:28,960 --> 00:03:32,680
zelfs wel een obsessie wie de beste benchmarks heeft.
42
00:03:32,680 --> 00:03:35,760
De obsessie met benchmarks is niet nieuw.
43
00:03:35,760 --> 00:03:40,880
Mij herinnert het eraan aan eerdere technologische wedlopen zoals we die hebben gehad bij de
44
00:03:40,880 --> 00:03:47,760
digitale camera's waar de focus lag op het aantal megapixels als maatstaf voor beeldkwaliteit.
45
00:03:47,760 --> 00:03:55,680
Deze benadering leidde tot een vernauwde focus waarbij andere belangrijke aspecten van beeldvorming
46
00:03:55,680 --> 00:04:00,600
zoals lenskwaliteit, kleurweergave en lichtgevoeligheid juist onderbelicht bleven.
47
00:04:00,600 --> 00:04:08,180
Een ander treffend voorbeeld dat de gevaren van een eenzijdige focus op benchmarks belicht
48
00:04:08,180 --> 00:04:10,120
is het Volkswagen-dieselschandaal.
49
00:04:10,120 --> 00:04:15,920
In een poging om te voldoen aan emissiestandaarden manipuleerde Volkswagen de uitstootgegevens
50
00:04:15,920 --> 00:04:18,440
van hun voertuigen tijdens laboratoriumtests.
51
00:04:18,440 --> 00:04:24,520
Dit schandaal onthulde niet alleen de ethische tekortkomingen binnen het bedrijf, maar ook
52
00:04:24,520 --> 00:04:29,800
wel de fundamentele gebreken in een benchmarksysteem dat deze manipulatie mogelijk maakte.
53
00:04:29,800 --> 00:04:37,160
Het benadrukt hoe een overmatige nadruk op het behalen van specifieke meetbare resultaten
54
00:04:37,160 --> 00:04:42,920
kan leiden tot gedrag dat afwijkt van de beoogde doelstelling van de technologische ontwikkeling.
55
00:04:42,920 --> 00:04:49,000
Dus benchmarks, hoe nuttig ook voor verder ontwikkeling en verbetering van large language
56
00:04:49,000 --> 00:04:51,440
models, zijn slechts 1 deel van het verhaal.
57
00:04:51,440 --> 00:04:57,640
Ze bieden een momentopname van de models capaciteiten onder gecontroleerde omstandigheden,
58
00:04:57,640 --> 00:05:03,840
maar vertellen ons weinig over de toepasbaarheid van deze modellen binnen je organisatie waar
59
00:05:03,840 --> 00:05:07,040
je natuurlijk ook te maken hebt met kaders en voorkeuren.
60
00:05:07,040 --> 00:05:15,080
De ware uitdaging ligt in het kiezen van AI modellen die niet alleen uitblinken in gestandaardiseerde
61
00:05:15,080 --> 00:05:19,200
tests, maar juist passend zijn voor jouw use-case.
62
00:05:19,200 --> 00:05:24,880
Zo bieden leveranciers een breed scala aan opties, bijvoorbeeld in de kostenstructuur
63
00:05:24,880 --> 00:05:32,840
van de verschillende modellen, van Anthropics Sonnet en Haiku tot het meer robuuste Opus
64
00:05:32,840 --> 00:05:33,840
in hun geval.
65
00:05:33,840 --> 00:05:36,880
De prijsverschillen daartussen zijn significant.
66
00:05:36,880 --> 00:05:43,280
Het instapmodel Haiku is bijvoorbeeld 60 keer goedkoper dan het vlaggenschip Opus.
67
00:05:43,280 --> 00:05:44,480
60 keer!
68
00:05:44,480 --> 00:05:46,560
Dat is toch nogal wat?
69
00:05:46,560 --> 00:05:48,720
Maar kosten zijn slechts 1 facet.
70
00:05:48,720 --> 00:05:53,080
Het belangrijke is hoe een model presteert binnen specifieke contexten.
71
00:05:53,080 --> 00:05:56,760
Niet elk model excelleert op dezelfde wijze.
72
00:05:56,760 --> 00:06:02,360
Sommige zijn gespecialiseerd en leveren in bepaalde scenario's betere resultaten.
73
00:06:02,360 --> 00:06:07,120
Daarnaast spelen leveranciersvoorwaarden en garanties een cruciale rol.
74
00:06:07,120 --> 00:06:12,480
Vragen over privacy, beveiliging, schaalbaarheid, duurzaamheid zijn ook essentieel.
75
00:06:12,480 --> 00:06:18,320
Het is ook van belang te weten hoe lang een model ondersteund wordt door de leverancier.
76
00:06:18,320 --> 00:06:21,520
Dit om de continuïteit van je toepassingen te waarborgen.
77
00:06:21,520 --> 00:06:25,040
Dus oftewel blijven je prompt werken.
78
00:06:25,040 --> 00:06:26,040
Heel simpel.
79
00:06:26,760 --> 00:06:31,880
Maar ook organisatorische beperkingen, zoals een verplichting aan een bepaalde cloud provider
80
00:06:31,880 --> 00:06:37,400
of een voorkeur voor open source, beïnvloeden eveneens deze keuzevrijheid.
81
00:06:37,400 --> 00:06:41,880
Hierdoor kan de selectie van een taalmodel beperkter zijn dan aanvankelijk gedacht.
82
00:06:41,880 --> 00:06:47,040
Tegen de achtergrond van deze complexiteit is het belangrijk te begrijpen dat een groter
83
00:06:47,040 --> 00:06:52,280
model, ondanks een hogere score op benchmarks, niet altijd de beste optie is.
84
00:06:52,280 --> 00:06:57,960
Kleinere modellen kunnen voor bepaalde toepassingen toereikend zijn, juist minder energie verbruiken
85
00:06:57,960 --> 00:07:01,440
en zodoende ook milieuvriendelijker zijn.
86
00:07:01,440 --> 00:07:06,480
De beslissing voor een specifiek model moet daarom niet lichtvaardig genomen worden, vind
87
00:07:06,480 --> 00:07:07,480
ik.
88
00:07:07,480 --> 00:07:12,720
Nog moet deze louter gebaseerd zijn op de nieuwheid of de populariteit van een model.
89
00:07:12,720 --> 00:07:17,800
Een zorgvuldige afweging van de doelstellingen, randvoorwaarden en de specifieke eisen van
90
00:07:17,800 --> 00:07:21,560
je project leidt tot een meer gefundeerde keuze.
91
00:07:21,560 --> 00:07:27,480
Benchmarks zijn daarbij slechts één van de vele overwegingen en dienen met een flinke
92
00:07:27,480 --> 00:07:29,040
korrelzout bekeken te worden.
93
00:07:29,040 --> 00:07:33,880
Leuk dat je weer luisterde.
94
00:07:33,880 --> 00:07:39,280
Vergeet je niet te abonneren via je favoriete podcast app en mis geen aflevering.
95
00:07:39,280 --> 00:07:40,560
Tot de volgende keer!
96
00:07:40,560 --> 00:07:46,560
[Muziek]
97
00:07:47,200 --> 00:08:07,200
[Muziek]