AIToday Live

S06E20 - De illusie van superioriteit: Anthropic verslaat OpenAI

March 07, 2024 Aigency by Info Support Season 6 Episode 20
AIToday Live
S06E20 - De illusie van superioriteit: Anthropic verslaat OpenAI
Show Notes Transcript
Anthropic stelt zijn nieuwste ontwikkeling, Claude 3, voor als directe concurrentie voor OpenAI's GPT-4 en Google’s Gemini 1.0 Ultra. 

Deze aflevering onderzoekt niet alleen de plaats van Claude 3 in het spectrum van Large Language Models, maar waagt zich ook aan de bredere discussie over de rol en betrouwbaarheid van benchmarks in de prestatie-evaluatie van dergelijke modellen. 
Daarbij worden vragen gesteld over de effectiviteit van deze benchmarks, de invloed van modelselectie op basis van context en de duurzaamheidseffecten van verschillende modellen.

Daarmee biedt deze aflevering een kritische blik op de toekomstige richting van AI-technologieën en de keuzes die daarbij komen kijken. 


Links

Met onze podcast AIToday Live zijn we genomineerd voor de Belgian Podcast Awards ! 🏆🤩 Belgisch? Ja, een Belgische award, want er is een speciale categorie voor Nederlandse podcasts: Prijs van Oranje.

Wil je ons steunen? 🙏❤️ Stem op ons!

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Wil je toegang tot exclusieve toegang voor onze luisteraars? Schrijf je in voor de nieuwsbrief 'AI versterkt de Mens'

Contact AIToday Live


We zijn altijd op zoek naar nieuwe gasten die over AI willen spreken.

1
00:00:00,000 --> 00:00:07,240
Hoi, leuk dat je weer luistert naar een korte, actuele aflevering van AIToday Live met vandaag

2
00:00:07,240 --> 00:00:11,600
"Is OpenAI's ChatGPT verslagen door een nieuwe winnaar?"

3
00:00:11,600 --> 00:00:14,200
Je hoort er alles over in deze aflevering.

4
00:00:14,200 --> 00:00:22,560
In het recente speelveld van Large Language Models heeft Anthropic, een startup opgericht

5
00:00:22,560 --> 00:00:28,320
door voormalige OpenAI medewerkers, een flinke stap voorwaarts gezet met de lancering van

6
00:00:28,320 --> 00:00:30,040
Claude 3.

7
00:00:30,040 --> 00:00:36,760
Deze derde generatie van hun AI-model is er in drie varianten, waarbij Opus, de naam

8
00:00:36,760 --> 00:00:43,800
van de variant, de kroon spant als het meest geavanceerde en duurste model, met capaciteiten

9
00:00:43,800 --> 00:00:48,040
om uitgebreide teksten tot wel 150.000 woorden te verwerken.

10
00:00:48,040 --> 00:00:56,800
Daarmee stelt Anthropic dat Opus superieure resultaten levert in vergelijking met toonaangevende

11
00:00:56,800 --> 00:01:03,400
concurrenten zoals OpenAI's GPT-4 en Google's Gemini 1.0 Ultra.

12
00:01:03,400 --> 00:01:08,880
Vooral op gebieden als redenering, programmeren en wiskundige probleemoplossing.

13
00:01:08,880 --> 00:01:16,120
Zij claimen dit vanwege de uitslagen in vergelijkende testen en dat ze daar het beste in scoren.

14
00:01:16,120 --> 00:01:23,360
In de wereld van taalmodellen lijken vergelijkende testen, benchmarks, vaak de heilige graal

15
00:01:23,360 --> 00:01:25,320
van prestatie-evaluatie.

16
00:01:25,320 --> 00:01:32,320
Volgens mij schuilt de ware waarde van een taalmodel niet in de meest indrukwekkende

17
00:01:32,320 --> 00:01:39,280
cijfers van vergelijkende testen, maar in de specifieke use-cases waarvoor het model ingezet

18
00:01:39,280 --> 00:01:40,280
wordt.

19
00:01:40,280 --> 00:01:46,760
Wat mij betreft is het een misvatting te denken dat het hoogstscorende model in benchmark-tests

20
00:01:46,760 --> 00:01:49,760
automatisch de beste keuze is voor elke situatie.

21
00:01:49,760 --> 00:01:53,360
Laten we eens kijken naar de benchmarks.

22
00:01:53,360 --> 00:01:59,320
Large Language Models, die benchmarks daarvoor zijn ontworpen om de prestaties en de bekwaamheden

23
00:01:59,320 --> 00:02:03,760
van AI modellen zoals GPT, Claude en Gemini te meten.

24
00:02:03,760 --> 00:02:10,680
Deze benchmarks omvatten een reeks test die zijn ontworpen om verschillende aspecten van

25
00:02:10,680 --> 00:02:14,920
taalbegrip, redeneringsvermogen en domeinspecifieke kennis te beoordelen.

26
00:02:14,920 --> 00:02:17,080
Zo heb je bijvoorbeeld de…

27
00:02:17,080 --> 00:02:24,320
Ja, het zijn een beetje rare afkortingen en titels, maar zo heb je bijvoorbeeld de ML…

28
00:02:24,320 --> 00:02:28,200
MMLU, de Massive Multitask Language Understanding.

29
00:02:28,200 --> 00:02:34,400
Deze benchmark meet het begrip op kennisniveau door het model te testen op een reeks van meer

30
00:02:34,400 --> 00:02:40,320
dan 50 taken die betrekking hebben op onderwerpen zoals geschiedenis, literatuur en wetenschap.

31
00:02:40,320 --> 00:02:45,960
Het is ontworpen om te evalueren hoe goed modellen complexe vragen kunnen begrijpen

32
00:02:45,960 --> 00:02:46,960
en beantwoorden.

33
00:02:46,960 --> 00:02:54,160
Maar je hebt ook de Great School Math, de GSM8K.

34
00:02:54,160 --> 00:03:00,680
Deze benchmark evalueert de vaardigheid van modellen in het oplossen van wiskundige problemen

35
00:03:00,680 --> 00:03:02,800
die typisch zijn voor de basisschool.

36
00:03:02,800 --> 00:03:07,000
Deze benchmark bevat zo'n 8000 problemen en testen.

37
00:03:07,000 --> 00:03:13,800
En daarmee test het basisrekenen, algebra, geometrie en nog veel meer.

38
00:03:13,800 --> 00:03:20,920
Dit zijn er twee, er is een lijst van zo'n 8 benchmarks waar de meeste large language

39
00:03:20,920 --> 00:03:22,400
models tegen gescoord worden.

40
00:03:22,400 --> 00:03:28,960
En omdat deze uitkomsten steeds gepubliceerd worden, ontstaat er een race en misschien

41
00:03:28,960 --> 00:03:32,680
zelfs wel een obsessie wie de beste benchmarks heeft.

42
00:03:32,680 --> 00:03:35,760
De obsessie met benchmarks is niet nieuw.

43
00:03:35,760 --> 00:03:40,880
Mij herinnert het eraan aan eerdere technologische wedlopen zoals we die hebben gehad bij de

44
00:03:40,880 --> 00:03:47,760
digitale camera's waar de focus lag op het aantal megapixels als maatstaf voor beeldkwaliteit.

45
00:03:47,760 --> 00:03:55,680
Deze benadering leidde tot een vernauwde focus waarbij andere belangrijke aspecten van beeldvorming

46
00:03:55,680 --> 00:04:00,600
zoals lenskwaliteit, kleurweergave en lichtgevoeligheid juist onderbelicht bleven.

47
00:04:00,600 --> 00:04:08,180
Een ander treffend voorbeeld dat de gevaren van een eenzijdige focus op benchmarks belicht

48
00:04:08,180 --> 00:04:10,120
is het Volkswagen-dieselschandaal.

49
00:04:10,120 --> 00:04:15,920
In een poging om te voldoen aan emissiestandaarden manipuleerde Volkswagen de uitstootgegevens

50
00:04:15,920 --> 00:04:18,440
van hun voertuigen tijdens laboratoriumtests.

51
00:04:18,440 --> 00:04:24,520
Dit schandaal onthulde niet alleen de ethische tekortkomingen binnen het bedrijf, maar ook

52
00:04:24,520 --> 00:04:29,800
wel de fundamentele gebreken in een benchmarksysteem dat deze manipulatie mogelijk maakte.

53
00:04:29,800 --> 00:04:37,160
Het benadrukt hoe een overmatige nadruk op het behalen van specifieke meetbare resultaten

54
00:04:37,160 --> 00:04:42,920
kan leiden tot gedrag dat afwijkt van de beoogde doelstelling van de technologische ontwikkeling.

55
00:04:42,920 --> 00:04:49,000
Dus benchmarks, hoe nuttig ook voor verder ontwikkeling en verbetering van large language

56
00:04:49,000 --> 00:04:51,440
models, zijn slechts 1 deel van het verhaal.

57
00:04:51,440 --> 00:04:57,640
Ze bieden een momentopname van de models capaciteiten onder gecontroleerde omstandigheden,

58
00:04:57,640 --> 00:05:03,840
maar vertellen ons weinig over de toepasbaarheid van deze modellen binnen je organisatie waar

59
00:05:03,840 --> 00:05:07,040
je natuurlijk ook te maken hebt met kaders en voorkeuren.

60
00:05:07,040 --> 00:05:15,080
De ware uitdaging ligt in het kiezen van AI modellen die niet alleen uitblinken in gestandaardiseerde

61
00:05:15,080 --> 00:05:19,200
tests, maar juist passend zijn voor jouw use-case.

62
00:05:19,200 --> 00:05:24,880
Zo bieden leveranciers een breed scala aan opties, bijvoorbeeld in de kostenstructuur

63
00:05:24,880 --> 00:05:32,840
van de verschillende modellen, van Anthropics Sonnet en Haiku tot het meer robuuste Opus

64
00:05:32,840 --> 00:05:33,840
in hun geval.

65
00:05:33,840 --> 00:05:36,880
De prijsverschillen daartussen zijn significant.

66
00:05:36,880 --> 00:05:43,280
Het instapmodel Haiku is bijvoorbeeld 60 keer goedkoper dan het vlaggenschip Opus.

67
00:05:43,280 --> 00:05:44,480
60 keer!

68
00:05:44,480 --> 00:05:46,560
Dat is toch nogal wat?

69
00:05:46,560 --> 00:05:48,720
Maar kosten zijn slechts 1 facet.

70
00:05:48,720 --> 00:05:53,080
Het belangrijke is hoe een model presteert binnen specifieke contexten.

71
00:05:53,080 --> 00:05:56,760
Niet elk model excelleert op dezelfde wijze.

72
00:05:56,760 --> 00:06:02,360
Sommige zijn gespecialiseerd en leveren in bepaalde scenario's betere resultaten.

73
00:06:02,360 --> 00:06:07,120
Daarnaast spelen leveranciersvoorwaarden en garanties een cruciale rol.

74
00:06:07,120 --> 00:06:12,480
Vragen over privacy, beveiliging, schaalbaarheid, duurzaamheid zijn ook essentieel.

75
00:06:12,480 --> 00:06:18,320
Het is ook van belang te weten hoe lang een model ondersteund wordt door de leverancier.

76
00:06:18,320 --> 00:06:21,520
Dit om de continuïteit van je toepassingen te waarborgen.

77
00:06:21,520 --> 00:06:25,040
Dus oftewel blijven je prompt werken.

78
00:06:25,040 --> 00:06:26,040
Heel simpel.

79
00:06:26,760 --> 00:06:31,880
Maar ook organisatorische beperkingen, zoals een verplichting aan een bepaalde cloud provider

80
00:06:31,880 --> 00:06:37,400
of een voorkeur voor open source, beïnvloeden eveneens deze keuzevrijheid.

81
00:06:37,400 --> 00:06:41,880
Hierdoor kan de selectie van een taalmodel beperkter zijn dan aanvankelijk gedacht.

82
00:06:41,880 --> 00:06:47,040
Tegen de achtergrond van deze complexiteit is het belangrijk te begrijpen dat een groter

83
00:06:47,040 --> 00:06:52,280
model, ondanks een hogere score op benchmarks, niet altijd de beste optie is.

84
00:06:52,280 --> 00:06:57,960
Kleinere modellen kunnen voor bepaalde toepassingen toereikend zijn, juist minder energie verbruiken

85
00:06:57,960 --> 00:07:01,440
en zodoende ook milieuvriendelijker zijn.

86
00:07:01,440 --> 00:07:06,480
De beslissing voor een specifiek model moet daarom niet lichtvaardig genomen worden, vind

87
00:07:06,480 --> 00:07:07,480
ik.

88
00:07:07,480 --> 00:07:12,720
Nog moet deze louter gebaseerd zijn op de nieuwheid of de populariteit van een model.

89
00:07:12,720 --> 00:07:17,800
Een zorgvuldige afweging van de doelstellingen, randvoorwaarden en de specifieke eisen van

90
00:07:17,800 --> 00:07:21,560
je project leidt tot een meer gefundeerde keuze.

91
00:07:21,560 --> 00:07:27,480
Benchmarks zijn daarbij slechts één van de vele overwegingen en dienen met een flinke

92
00:07:27,480 --> 00:07:29,040
korrelzout bekeken te worden.

93
00:07:29,040 --> 00:07:33,880
Leuk dat je weer luisterde.

94
00:07:33,880 --> 00:07:39,280
Vergeet je niet te abonneren via je favoriete podcast app en mis geen aflevering.

95
00:07:39,280 --> 00:07:40,560
Tot de volgende keer!

96
00:07:40,560 --> 00:07:46,560
[Muziek]

97
00:07:47,200 --> 00:08:07,200
[Muziek]