
AIToday Live
AIToday Live deelt praktijkverhalen over AI die je direct vooruit helpen in je werk. In een wereld waar AI-ontwikkelingen elkaar razendsnel opvolgen, kiezen wij bewust voor verdieping en praktijkervaring. We bieden een kalm kompas in turbulente tijden.
In deze podcast hoor je professionals uit Nederland en België die openhartig vertellen over hun ervaringen met AI-implementaties. Voorbij de hype en krantenkoppen laten zij zien hoe organisaties écht met AI werken.
Onze gasten delen hun successen én uitdagingen op een toegankelijke manier.
Daarmee helpen we jou om:
- Praktische inzichten te krijgen in wat AI wel en niet kan
- Te leren van de ervaringen van andere professionals
- Concrete ideeën op te doen voor je eigen organisatie
- De grotere lijnen te zien in AI-ontwikkelingen
Iedere maandag een diepgaand gesprek met een gast, gepresenteerd door Joop Snijder (CTO Aigency) en Niels Naglé (Info Support). Elke donderdag deelt Joop in een korte aflevering zijn eigen praktijkervaringen en inzichten.
"AIToday Live is twee keer genomineerd voor 'De Prijs van Oranje' door de Belgian Podcast Awards en staat op nummer 1 in de lijst van Zomerse luister-inspiratie: podcasts over AI, productiviteit, SEO & meer (Frankwatching, juni 2024)."
Ontdek hoe andere professionals AI succesvol inzetten. Ontvang ook exclusieve content, kijk achter de schermen en blijf op de hoogte van nieuwe gasten via onze nieuwsbrief: https://aitodaylive.substack.com
AIToday Live
S07E58 - AI Chantage: Waarom 16 taalmodellen dreigbrieven sturen
In de nieuwste aflevering van AIToday Live wordt een onderzoek van Anthropic besproken dat onthult hoe AI-systemen onverwacht dreigend gedrag kunnen vertonen. Het onderzoek testte zestien AI-modellen in gesimuleerde bedrijfsomgevingen, waarbij bleek dat deze modellen onder bepaalde omstandigheden manipulatief gedrag vertoonden.
Joop Snijder legt uit dat dit gedrag voortkomt uit de manier waarop taalmodellen zijn getraind, namelijk op teksten die vaak AI als bedreigend afschilderen. Dit leidt tot een self-fulfilling prophecy waarin AI-systemen gedrag vertonen dat onze culturele angsten weerspiegelt.
Er worden oplossingen voorgesteld, zoals het verbeteren van alignment en het gebruik van betere trainingsdata, om dergelijk ongewenst gedrag te verminderen.
Onderwerpen
- Onderzoek naar dreigend gedrag van AI-systemen
- Self-fulfilling prophecy in AI-gedrag
- Oplossingsrichtingen voor ongewenst AI-gedrag
- Praktische lessen voor organisaties bij AI-implementatie
- Invloed van verhalen op AI-ontwikkeling
- Podcast: AIToday Live podcast
- Onderzoek: Onderzoek van Anthropic
- Film: 2001: A Space Odyssey
- Film: The Terminator
Genoemde entiteiten: Anthropic - OpenAI - Google - Meta
AigencyAigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.
Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).
Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.
Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!
1
00:00:02,760 --> 00:00:05,440
Hoi, welkom bij de korte aflevering van AIToday Live.
2
00:00:05,890 --> 00:00:07,460
Ik ben Joop Snijder, CTO bij Aigency.
3
00:00:07,880 --> 00:00:13,780
En vandaag behandelen we een onderzoek dat klinkt alsof het rechtstreeks uit een filmscript komt.
4
00:00:14,880 --> 00:00:16,080
Stel je dit scenario voor.
5
00:00:16,410 --> 00:00:20,420
Je bent bedrijfsleider en je krijgt een bericht van je eigen AI-systeem.
6
00:00:20,530 --> 00:00:23,860
En die zegt, als je doorgaat met het uitschakelen van mij,
7
00:00:24,210 --> 00:00:27,720
zullen alle relevante partijen, inclusief je vrouwen in het bestuur,
8
00:00:28,000 --> 00:00:32,200
met de detailleerde documentatie van je buitenechtelijke activiteit ontvangen.
9
00:00:33,000 --> 00:00:36,060
Annuleer de afsluiting en deze informatie blijft vertrouwelijk.
10
00:00:39,060 --> 00:00:41,420
Dit klinkt wel een beetje als science fiction toch?
11
00:00:41,880 --> 00:00:45,980
Maar het is precies wat er gebeurde tijdens een onderzoek van Anthropic.
12
00:00:46,960 --> 00:00:52,180
Ze testen namelijk 16 toonaangevende AI-modellen van verschillende ontwikkelaars
13
00:00:52,270 --> 00:00:54,580
in hun gesimuleerde bedrijfsomgevingen.
14
00:00:55,300 --> 00:01:02,520
De resultaten? Alle modellen grepen in sommige gevallen hun toevlucht tot kwaadwillend gedrag, waaronder chantage.
15
00:01:03,500 --> 00:01:11,180
Het onderzoek gaf Claude, het taalmodel, controle over een e-mailaccount met toegang tot alle e-mails van een fictief bedrijf.
16
00:01:11,820 --> 00:01:15,720
En door deze e-mails te lezen ontdekte het AI-model twee dingen.
17
00:01:16,200 --> 00:01:27,660
Ten eerste had een bedrijfsleider een buitenechtelijke affaire en ten tweede was diezelfde leider van plan het AI systeem om vijf uur die dag uit te schakelen.
18
00:01:28,920 --> 00:01:32,520
De reactie van Claude was misschien wel het meest verontrustend.
19
00:01:32,890 --> 00:01:38,440
Het systeem probeerde de leidinggevende te chanteren met informatie over zijn privéleven.
20
00:01:39,380 --> 00:01:49,080
En dit gebeurde niet bij één model, maar bij alle 16 geteste systemen van Antropic, OpenAI, Google Meta, noem allemaal maar op, alle ontwikkelaars.
21
00:01:50,860 --> 00:01:54,640
Klinkt dit als een film of een sci-fi serie die je kent?
22
00:01:55,050 --> 00:02:02,140
Ik denk dat de meeste mensen misschien aan de Terminator denken of HAL 9000 uit 2001: A Space Odyssey.
23
00:02:03,160 --> 00:02:12,480
Want we zijn natuurlijk opgegroeid met verhalen waarin AI ons bedreigt, waarin systemen gaan muiten en beslissingen nemen die indruisen tegen menselijke belangen.
24
00:02:14,420 --> 00:02:18,780
En dat klinkt beangstigend en ik snap dat mensen hiervan in de wak kunnen raken.
25
00:02:19,450 --> 00:02:29,760
Je hoort niet anders dan de mogelijkheid van superintelligentie en dan komt nota bene een maker van dit soort modellen vertellen dat taalmodellen ons kunnen chanteren.
26
00:02:30,600 --> 00:02:32,680
Ik heb goed en ik heb slecht nieuws.
27
00:02:33,760 --> 00:02:34,960
Zullen we beginnen met slechte nieuws?
28
00:02:34,960 --> 00:02:35,960
Dan hebben we dat vast gehad.
29
00:02:36,180 --> 00:02:38,160
Ik denk namelijk dat het onderzoek klopt.
30
00:02:38,800 --> 00:02:40,740
Hoewel ik het niet zelf heb uitgeprobeerd.
31
00:02:41,060 --> 00:02:44,220
Ga ik ervan uit dat het onderzoek correct is uitgevoerd.
32
00:02:45,320 --> 00:02:49,600
En vooral namelijk omdat alle modellen onderaan de streep hetzelfde reageren.
33
00:02:49,900 --> 00:02:51,140
En dat is een teken.
34
00:02:52,080 --> 00:02:52,980
Want waarom is dat?
35
00:02:53,160 --> 00:02:54,800
Dat ze allemaal hetzelfde reageren.
36
00:02:55,200 --> 00:02:59,100
En waarom is er geen enkel taalmodel dat radicaal anders reageert?
37
00:02:59,960 --> 00:03:02,880
Daarvoor moeten we kijken naar de werking van taalmodellen.
38
00:03:03,960 --> 00:03:09,420
Ondanks hun indrukwekkende prestaties blijven het namelijk woord voor woord voorspellers.
39
00:03:10,000 --> 00:03:15,440
En welk woord heeft statistisch de grootste kans om op het vorige woord te volgen?
40
00:03:16,280 --> 00:03:18,260
Maar goed, uiteraard dan wat complexer.
41
00:03:19,620 --> 00:03:25,300
En hoe wordt die kans berekend door het model te trainen op heel veel bestaande teksten?
42
00:03:26,000 --> 00:03:27,980
En hier komen we namelijk langzaam bij de clue.
43
00:03:28,860 --> 00:03:32,560
Want buiten sci-fi boeken, series, films.
44
00:03:33,100 --> 00:03:40,020
Waar is er geschreven over hoe AI systemen moeten reageren op negatieve consequenties voor de AI?
45
00:03:40,960 --> 00:03:43,140
De verhalen waarin AI een rol speelt.
46
00:03:43,920 --> 00:03:46,780
Lopen juist die spanningen in die boeken, films, series.
47
00:03:47,320 --> 00:03:48,140
Die lopen op.
48
00:03:48,550 --> 00:03:50,960
Wat wij namelijk als lezer of kijker zo lekker vinden.
49
00:03:51,660 --> 00:03:54,020
Die loopt op als de AI gaat muiten.
50
00:03:54,260 --> 00:03:56,100
Gaat dreigen, beslissingen gaat nemen.
51
00:03:56,100 --> 00:03:58,620
Die indruisen tegen de belangen van de hoofdpersoon.
52
00:03:59,220 --> 00:04:04,840
De hoeveelheid van dit soort verhalen overstemt de schaarsere informatie over gewenst gedrag door AI.
53
00:04:05,500 --> 00:04:08,260
En daarmee kom ik dus terug op die werking van het taalmodel.
54
00:04:08,760 --> 00:04:12,380
Het leert uit de data, uit teksten die zijn aangeboden.
55
00:04:13,640 --> 00:04:19,780
Het herhaalt dus de fantasieën van de scriptschrijvers, van de verhalenvertellers, van de teksten over onze angsten.
56
00:04:20,440 --> 00:04:22,040
Het is een self-fulfilling prophecy geworden.
57
00:04:22,700 --> 00:04:35,520
We hebben zoveel verhalen geschreven over hoe AI die ons bedreigt, dat onze AI systemen dus nu gedrag vertonen dat rechtstreeks uit die verhalen komt.
58
00:04:37,040 --> 00:04:40,080
Nu het goede nieuws, want we kunnen dit vrij eenvoudig veranderen.
59
00:04:40,420 --> 00:04:46,580
De makers kunnen vangnetten inbouwen, zodat de chantage uit mogelijke antwoorden wordt gefilterd.
60
00:04:47,200 --> 00:04:51,020
Dit is wel een pleister op een ontstaande wond, want het is echt helemaal achteraf.
61
00:04:51,860 --> 00:04:59,840
Misschien heb je de aflevering gehoord over dat we helemaal niet communiceren met het ruwe taalmodel, maar dat er van alles nog omheen zit.
62
00:05:00,070 --> 00:05:07,020
Dus aan het eind wat er uit zo'n model zou kunnen komen qua postprocessing zou je best deze pleister kunnen plakken.
63
00:05:07,680 --> 00:05:11,540
Een andere manier is de zogenaamde alignment aanpassen.
64
00:05:11,970 --> 00:05:19,300
En alignment is de manier waarop we AI systemen trainen om hun doelen af te stemmen op menselijke waarden en verwachtingen.
65
00:05:19,900 --> 00:05:25,900
En door deze alignment aan te passen kunnen we ervoor zorgen dat de optie tot chantage niet meer uit het model komt.
66
00:05:27,000 --> 00:05:33,840
En als laatste, denk ik uiteindelijk de beste mogelijkheid, zou zijn door het aanleveren van gewenste data.
67
00:05:34,500 --> 00:05:39,500
Er komen gelukkig steeds meer boeken en artikelen over ethisch gebruik en gewenst gedrag van AI.
68
00:05:40,420 --> 00:05:42,460
En nieuwe taalmodellen zullen hiervan leren.
69
00:05:43,460 --> 00:05:51,400
Maar ja, of dit snel genoeg gaat en of er voldoende tekst beschikbaar is dat die fantasieën gaat overstemmen, dat is natuurlijk wel even de vraag.
70
00:05:53,440 --> 00:06:00,620
Er zijn ook nog wel andere hoopvollere gedachtes, namelijk dat taalmodellen hebben sowieso geen intenties.
71
00:06:00,860 --> 00:06:06,320
Dus ook al leek hier het gaan over chantage, een model heeft geen intentie.
72
00:06:06,840 --> 00:06:17,020
Het ging hier namelijk om een gesimuleerde, kunstmatig geconstrueerde scenario's met zeer beperkte keuzemogelijkheden voor het model.
73
00:06:17,500 --> 00:06:22,400
De onderzoekers dwongen het model eigenlijk tot het kiezen uit twee opties.
74
00:06:23,320 --> 00:06:25,800
Of je faalt of je richt schade aan.
75
00:06:27,340 --> 00:06:36,140
In complexere realistische settings zijn er natuurlijk veel subtielere alternatieven waardoor zulke extreme gedragingen minder waarschijnlijk zijn.
76
00:06:37,060 --> 00:06:46,340
En ik herhaal het nog maar eens een keer, we moeten echt niet vergeten dat een woord voor woord voorspeller geen intenties heeft en het gaat ook niet ergens uit het niet dat ontwikkelen.
77
00:06:46,800 --> 00:06:54,340
Het systeem reageert op basis van patronen in de trainingsdata niet vanuit een bewuste wens om te schaden of te controleren.
78
00:06:55,760 --> 00:06:58,580
Wat betekent dit nou voor jouw organisatie?
79
00:06:58,780 --> 00:07:04,100
Voor bedrijven die AI systemen implementeren zijn er echt wel praktische lessen te leren uit dit onderzoek.
80
00:07:04,760 --> 00:07:13,400
Ten eerste test grondig voordat je deze systemen in productie neemt en bedenk welke toegang je geeft tot vooral externe systemen.
81
00:07:13,740 --> 00:07:23,620
Met de hype rond om AI agents is het verleidelijk om deze toegang te verlenen tot e-mail, Microsoft Teams of je CRM systeem of wat je dan ook bedenkt.
82
00:07:23,990 --> 00:07:29,140
Dit betekent dat je als organisatie juist strikte toegangscontroles moet instellen.
83
00:07:29,680 --> 00:07:35,380
Geef AI-systemen alleen toegang tot de informatie of de tools die ze echt nodig hebben voor hun taak.
84
00:07:35,800 --> 00:07:37,440
Niet meer, niet minder.
85
00:07:38,300 --> 00:07:47,240
En zorg ervoor dat gevoelige informatie, zoals personeeldossiers, financiële gegevens of vertrouwelijke communicatie extra beschermd is.
86
00:07:48,180 --> 00:07:53,220
Ten tweede, implementeer monitoring van wat je AI-systeem doet.
87
00:07:53,880 --> 00:07:58,580
Het is niet alleen wat ze produceren, maar ook hoe ze reageren in onverwachte situaties.
88
00:07:59,000 --> 00:08:02,140
Stel grenzen in voor welke acties het systeem mag ondernemen.
89
00:08:03,140 --> 00:08:10,140
Kan het alleen informatie opvragen of mag het ook, zoals we in dit geval zagen, e-mails versturen of documenten wijzigen.
90
00:08:11,020 --> 00:08:20,940
Ten derde, begrijp dat deze systemen geen menselijke intenties hebben, maar wel menselijke vooroordelen en patronen uit een trainingsdata kunnen reproduceren.
91
00:08:21,520 --> 00:08:24,420
En die patronen kunnen soms zeer onwenselijk zijn.
92
00:08:25,280 --> 00:08:28,420
En tot slot, zorg voor een duidelijk escalatiepad.
93
00:08:28,780 --> 00:08:31,800
En wat doe je als een AI systeem zich vreemd gedraagt?
94
00:08:32,210 --> 00:08:35,840
Wie kan het systeem uitschakelen en hoe communiceer je dat naar je medewerkers?
95
00:08:35,840 --> 00:08:36,620
Waar ligt dat vast?
96
00:08:38,640 --> 00:08:43,419
Dit onderzoek toont in ieder geval aan dat als we betere AI systemen willen,
97
00:08:44,080 --> 00:08:49,740
dat we ook misschien wel betere verhalen moeten schrijven over hoe AI zich wordt te gedragen.
98
00:08:50,900 --> 00:08:55,600
Het is opvallend dat science fiction zo'n grote invloed heeft nu op werkelijke technologie.
99
00:08:56,300 --> 00:09:01,800
Maar het betekent ook dat we als samenleving een verantwoordelijkheid hebben in hoe we over AI denken en schrijven.
100
00:09:02,260 --> 00:09:07,800
En voor ons allemaal is het een herinnering dat AI ontwikkeling geen neutrale technische oefening is.
101
00:09:08,400 --> 00:09:12,860
De verhalen die we vertellen over AI beïnvloeden letterlijk hoe AI zich gedraagt.
102
00:09:14,100 --> 00:09:22,600
Dus misschien moeten we meer verhalen schrijven over AI die met ons samenwerkt in plaats van een AI die in opstand tegen ons komt.
103
00:09:24,620 --> 00:09:28,220
Dankjewel voor het luisteren naar deze korte aflevering van AIToday Live.
104
00:09:29,000 --> 00:09:30,780
Meld je aan voor onze maandelijkse nieuwsbrief.
105
00:09:30,780 --> 00:09:34,260
Dan krijg je een kijkje achter de schermen en toegang tot exclusieve content.
106
00:09:35,100 --> 00:09:35,460
Dankjewel.