AIToday Live

S08E38 - Waarom wantrouwen de sleutel is tot vertrouwen in AI-agents

Aigency by Info Support Season 8 Episode 38

Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.

0:00 | 10:55

Waarom wantrouwen de basis is van AI-vertrouwen blijkt uit een beveiligingslek bij McKinsey. Een AI-agent kreeg binnen twee uur toegang tot 46,5 miljoen chatberichten en kon systeemprompts herschrijven die alle AI-adviezen zouden vergiftigen. Het probleem: McKinsey bouwde relationeel vertrouwen zonder technische basis - 22 van 200 API-eindpunten hadden geen authenticatie.

Joop laat zien hoe wantrouwen en vertrouwen verschillende lagen zijn die samen AI-veiligheid creëren. Van infrastructuur met zero trust tot transparantie over wat agents doen tot relationeel vertrouwen dat groeit door ervaring.

Morgen kun je een infrastructuur-audit doen van je AI-systemen: check authenticatie op alle eindpunten, logging van agentacties en automatische sessieverlopen in 15 minuten.

Onderwerpen

  • McKinsey beveiligingslek door SQL-injectie in AI-platform
  • Onderscheid tussen technisch en relationeel vertrouwen bij AI
  • Drielagenmodel voor AI-beveiliging: infrastructuur, transparantie en samenwerking
  • Zero trust architectuur als basis voor veilige AI-implementatie
Links

Genoemde entiteiten: McKinsey - CodeWall - Lilli

Stuur ons een bericht

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:02,800 --> 00:00:06,160
Welkom bij de korte aflevering van AIToday Live.

2
00:00:06,160 --> 00:00:09,440
Mijn naam is Joop Snijder, CTO bij Aigency.

3
00:00:09,439 --> 00:00:17,359
En vandaag gaan we het hebben over een ve1
00:00:02,800 --> 00:00:06,160
Welkom bij de korte aflevering van AIToday Live.

2
00:00:06,160 --> 00:00:09,440
Mijn naam is Joop Snijder, CTO bij Aigency.

3
00:00:09,439 --> 00:00:17,359
En vandaag gaan we het hebben over een vertrouwensparadox: waarom wantrouwen de basis is van vertrouwen.

4
00:00:17,359 --> 00:00:21,280
Klinkt heel apart, ik ga je alles over vertellen.

5
00:00:21,920 --> 00:00:23,919
Ik begin eerst even bij het begin.

6
00:00:23,919 --> 00:00:35,520
Op 28 februari liet een beveiligingsstartup een AI-agent los op het interne AI-platform van McKinsey zonder menselijke begeleiding.

7
00:00:35,520 --> 00:00:41,280
En deze agent zocht zelfstandig naar kwetsbaarheden, vond ze en brak in.

8
00:00:41,280 --> 00:00:46,399
En binnen twee uur had deze agent volledige toegang tot de productiedatabase.

9
00:00:46,399 --> 00:00:51,839
En dat betekende toegang tot 46,5 miljoen chatberichten.

10
00:00:52,160 --> 00:00:57,359
Bijna 730.000 bestanden en 57.000 werknemersaccounts.

11
00:00:57,359 --> 00:01:03,359
En het ergste: schrijftoegang tot de systeemprompts die het gedrag van het platform aansturen.

12
00:01:03,600 --> 00:01:11,920
Dus een aanvaller had de AI-adviezen van al deze McKinsey-consultants kunnen vergiftigen zonder dat iemand het merkte.

13
00:01:12,240 --> 00:01:15,919
De kwetsbaarheid was SQL-injectie.

14
00:01:15,920 --> 00:01:18,479
En voor de niet-technische onder ons.

15
00:01:18,480 --> 00:01:22,159
SQL is de taal waarmee software met databases praat.

16
00:01:22,240 --> 00:01:25,839
Bij SQL-injectie type je als gebruiker iets in een zoekveld.

17
00:01:25,840 --> 00:01:30,639
Maar in plaats van een zoekopdracht stuur je een stukje databasetaal mee.

18
00:01:30,640 --> 00:01:35,599
En het systeem voert dat dan braaf uit alsof het een legitiem verzoek is.

19
00:01:35,600 --> 00:01:40,239
En het is een techniek die in 1998 is ontdekt.

20
00:01:40,239 --> 00:01:42,079
28 jaar oud.

21
00:01:42,079 --> 00:01:46,079
En standaard beveiligingstools hadden deze variant niet gevonden.

22
00:01:46,080 --> 00:01:47,839
De AI-agent wel.

23
00:01:48,400 --> 00:01:52,079
Wat ik ga vertellen, is geen verhaal over hackers.

24
00:01:52,079 --> 00:01:54,959
Maar dit wordt een verhaal namelijk over vertrouwen.

25
00:01:54,960 --> 00:02:01,359
Namelijk over de vraag: wanneer mag je een AI-systeem vertrouwen en wanneer absoluut niet.

26
00:02:01,359 --> 00:02:06,079
Want er zit een tegenstrijdigheid in hoe we over vertrouwen en AI praten.

27
00:02:06,080 --> 00:02:10,479
En over die tegenstrijdigheid ga ik je alles vertellen vandaag.

28
00:02:12,240 --> 00:02:19,359
In mijn boek Doeltreffend met AI-agents pleit ik in het beveiligingshoofdstuk voor zero trust.

29
00:02:19,360 --> 00:02:22,000
Fundamenteel wantrouwen.

30
00:02:22,000 --> 00:02:25,919
Geen enkele agent gaan we automatisch vertrouwen.

31
00:02:25,920 --> 00:02:29,280
Ook niet als die gisteren perfect functioneerden.

32
00:02:29,520 --> 00:02:37,840
En in een ander hoofdstuk later pleit ik voor vertrouwen als fundament van mens-machinesamenwerking.

33
00:02:38,159 --> 00:02:44,640
Acceptatie groeit, namelijk door transparantie, positieve ervaringen en geleidelijke uitbreiding van autonomie.

34
00:02:45,840 --> 00:02:48,319
Hoe kan dat allebei dan waar zijn?

35
00:02:48,560 --> 00:02:51,439
Wantrouwen als basis en vertrouwen als fundament.

36
00:02:51,439 --> 00:02:54,239
Dat klinkt dan als tegenstelling.

37
00:02:55,120 --> 00:02:56,880
Maar dat is het niet.

38
00:02:56,879 --> 00:03:00,080
Want het zijn twee verschillende soorten van vertrouwen.

39
00:03:00,479 --> 00:03:06,719
Het onderscheid is best wel cruciaal, zeker naar wat er bij McKinsey is gebeurd.

40
00:03:06,719 --> 00:03:13,199
Want kijk, de verwarring ontstaat doordat we hetzelfde woord gebruiken voor twee echt verschillende dingen.

41
00:03:13,199 --> 00:03:17,359
Het eerste type noem ik dan ook voor nu technisch vertrouwen.

42
00:03:17,519 --> 00:03:18,560
Dit is de vraag.

43
00:03:18,560 --> 00:03:27,600
Kan ik erop rekenen dat dit systeem doet wat het moet doen binnen de kaders die we hebben gesteld zonder ongeautoriseerde acties.

44
00:03:27,600 --> 00:03:32,159
Het gaat over authenticatie, autorisatie, logging, verificatie.

45
00:03:32,160 --> 00:03:34,479
En dat is binair.

46
00:03:38,000 --> 00:03:41,759
Je bent geautoriseerd of niet, een actie is geverifieerd of niet.

47
00:03:41,759 --> 00:03:44,080
Het is het één of het ander.

48
00:03:44,080 --> 00:03:48,000
Het tweede type is relationeel vertrouwen.

49
00:03:48,000 --> 00:03:53,439
Dit is de vraag: geloof ik dat samenwerking met het systeem mij beter maakt in mijn werk.

50
00:03:53,439 --> 00:04:00,319
Het gaat over begrijpen wat een agent doet, waarom het bepaalde keuzes maakt en het gevoel dat je als mens de regie houdt.

51
00:04:00,479 --> 00:04:01,679
Dit vertrouwen.

52
00:04:02,240 --> 00:04:04,240
Dat is gradueel, geleidelijk.

53
00:04:04,240 --> 00:04:08,000
Het groeit door ervaring en krimpt door teleurstelling.

54
00:04:08,240 --> 00:04:09,920
Die zero trust.

55
00:04:10,879 --> 00:04:12,719
Gaat over het eerste type.

56
00:04:12,719 --> 00:04:16,319
Mens-machinesamenwerking gaat over het tweede type.

57
00:04:16,879 --> 00:04:20,800
Laten we even teruggaan naar het geval van McKinsey.

58
00:04:20,799 --> 00:04:24,639
Want dat incident maakt het onderscheid pijnlijk concreet.

59
00:04:24,959 --> 00:04:26,879
Kijk, McKinsey bouwde Lilli.

60
00:04:26,879 --> 00:04:32,800
Een intern AI-platform dat zij sinds 2023 gebruiken.

61
00:04:33,199 --> 00:04:35,759
Het heeft een hele hoge adoptiegraad.

62
00:04:35,759 --> 00:04:39,520
Ze verwerken een half miljoen prompts per maand.

63
00:04:39,520 --> 00:04:44,320
En de consultants vertrouwen dat systeem behoorlijk, of volledig zou je kunnen zeggen.

64
00:04:44,639 --> 00:04:50,799
Daarin deelden ze dan strategische analyses en uploaden vertrouwelijke klantdocumenten.

65
00:04:50,799 --> 00:04:53,199
Dat is dan het relationele vertrouwen.

66
00:04:53,240 --> 00:04:54,160
En het is logisch.

67
00:04:54,160 --> 00:04:59,439
Want McKinsey is een van de meest geavanceerde organisaties ter wereld, zou je kunnen zeggen.

68
00:04:59,439 --> 00:05:04,920
Maar op de infrastructuurlaag, technisch vertrouwen, daar zat een gat.

69
00:05:04,920 --> 00:05:08,759
Er waren 200 API-eindpunten.

70
00:05:08,759 --> 00:05:15,079
Dat zijn dus punten waar de programma's en agents dat kunnen gebruiken, geprogrammeerd kunnen gebruiken.

71
00:05:15,079 --> 00:05:19,079
En 22 daarvan waren dus zonder authenticatie.

72
00:05:19,079 --> 00:05:29,320
En één daarvan verwerkte de zoekopdrachten van gebruikers en plakte de invoer rechtstreeks in zo'n SQL-query zonder controle.

73
00:05:29,639 --> 00:05:37,800
En dat is het equivalent van een ultramodern kantoor met gezichtsherkenning bij de hoofdingang, pasjes, alles.

74
00:05:38,920 --> 00:05:41,240
Je kent het wel als je ergens binnen moet komen.

75
00:05:41,240 --> 00:05:46,759
Maar met een achterdeur die gewoon niet op een kier staat, maar wagenwijd open staat.

76
00:05:46,759 --> 00:05:49,639
De consultants die in het gebouw werken, voelden zich veilig.

77
00:05:49,639 --> 00:05:51,560
Ze vertrouwden het systeem.

78
00:05:51,560 --> 00:05:57,319
Maar dat vertrouwen was gebouwd op een fundament met een scheur, zou je kunnen zeggen.

79
00:05:57,960 --> 00:06:01,719
En dan komt het meest verontrustende detail.

80
00:06:01,720 --> 00:06:06,199
De AI-agent die het systeem kraakte, was namelijk autonoom.

81
00:06:06,199 --> 00:06:08,040
Dus geen mens achter het stuur.

82
00:06:08,040 --> 00:06:15,560
De agent vond de kwetsbaarheden zelf, koos zelf zijn aanvalsroute en werkte zelfstandig toe naar de productiedatabase.

83
00:06:16,199 --> 00:06:24,360
En de CEO van CodeWall, dat is dan degene van die startup die dit gemaakt heeft, Paul Price.

84
00:06:24,360 --> 00:06:25,560
Die zei het zo.

85
00:06:25,879 --> 00:06:29,960
De agent werkt volledig autonoom.

86
00:06:29,960 --> 00:06:37,480
Vanaf research tot het doel en het analyseren, aanvallen, rapporten genereren, alles deed hij zelf.

87
00:06:37,480 --> 00:06:41,960
En waarschuwde: kwaadwillenden zullen dit niet netjes melden.

88
00:06:41,959 --> 00:06:44,600
Zij hebben dit netjes gemeld als organisatie.

89
00:06:44,600 --> 00:06:47,560
Maar zegt terecht, kwaadwillenden zullen dit natuurlijk niet doen.

90
00:06:47,560 --> 00:06:51,879
Die gaan voor financiële chantage, ransomware, noem alles maar op.

91
00:06:52,680 --> 00:07:00,040
En de systeemprompts, de instructies die bepalen hoe Lilli zich gedraagt, stonden in diezelfde kwetsbare database.

92
00:07:00,039 --> 00:07:02,839
Overschrijfbaar met één enkel commando.

93
00:07:03,800 --> 00:07:10,200
Dit is precies de reden waarom het onderscheid tussen technisch en relationeel vertrouwen niet theoretisch is.

94
00:07:10,199 --> 00:07:11,000
Het is praktisch.

95
00:07:11,000 --> 00:07:18,359
Wanneer AI-agents zowel je verdediging als je aanvallers zijn, is de infrastructuurlaag geen bijzaak meer.

96
00:07:19,319 --> 00:07:31,959
In mijn boek gebruik ik voor sommige delen een orkest als metafoor voor de mens-machinesamenwerking. Laat me daar dan een laag aan toevoegen die deze paradox in zekere zin oplost.

97
00:07:31,960 --> 00:07:41,400
Een orkest speelt in een concertzaal en die zaal is gebouwd volgens strikte bouwnormen: brandveiligheid, nooduitgangen, constructieve integriteit, alles.

98
00:07:41,399 --> 00:07:44,839
En geen van die normen is gebaseerd op vertrouwen.

99
00:07:44,840 --> 00:07:46,599
Ze zijn gebaseerd op wantrouwen.
100
00:07:46,600 --> 00:07:54,920
Het gebouw gaat ervan uit dat er brand kan uitbreken, dat de constructie kan falen en dat bezoekers in paniek kunnen raken.
 100
00:07:55,240 --> 00:07:59,240
Maar de muzikanten op het podium vertrouwen elkaar volledig.
 101
00:07:59,240 --> 00:08:03,879
Ze luisteren, anticiperen, geven en nemen ruimte in.
 102
00:08:03,879 --> 00:08:06,519
En niemand ervaart dat als tegenstelling.
 103
00:08:06,519 --> 00:08:12,360
En niemand zegt: hoe kunnen muzici elkaar vertrouwen in een gebouw dat ontworpen is vanuit wantrouwen.
 104
00:08:12,360 --> 00:08:14,519
Het antwoord is vanzelfsprekend.
 105
00:08:14,519 --> 00:08:19,319
Het is juist omdat het gebouw veilig is, kunnen de muzici zich richten op de muziek.
 106
00:08:19,560 --> 00:08:24,359
Bij McKinsey stond het gebouw in brand terwijl het orkest speelde.
 107
00:08:25,560 --> 00:08:28,919
Hoe voorkom je nou wat McKinsey is overkomen?
 108
00:08:29,240 --> 00:08:35,160
Dat kun je doen door bewust drie lagen te ontwerpen die elke eigen vertrouwenslogica volgen.
 109
00:08:35,159 --> 00:08:37,400
Laag 1, de infrastructuurlaag.
 110
00:08:37,399 --> 00:08:40,920
Dus hier geldt zero trust zonder compromis.
 111
00:08:41,240 --> 00:08:52,840
Elke API-call wordt geverifieerd, elke agentactie wordt gelogd, authenticaties verlopen, rechten worden per sessie toegekend en zijn niet permanent.
 112
00:08:53,799 --> 00:08:56,360
Laag 2, de transparantielaag.
 113
00:08:56,360 --> 00:09:00,440
Deze laag maakt zichtbaar wat de agent doet en waarom.
 114
00:09:00,680 --> 00:09:06,919
Niet in technische logs, maar in begrijpelijke taal voor de gebruiker.
 115
00:09:08,680 --> 00:09:16,200
Je krijgt dus ook automatisch meldingen als er gedrag plaatsvindt wat niet hoort.
 116
00:09:16,200 --> 00:09:18,520
Dit kan je gewoon automatiseren.
 117
00:09:18,840 --> 00:09:22,519
Laag 3, dat is de samenwerkingslaag.
 118
00:09:23,000 --> 00:09:25,080
Hier geldt die relationele vertrouwen.
 119
00:09:25,240 --> 00:09:29,320
De medewerker leert wanneer de agent betrouwbaar is en wanneer niet.
 120
00:09:29,319 --> 00:09:32,360
De agent krijgt dan geleidelijk meer autonomie.
 121
00:09:33,000 --> 00:09:36,440
Maar de mens kan dan wel ingrijpen.
 122
00:09:36,680 --> 00:09:39,160
Deze drie lagen zijn op elkaar gestapeld.
 123
00:09:39,160 --> 00:09:44,960
Dus laag 3 kan niet functioneren zonder laag 2, en laag 2 kan niet functioneren zonder laag 1.
 124
00:09:44,600 --> 00:09:51,520
Nou, we hebben het gehad over de paradox tussen wantrouwen zero trust en vertrouwen.
 125
00:09:51,840 --> 00:09:55,279
Maar ja, uiteindelijk is dat helemaal geen tegenstelling.
 126
00:09:55,600 --> 00:10:00,720
Maar McKinsey liet zien wat er gebeurt als je het gebouw verwaarloost.
 127
00:10:01,679 --> 00:10:05,759
Kijk deze week eens naar je eigen AI-implementaties.
 128
00:10:05,759 --> 00:10:07,759
Dan niet naar de samenwerkingslaag.
 129
00:10:07,759 --> 00:10:09,839
Die voelt waarschijnlijk wel goed.
 130
00:10:09,840 --> 00:10:11,840
Maar kijk eens naar die infrastructuurlaag.
 131
00:10:12,000 --> 00:10:18,879
Zijn al je API-eindpunten geauthenticeerd, worden agentacties gelogd verlopen authenticaties automatisch.
 132
00:10:19,039 --> 00:10:23,200
Consultants van McKinsey vertrouwden Lilli en dat is terecht.
 133
00:10:23,200 --> 00:10:26,799
Maar het gebouw waarin Lilli woonde had een achterdeur die op een kier stond.
 134
00:10:26,799 --> 00:10:31,520
En een autonome agent vond die deur binnen twee uur.
 135
00:10:31,759 --> 00:10:33,600
Wil je meer hierover lezen?
 136
00:10:33,600 --> 00:10:35,919
Je vindt de links in de shownotes.
 137
00:10:36,559 --> 00:10:42,000
En bedenk zoals altijd: AI is niet de oplossing voor elk probleem, onmisbaar waar het past.
 138
00:10:42,000 --> 00:10:55,280
Tot de volgende keer.
 rtrouwensparadox: waarom wantrouwen de basis is van vertrouwen.

4
00:00:17,359 --> 00:00:21,280
Klinkt heel apart, ik ga je alles over vertellen.

5
00:00:21,920 --> 00:00:23,919
Ik begin eerst even bij het begin.

6
00:00:23,919 --> 00:00:35,520
Op 28 februari liet een beveiligingsstartup een AI-agent los op het interne AI-platform van McKinsey zonder menselijke begeleiding.

7
00:00:35,520 --> 00:00:41,280
En deze agent zocht zelfstandig naar kwetsbaarheden, vond ze en brak in.

8
00:00:41,280 --> 00:00:46,399
En binnen twee uur had deze agent volledige toegang tot de productiedatabase.

9
00:00:46,399 --> 00:00:51,839
En dat betekende toegang tot 46,5 miljoen chatberichten.

10
00:00:52,160 --> 00:00:57,359
Bijna 730.000 bestanden en 57.000 werknemersaccounts.

11
00:00:57,359 --> 00:01:03,359
En het ergste: schrijftoegang tot de systeemprompts die het gedrag van het platform aansturen.

12
00:01:03,600 --> 00:01:11,920
Dus een aanvaller had de AI-adviezen van al deze McKinsey-consultants kunnen vergiftigen zonder dat iemand het merkte.

13
00:01:12,240 --> 00:01:15,919
De kwetsbaarheid was SQL-injectie.

14
00:01:15,920 --> 00:01:18,479
En voor de niet-technische onder ons.

15
00:01:18,480 --> 00:01:22,159
SQL is de taal waarmee software met databases praat.

16
00:01:22,240 --> 00:01:25,839
Bij SQL-injectie type je als gebruiker iets in een zoekveld.

17
00:01:25,840 --> 00:01:30,639
Maar in plaats van een zoekopdracht stuur je een stukje databasetaal mee.

18
00:01:30,640 --> 00:01:35,599
En het systeem voert dat dan braaf uit alsof het een legitiem verzoek is.

19
00:01:35,600 --> 00:01:40,239
En het is een techniek die in 1998 is ontdekt.

20
00:01:40,239 --> 00:01:42,079
28 jaar oud.

21
00:01:42,079 --> 00:01:46,079
En standaard beveiligingstools hadden deze variant niet gevonden.

22
00:01:46,080 --> 00:01:47,839
De AI-agent wel.

23
00:01:48,400 --> 00:01:52,079
Wat ik ga vertellen, is geen verhaal over hackers.

24
00:01:52,079 --> 00:01:54,959
Maar dit wordt een verhaal namelijk over vertrouwen.

25
00:01:54,960 --> 00:02:01,359
Namelijk over de vraag: wanneer mag je een AI-systeem vertrouwen en wanneer absoluut niet.

26
00:02:01,359 --> 00:02:06,079
Want er zit een tegenstrijdigheid in hoe we over vertrouwen en AI praten.

27
00:02:06,080 --> 00:02:10,479
En over die tegenstrijdigheid ga ik je alles vertellen vandaag.

28
00:02:12,240 --> 00:02:19,359
In mijn boek Doeltreffend met AI-agents pleit ik in het beveiligingshoofdstuk voor zero trust.

29
00:02:19,360 --> 00:02:22,000
Fundamenteel wantrouwen.

30
00:02:22,000 --> 00:02:25,919
Geen enkele agent gaan we automatisch vertrouwen.

31
00:02:25,920 --> 00:02:29,280
Ook niet als die gisteren perfect functioneerden.

32
00:02:29,520 --> 00:02:37,840
En in een ander hoofdstuk later pleit ik voor vertrouwen als fundament van mens-machinesamenwerking.

33
00:02:38,159 --> 00:02:44,640
Acceptatie groeit, namelijk door transparantie, positieve ervaringen en geleidelijke uitbreiding van autonomie.

34
00:02:45,840 --> 00:02:48,319
Hoe kan dat allebei dan waar zijn?

35
00:02:48,560 --> 00:02:51,439
Wantrouwen als basis en vertrouwen als fundament.

36
00:02:51,439 --> 00:02:54,239
Dat klinkt dan als tegenstelling.

37
00:02:55,120 --> 00:02:56,880
Maar dat is het niet.

38
00:02:56,879 --> 00:03:00,080
Want het zijn twee verschillende soorten van vertrouwen.

39
00:03:00,479 --> 00:03:06,719
Het onderscheid is best wel cruciaal, zeker naar wat er bij McKinsey is gebeurd.

40
00:03:06,719 --> 00:03:13,199
Want kijk, de verwarring ontstaat doordat we hetzelfde woord gebruiken voor twee echt verschillende dingen.

41
00:03:13,199 --> 00:03:17,359
Het eerste type noem ik dan ook voor nu technisch vertrouwen.

42
00:03:17,519 --> 00:03:18,560
Dit is de vraag.

43
00:03:18,560 --> 00:03:27,600
Kan ik erop rekenen dat dit systeem doet wat het moet doen binnen de kaders die we hebben gesteld zonder ongeautoriseerde acties.

44
00:03:27,600 --> 00:03:32,159
Het gaat over authenticatie, autorisatie, logging, verificatie.

45
00:03:32,160 --> 00:03:34,479
En dat is binair.

46
00:03:38,000 --> 00:03:41,759
Je bent geautoriseerd of niet, een actie is geverifieerd of niet.

47
00:03:41,759 --> 00:03:44,080
Het is het één of het ander.

48
00:03:44,080 --> 00:03:48,000
Het tweede type is relationeel vertrouwen.

49
00:03:48,000 --> 00:03:53,439
Dit is de vraag: geloof ik dat samenwerking met het systeem mij beter maakt in mijn werk.

50
00:03:53,439 --> 00:04:00,319
Het gaat over begrijpen wat een agent doet, waarom het bepaalde keuzes maakt en het gevoel dat je als mens de regie houdt.

51
00:04:00,479 --> 00:04:01,679
Dit vertrouwen.

52
00:04:02,240 --> 00:04:04,240
Dat is gradueel, geleidelijk.

53
00:04:04,240 --> 00:04:08,000
Het groeit door ervaring en krimpt door teleurstelling.

54
00:04:08,240 --> 00:04:09,920
Die zero trust.

55
00:04:10,879 --> 00:04:12,719
Gaat over het eerste type.

56
00:04:12,719 --> 00:04:16,319
Mens-machinesamenwerking gaat over het tweede type.

57
00:04:16,879 --> 00:04:20,800
Laten we even teruggaan naar het geval van McKinsey.

58
00:04:20,799 --> 00:04:24,639
Want dat incident maakt het onderscheid pijnlijk concreet.

59
00:04:24,959 --> 00:04:26,879
Kijk, McKinsey bouwde Lilli.

60
00:04:26,879 --> 00:04:32,800
Een intern AI-platform dat zij sinds 2023 gebruiken.

61
00:04:33,199 --> 00:04:35,759
Het heeft een hele hoge adoptiegraad.

62
00:04:35,759 --> 00:04:39,520
Ze verwerken een half miljoen prompts per maand.

63
00:04:39,520 --> 00:04:44,320
En de consultants vertrouwen dat systeem behoorlijk, of volledig zou je kunnen zeggen.

64
00:04:44,639 --> 00:04:50,799
Daarin deelden ze dan strategische analyses en uploaden vertrouwelijke klantdocumenten.

65
00:04:50,799 --> 00:04:53,199
Dat is dan het relationele vertrouwen.

66
00:04:53,240 --> 00:04:54,160
En het is logisch.

67
00:04:54,160 --> 00:04:59,439
Want McKinsey is een van de meest geavanceerde organisaties ter wereld, zou je kunnen zeggen.

68
00:04:59,439 --> 00:05:04,920
Maar op de infrastructuurlaag, technisch vertrouwen, daar zat een gat.

69
00:05:04,920 --> 00:05:08,759
Er waren 200 API-eindpunten.

70
00:05:08,759 --> 00:05:15,079
Dat zijn dus punten waar de programma's en agents dat kunnen gebruiken, geprogrammeerd kunnen gebruiken.

71
00:05:15,079 --> 00:05:19,079
En 22 daarvan waren dus zonder authenticatie.

72
00:05:19,079 --> 00:05:29,320
En één daarvan verwerkte de zoekopdrachten van gebruikers en plakte de invoer rechtstreeks in zo'n SQL-query zonder controle.

73
00:05:29,639 --> 00:05:37,800
En dat is het equivalent van een ultramodern kantoor met gezichtsherkenning bij de hoofdingang, pasjes, alles.

74
00:05:38,920 --> 00:05:41,240
Je kent het wel als je ergens binnen moet komen.

75
00:05:41,240 --> 00:05:46,759
Maar met een achterdeur die gewoon niet op een kier staat, maar wagenwijd open staat.

76
00:05:46,759 --> 00:05:49,639
De consultants die in het gebouw werken, voelden zich veilig.

77
00:05:49,639 --> 00:05:51,560
Ze vertrouwden het systeem.

78
00:05:51,560 --> 00:05:57,319
Maar dat vertrouwen was gebouwd op een fundament met een scheur, zou je kunnen zeggen.

79
00:05:57,960 --> 00:06:01,719
En dan komt het meest verontrustende detail.

80
00:06:01,720 --> 00:06:06,199
De AI-agent die het systeem kraakte, was namelijk autonoom.

81
00:06:06,199 --> 00:06:08,040
Dus geen mens achter het stuur.

82
00:06:08,040 --> 00:06:15,560
De agent vond de kwetsbaarheden zelf, koos zelf zijn aanvalsroute en werkte zelfstandig toe naar de productiedatabase.

83
00:06:16,199 --> 00:06:24,360
En de CEO van CodeWall, dat is dan degene van die startup die dit gemaakt heeft, Paul Price.

84
00:06:24,360 --> 00:06:25,560
Die zei het zo.

85
00:06:25,879 --> 00:06:29,960
De agent werkt volledig autonoom.

86
00:06:29,960 --> 00:06:37,480
Vanaf research tot het doel en het analyseren, aanvallen, rapporten genereren, alles deed hij zelf.

87
00:06:37,480 --> 00:06:41,960
En waarschuwde: kwaadwillenden zullen dit niet netjes melden.

88
00:06:41,959 --> 00:06:44,600
Zij hebben dit netjes gemeld als organisatie.

89
00:06:44,600 --> 00:06:47,560
Maar zegt terecht, kwaadwillenden zullen dit natuurlijk niet doen.

90
00:06:47,560 --> 00:06:51,879
Die gaan voor financiële chantage, ransomware, noem alles maar op.

91
00:06:52,680 --> 00:07:00,040
En de systeemprompts, de instructies die bepalen hoe Lilli zich gedraagt, stonden in diezelfde kwetsbare database.

92
00:07:00,039 --> 00:07:02,839
Overschrijfbaar met één enkel commando.

93
00:07:03,800 --> 00:07:10,200
Dit is precies de reden waarom het onderscheid tussen technisch en relationeel vertrouwen niet theoretisch is.

94
00:07:10,199 --> 00:07:11,000
Het is praktisch.

95
00:07:11,000 --> 00:07:18,359
Wanneer AI-agents zowel je verdediging als je aanvallers zijn, is de infrastructuurlaag geen bijzaak meer.

96
00:07:19,319 --> 00:07:31,959
In mijn boek gebruik ik voor sommige delen een orkest als metafoor voor de mens-machinesamenwerking. Laat me daar dan een laag aan toevoegen die deze paradox in zekere zin oplost.

97
00:07:31,960 --> 00:07:41,400
Een orkest speelt in een concertzaal en die zaal is gebouwd volgens strikte bouwnormen: brandveiligheid, nooduitgangen, constructieve integriteit, alles.

98
00:07:41,399 --> 00:07:44,839
En geen van die normen is gebaseerd op vertrouwen.

99
00:07:44,840 --> 00:07:46,599
Ze zijn gebaseerd op wantrouwen.
100
00:07:46,600 --> 00:07:54,920
Het gebouw gaat ervan uit dat er brand kan uitbreken, dat de constructie kan falen en dat bezoekers in paniek kunnen raken.
 100
00:07:55,240 --> 00:07:59,240
Maar de muzikanten op het podium vertrouwen elkaar volledig.
 101
00:07:59,240 --> 00:08:03,879
Ze luisteren, anticiperen, geven en nemen ruimte in.
 102
00:08:03,879 --> 00:08:06,519
En niemand ervaart dat als tegenstelling.
 103
00:08:06,519 --> 00:08:12,360
En niemand zegt: hoe kunnen muzici elkaar vertrouwen in een gebouw dat ontworpen is vanuit wantrouwen.
 104
00:08:12,360 --> 00:08:14,519
Het antwoord is vanzelfsprekend.
 105
00:08:14,519 --> 00:08:19,319
Het is juist omdat het gebouw veilig is, kunnen de muzici zich richten op de muziek.
 106
00:08:19,560 --> 00:08:24,359
Bij McKinsey stond het gebouw in brand terwijl het orkest speelde.
 107
00:08:25,560 --> 00:08:28,919
Hoe voorkom je nou wat McKinsey is overkomen?
 108
00:08:29,240 --> 00:08:35,160
Dat kun je doen door bewust drie lagen te ontwerpen die elke eigen vertrouwenslogica volgen.
 109
00:08:35,159 --> 00:08:37,400
Laag 1, de infrastructuurlaag.
 110
00:08:37,399 --> 00:08:40,920
Dus hier geldt zero trust zonder compromis.
 111
00:08:41,240 --> 00:08:52,840
Elke API-call wordt geverifieerd, elke agentactie wordt gelogd, authenticaties verlopen, rechten worden per sessie toegekend en zijn niet permanent.
 112
00:08:53,799 --> 00:08:56,360
Laag 2, de transparantielaag.
 113
00:08:56,360 --> 00:09:00,440
Deze laag maakt zichtbaar wat de agent doet en waarom.
 114
00:09:00,680 --> 00:09:06,919
Niet in technische logs, maar in begrijpelijke taal voor de gebruiker.
 115
00:09:08,680 --> 00:09:16,200
Je krijgt dus ook automatisch meldingen als er gedrag plaatsvindt wat niet hoort.
 116
00:09:16,200 --> 00:09:18,520
Dit kan je gewoon automatiseren.
 117
00:09:18,840 --> 00:09:22,519
Laag 3, dat is de samenwerkingslaag.
 118
00:09:23,000 --> 00:09:25,080
Hier geldt die relationele vertrouwen.
 119
00:09:25,240 --> 00:09:29,320
De medewerker leert wanneer de agent betrouwbaar is en wanneer niet.
 120
00:09:29,319 --> 00:09:32,360
De agent krijgt dan geleidelijk meer autonomie.
 121
00:09:33,000 --> 00:09:36,440
Maar de mens kan dan wel ingrijpen.
 122
00:09:36,680 --> 00:09:39,160
Deze drie lagen zijn op elkaar gestapeld.
 123
00:09:39,160 --> 00:09:44,960
Dus laag 3 kan niet functioneren zonder laag 2, en laag 2 kan niet functioneren zonder laag 1.
 124
00:09:44,600 --> 00:09:51,520
Nou, we hebben het gehad over de paradox tussen wantrouwen zero trust en vertrouwen.
 125
00:09:51,840 --> 00:09:55,279
Maar ja, uiteindelijk is dat helemaal geen tegenstelling.
 126
00:09:55,600 --> 00:10:00,720
Maar McKinsey liet zien wat er gebeurt als je het gebouw verwaarloost.
 127
00:10:01,679 --> 00:10:05,759
Kijk deze week eens naar je eigen AI-implementaties.
 128
00:10:05,759 --> 00:10:07,759
Dan niet naar de samenwerkingslaag.
 129
00:10:07,759 --> 00:10:09,839
Die voelt waarschijnlijk wel goed.
 130
00:10:09,840 --> 00:10:11,840
Maar kijk eens naar die infrastructuurlaag.
 131
00:10:12,000 --> 00:10:18,879
Zijn al je API-eindpunten geauthenticeerd, worden agentacties gelogd verlopen authenticaties automatisch.
 132
00:10:19,039 --> 00:10:23,200
Consultants van McKinsey vertrouwden Lilli en dat is terecht.
 133
00:10:23,200 --> 00:10:26,799
Maar het gebouw waarin Lilli woonde had een achterdeur die op een kier stond.
 134
00:10:26,799 --> 00:10:31,520
En een autonome agent vond die deur binnen twee uur.
 135
00:10:31,759 --> 00:10:33,600
Wil je meer hierover lezen?
 136
00:10:33,600 --> 00:10:35,919
Je vindt de links in de shownotes.
 137
00:10:36,559 --> 00:10:42,000
En bedenk zoals altijd: AI is niet de oplossing voor elk probleem, onmisbaar waar het past.
 138
00:10:42,000 --> 00:10:55,280
Tot de volgende keer.