AIToday Live

S08E20 - Van hallucinaties naar betrouwbaarheid: meerdere modellen combineren

Aigency by Info Support Season 8 Episode 20

Hoe verifieer je of je AI-antwoord klopt als de beslissing belangrijk is? Het probleem is dat één model blinde vlekken heeft - ChatGPT mist juridische aspecten, Claude kan technische details over het hoofd zien. Joop laat zien hoe je drie AI-modellen laat stemmen over het beste antwoord, een techniek die fraudedetectie al jaren gebruikt.

Bij een verzekeraar ging claimbeoordeling van 78% naar 94% accuraat door drie modellen te laten stemmen. Morgen kun je dit toepassen door één belangrijke vraag op drie manieren te stellen en de antwoorden te vergelijken.

Onderwerpen

  • Ensemble voting in AI-modellen
  • Betrouwbaarheid van AI-output
  • Stemtechnieken: hard voting, soft voting, gewogen voting
  • Toepassingen van ensemble voting in strategische beslissingen
  • Praktische richtlijnen voor het gebruik van meerdere AI-modellen
Links

Stuur ons een bericht

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

```
00:00:02,640 --> 00:00:07,439
Leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live.

None
00:00:07,679 --> 00:00:17,280
Mijn naam is Joop Snijder en ik neem je vandaag mee in hoe je ChatGPT, Claude en Gemini laat stemmen over het beste antwoord.

None
00:00:17,519 --> 00:00:20,480
Vorige week vertelde ik je over meta-prompting.

None
00:00:20,480 --> 00:00:25,280
AI laten nadenken over zijn eigen instructies voordat het aan de slag gaat.

None
00:00:25,280 --> 00:00:27,839
Vandaag gaan we een stap verder.

None
00:00:27,839 --> 00:00:31,839
Want wat als je niet één model laat antwoorden, maar meerdere.

None
00:00:31,840 --> 00:00:36,160
En wat als die modellen vervolgens stemmen over het beste antwoord.

None
00:00:36,719 --> 00:00:39,520
Dat heet ensemble voting.

None
00:00:39,679 --> 00:00:42,799
Dat is een techniek die oorspronkelijk uit de wereld van machine learning komt.

None
00:00:42,800 --> 00:00:46,799
Het traditionele AI, voor de generatieve AI.

None
00:00:46,799 --> 00:00:53,439
Maar die je ook kunt toepassen op de AI-tools die je dagelijks gebruikt, zoals ChatGPT, Claude en Gemini.

None
00:00:53,440 --> 00:00:58,079
En het mooie is: je hebt er geen technische kennis voor nodig.

None
00:01:00,159 --> 00:01:02,239
Laten we eens even heel kort beginnen.

None
00:01:02,240 --> 00:01:04,319
Wat was meta-prompting ook alweer?

None
00:01:04,320 --> 00:01:08,319
Voor wie de vorige aflevering heeft gemist hier een korte samenvatting.

None
00:01:08,319 --> 00:01:16,559
Meta-prompting betekent dat je AI vraagt om eerst na te denken over de beste aanpak voordat het een antwoord geeft.

None
00:01:16,560 --> 00:01:21,919
Je geeft een doel, laat het model mogelijke aanpakken bedenken, evalueren en dan pas uitvoeren.

None
00:01:22,159 --> 00:01:26,799
Het resultaat: betere outputs, omdat het model begrijpt wat je nodig hebt.

None
00:01:27,040 --> 00:01:30,719
Vandaag bouwen we daarop voort met een tweede techniek.

None
00:01:32,240 --> 00:01:34,719
Wat is dan ensemble voting?

None
00:01:34,719 --> 00:01:37,439
Het woord ensemble ken je misschien uit de muziek.

None
00:01:37,439 --> 00:01:39,840
Een groep muzikanten die samenspelen.

None
00:01:39,840 --> 00:01:42,719
En bij ensemble voting is het idee vergelijkbaar.

None
00:01:42,719 --> 00:01:47,119
Je laat meerdere modellen samenwerken aan één vraagstuk.

None
00:01:47,439 --> 00:01:53,200
Stel je een jury voor, en niet één rechter die beslist, maar vijf mensen die elk hun oordeel geven.

None
00:01:53,200 --> 00:01:58,239
Ze discussiëren niet, ze stemmen, en het eindoordeel komt tot stand door de stemmen te tellen.

None
00:01:58,239 --> 00:01:59,760
De meerderheid wint.

None
00:01:59,760 --> 00:02:02,640
Eigenlijk is dat de kern van ensemble voting.

None
00:02:02,639 --> 00:02:05,599
Je stelt dezelfde vraag aan meerdere modellen.

None
00:02:05,600 --> 00:02:07,919
Elk model geeft een antwoord.

None
00:02:07,920 --> 00:02:15,439
En dan wordt bepaald welk antwoord het beste is door te kijken naar wat de meerderheid zegt.

None
00:02:16,080 --> 00:02:19,920
Je zou kunnen denken: waarom zou ik drie keer dezelfde vraag stellen?

None
00:02:19,920 --> 00:02:21,759
Dat kost tijd en geld.

None
00:02:21,759 --> 00:02:23,519
Maar hier zit de kracht.

None
00:02:23,759 --> 00:02:25,359
Elk model maakt fouten.

None
00:02:25,359 --> 00:02:26,240
Dat weten we.

None
00:02:26,400 --> 00:02:28,320
AI-modellen hallucineren soms.

None
00:02:28,319 --> 00:02:33,840
Ze verzinnen dingen die niet kloppen, geven onvolledige antwoorden of slaan de plank gewoon mis.

None
00:02:34,159 --> 00:02:37,840
Maar hier is het interessante: die fouten zijn vaak verschillend.

None
00:02:38,000 --> 00:02:41,279
Model A maakt andere fouten dan model B.

None
00:02:41,599 --> 00:02:44,080
En model C maakt weer andere fouten.

None
00:02:44,080 --> 00:02:48,719
Dus door meerdere modellen te combineren, middel je deze fouten uit.

None
00:02:48,880 --> 00:02:54,239
De fouten van het ene model worden gecorrigeerd door de juiste antwoorden van het andere model.

None
00:02:54,240 --> 00:02:58,079
En daardoor krijg je als resultaat een hogere betrouwbaarheid.

None
00:02:58,640 --> 00:03:00,080
Dit is geen theorie.

None
00:03:00,319 --> 00:03:05,119
In de wereld van machine learning is ensemble voting al jaren een bewezen techniek.

None
00:03:05,120 --> 00:03:07,759
Fraudedetectiesystemen gebruiken het.

None
00:03:07,759 --> 00:03:12,960
Aanbevelingsalgoritmes van streamingdiensten zoals Netflix, die gebruiken het.

None
00:03:13,120 --> 00:03:17,519
Nu kun jij het ook gebruiken met AI-taalmodellen.

None
00:03:18,159 --> 00:03:22,799
Dan zijn er wel verschillende manieren om ensemble voting toe te passen.

None
00:03:22,800 --> 00:03:26,240
Laat me de drie belangrijkste daarvan uitleggen.

None
00:03:26,239 --> 00:03:30,399
De eerste is wat heet hard voting.

None
00:03:30,479 --> 00:03:31,680
Simpel en direct.

None
00:03:31,680 --> 00:03:33,359
Elk model geeft één antwoord.

None
00:03:33,359 --> 00:03:34,479
Je telt de stemmen.

None
00:03:34,480 --> 00:03:36,640
Het antwoord met de meeste stemmen wint.

None
00:03:36,640 --> 00:03:41,759
Als twee van de drie modellen zeggen dat optie A de beste keuze is, dan kies je optie A.

None
00:03:42,079 --> 00:03:43,599
Recht en recht aan.

None
00:03:43,599 --> 00:03:46,400
De tweede is soft voting.

None
00:03:46,400 --> 00:03:49,600
Hier kijk je niet alleen naar het antwoord, maar ook naar de zekerheid.

None
00:03:49,600 --> 00:03:52,240
Sommige modellen geven aan hoe zeker ze zijn van hun antwoord.

None
00:03:52,240 --> 00:03:54,960
En bij soft voting neem je het gewogen gemiddelde.

None
00:03:54,959 --> 00:03:59,039
Een model dat heel zeker is, telt zwaarder mee dan een model dat twijfelt.

None
00:03:59,039 --> 00:04:01,279
En de derde is gewogen voting.

None
00:04:01,280 --> 00:04:04,240
Hier geef je sommige modellen meer gewicht dan anderen.

None
00:04:04,400 --> 00:04:09,360
Niet omdat ze zeker zijn, maar omdat je weet dat ze beter presteren op dit type vraag.

None
00:04:09,360 --> 00:04:17,519
Als je weet dat model A historisch betere juridische analyses geeft, geef je model A meer gewicht bij juridische vragen.

None
00:04:19,280 --> 00:04:24,639
Laat me het met een voorbeeld concreet maken dat goed te begrijpen is.

None
00:04:24,800 --> 00:04:30,399
Je hebt een klantenservice en je wilt binnenkomende e-mails automatisch classificeren.

None
00:04:30,399 --> 00:04:35,839
Is dit een klacht, een vraag om informatie, een verzoek tot annulering, een compliment.

None
00:04:36,000 --> 00:04:37,600
Met één model kun je dit doen.

None
00:04:37,600 --> 00:04:43,359
Je geeft de e-mail aan dat model en vraagt: in welke categorie valt dit? Meestal gaat dat goed.

None
00:04:43,360 --> 00:04:50,719
Maar soms twijfelt het model of maakt het een fout die een mens direct zou zien.

None
00:04:50,959 --> 00:04:53,600
Met ensemble voting pak je het anders aan.

None
00:04:53,600 --> 00:04:56,959
Dus je laat drie modellen dezelfde e-mail classificeren.

None
00:04:56,960 --> 00:04:59,040
Model A zegt: dit is een klacht.

None
00:04:59,040 --> 00:05:00,840
Model B zegt: dit is een klacht.

None
00:05:00,840 --> 00:05:03,319
Model C zegt: dit is een vraag om informatie.

None
00:05:03,319 --> 00:05:04,360
Twee tegen één.

None
00:05:04,759 --> 00:05:09,159
De meerderheid zegt klacht, dus je classificeert het als klacht.

None
00:05:09,639 --> 00:05:13,399
Het mooie is: je kunt ook kijken naar de gevallen waar de modellen het niet eens zijn.

None
00:05:13,399 --> 00:05:17,079
Als alle drie de modellen hetzelfde zeggen, heb je een hogere zekerheid.

None
00:05:17,079 --> 00:05:22,600
Juist als ze verdeeld zijn, weet je dat deze e-mail misschien menselijke aandacht nodig heeft.

None
00:05:22,839 --> 00:05:27,800
En dan is die oneenigheid in één keer informatie waar je mogelijk wat mee kan doen.

None
00:05:28,600 --> 00:05:32,199
Ik kan me voorstellen dat je gedurende wat ik nu verteld heb denkt:

None
00:05:33,000 --> 00:05:37,560
ja, leuk, drie modellen, maar daar heb ik helemaal geen toegang toe.

None
00:05:37,560 --> 00:05:42,680
En ik ga ook geen drie abonnementen betalen op ChatGPT, Claude en Gemini.

None
00:05:42,839 --> 00:05:44,680
Dat lijkt me ook een goed punt.

None
00:05:44,840 --> 00:05:48,360
Het mooie is dat je dit ook met één model kunt doen.

None
00:05:48,360 --> 00:05:50,439
En de truc zit dan in de instellingen.

None
00:05:50,759 --> 00:05:53,880
Taalmodellen hebben parameters die je kunt aanpassen.

None
00:05:53,879 --> 00:05:57,240
En de belangrijkste is de temperatuurinstelling.

None
00:05:57,240 --> 00:06:03,000
En die kun je zetten als je tegen deze modellen via een programmeertaal praat.

None
00:06:03,000 --> 00:06:09,240
En dan kun je namelijk een lage temperatuur instellen, richting 0, en dat maakt het model heel voorspelbaar en consistent.

None
00:06:09,240 --> 00:06:13,800
Een hoge temperatuur, richting 1, maakt het creatiever en gevarieerder.

None
00:06:14,120 --> 00:06:22,120
En door dezelfde vraag drie keer te stellen met verschillende temperatuurinstellingen, krijg je verschillende perspectieven van hetzelfde model.

None
00:06:22,120 --> 00:06:23,560
Je zit wel een maar.

None
00:06:23,560 --> 00:06:27,399
Dus in de standaard chat interface kun je die temperatuur niet instellen.
```

99
00:06:27,399 --> 00:06:32,680
Je moet toegang hebben tot de API, de zogenaamde programmeerinterface van het model.

100
00:06:32,920 --> 00:06:37,319
Dat betekent je moet kunnen programmeren of iemand hebben die dat voor je doet.

101
00:06:37,319 --> 00:06:39,879
Kijk, meer over temperatuur en andere modelinstellingen.

102
00:06:39,879 --> 00:06:42,039
Daarvoor hebben we een eerdere aflevering gemaakt.

103
00:06:42,040 --> 00:06:44,599
Daarvan vind je de link in de shownotes.

104
00:06:44,920 --> 00:06:48,920
Maar ook zonder te programmeren kun je variatie creëren.

105
00:06:48,919 --> 00:07:01,479
Je kunt dezelfde vraag op verschillende manieren formuleren of je kunt het model verschillende rollen geven, beantwoord dit als een optimist, beantwoord het als een criticus, beantwoord het als een pragmaticus, drie perspectieven en één model.

106
00:07:01,480 --> 00:07:08,599
En hier kun je natuurlijk allerlei verschillende varianten van bedenken die nodig zijn om deze techniek toe te passen.

107
00:07:10,519 --> 00:07:16,439
Het leuke van deze ensemble voting techniek is dat je die ook kunt toepassen met gespecialiseerde agents.

108
00:07:17,560 --> 00:07:22,920
Stel, je wilt een risicoanalyse maken voor een nieuw AI-project.

109
00:07:22,919 --> 00:07:28,360
En in plaats van één model alles te laten doen, creëer je drie gespecialiseerde agents.

110
00:07:28,360 --> 00:07:39,480
Eén focust bijvoorbeeld op technische risico's, een ander focust op juridische en compliance risico's en een ander op de organisatorische risico's zoals adoptie en weerstand.

111
00:07:39,480 --> 00:07:51,240
En je geeft elk dezelfde informatie over het project, maar je vraagt elk om vanuit hun specialisme het project te analyseren: drie analyses, drie perspectieven.

112
00:07:51,480 --> 00:07:53,879
En dan komt er een scheidsrechter.

113
00:07:53,879 --> 00:07:56,119
Waar we het eigenlijk al iedere keer over hebben gehad.

114
00:07:56,120 --> 00:08:02,439
Dus die krijgt de drie analyses en de opdracht: integreer deze perspectieven tot één risicoanalyse.

115
00:08:02,759 --> 00:08:04,280
Waar overlappen de risico's?

116
00:08:04,279 --> 00:08:05,560
Waar spreken ze elkaar tegen?

117
00:08:05,560 --> 00:08:07,160
Wat is de prioritering?

118
00:08:07,160 --> 00:08:13,720
Je hebt nu een analyse die breder en dieper is dan wat één model alleen had kunnen leveren.

119
00:08:14,279 --> 00:08:17,240
Want je kunt dit namelijk gaan combineren met meta-prompting.

120
00:08:17,240 --> 00:08:18,439
Want hier wordt het interessant.

121
00:08:18,439 --> 00:08:24,280
Je kunt dus ensemble voting combineren met de meta-prompting techniek uit de vorige aflevering.

122
00:08:24,439 --> 00:08:26,039
Een combinatie werkt dan zo.

123
00:08:26,279 --> 00:08:32,680
Eerst gebruik je meta-prompting om elk model te laten nadenken over de beste aanpak voor zijn specialisme.

124
00:08:32,680 --> 00:08:37,000
De technische agent denkt na over hoe het technische risico's het best in kaart brengt.

125
00:08:37,000 --> 00:08:41,240
De juridische agent denkt na over zijn aanpak.

126
00:08:41,240 --> 00:08:50,360
En elk model optimaliseert zichzelf, elk model optimaliseert zichzelf voordat het aan de slag gaat en dan voeren ze uit.

127
00:08:50,360 --> 00:08:53,160
Elk vanuit een geoptimaliseerde aanpak.

128
00:08:53,159 --> 00:09:00,280
En dan komt de scheidsrechter die ook weer meta-prompting gebruikt en die zegt dan bijvoorbeeld aan: bedenk eerst.

129
00:09:00,279 --> 00:09:04,600
Wat is de beste manier om deze drie analyses te integreren, samen te voegen.

130
00:09:04,600 --> 00:09:10,680
Welke structuur werkt het beste voor het eindrapport, formuleer je aanpak en voer het dan uit.

131
00:09:10,919 --> 00:09:20,600
En je krijgt dus zo'n systeem waarin elk onderdeel eerst nadenkt, dan uitvoert en waarin het geheel meer is dan de som der delen.

132
00:09:21,079 --> 00:09:25,960
Maar er zijn wel een paar praktische waarschuwingen.

133
00:09:26,200 --> 00:09:30,199
Kijk, ensemble voting werkt het best als de antwoorden echt verschillend zijn.

134
00:09:30,200 --> 00:09:37,719
Als je drie keer exact dezelfde vraag stelt aan hetzelfde model met dezelfde instellingen, krijg je waarschijnlijk drie keer ongeveer hetzelfde antwoord.

135
00:09:37,720 --> 00:09:39,240
Dus zorg voor variatie.

136
00:09:39,240 --> 00:09:44,560
Verschillende modellen of verschillende instellingen of verschillende invalshoeken in je prompt.

137
00:09:44,879 --> 00:09:47,759
En het kost natuurlijk meer tijd en meer tokens.

138
00:09:47,759 --> 00:09:50,319
Dus voor een simpele vraag is het echt overkill.

139
00:09:50,320 --> 00:09:55,919
Dus gebruik het voor beslissingen die je echt toe doen: strategische keuzes, belangrijke communicatie.

140
00:09:56,320 --> 00:09:59,520
Analyses waar je op bouwt.

141
00:09:59,519 --> 00:10:07,200
Of voor geautomatiseerde processen waar betrouwbaarheid ontzettend telt, zoals bijvoorbeeld de e-mailclassificatie waar ik het over had.

142
00:10:07,759 --> 00:10:09,840
En documenteer wat je doet.

143
00:10:09,840 --> 00:10:12,399
Welke modellen of instellingen heb je gebruikt?

144
00:10:12,399 --> 00:10:14,319
Wat waren de individuele antwoorden?

145
00:10:14,320 --> 00:10:16,240
Hoe kwam het eindoordeel tot stand?

146
00:10:16,240 --> 00:10:21,280
Die transparantie helpt je om te leren wat werkt en om je keuzes te verantwoorden.

147
00:10:22,480 --> 00:10:30,320
Ensemble voting is dus meerdere modellen of meerdere runs van hetzelfde model laten stemmen over het beste antwoord.

148
00:10:30,320 --> 00:10:33,120
Hard voting telt simpelweg de stemmen.

149
00:10:33,120 --> 00:10:40,000
Soft voting weegt mee hoe zeker elk model is, gewogen voting geeft betere modellen meer invloed.

150
00:10:40,960 --> 00:10:47,360
Het resultaat: betrouwbaardere AI-antwoorden, minder hallucinaties en meer vertrouwen in je output.

151
00:10:47,360 --> 00:10:51,680
Of je nu ChatGPT, Claude, Gemini of een ander model gebruikt.

152
00:10:52,799 --> 00:10:56,160
Op naar betere uitkomsten.

153
00:10:56,159 --> 00:11:01,200
Maar bedenk: AI is niet de oplossing voor elk probleem, maar onmisbaar waar het past.

154
00:11:01,519 --> 00:11:03,440
Tot de volgende keer.