AIToday Live

S06E12 - Is jouw project geschikt voor machine learning?

February 08, 2024 Aigency by Info Support Season 6 Episode 12
AIToday Live
S06E12 - Is jouw project geschikt voor machine learning?
Show Notes Transcript

In deze aflevering van AIToday Live staat de rol van machine learning binnen het brede spectrum van kunstmatige intelligentie centraal. We verkennen wanneer de inzet van machine learning niet alleen wenselijk, maar ook haalbaar is.

Dit gesprek voert ons langs de veelzijdigheid van machine learning, de uitdagingen bij afwijkende data en situaties waarin andere methodes de voorkeur krijgen. We duiken ook in de humoristische kant van data-analyse met voorbeelden van Spurious Correlations om de valkuilen van valse correlaties te illustreren.

Dit biedt niet alleen inzicht in de potentie van machine learning, maar ook in de momenten waarop een stap terug noodzakelijk is.


Links

Met onze podcast AIToday Live zijn we genomineerd voor de Belgian Podcast Awards ! 🏆🤩 Belgisch? Ja, een Belgische award, want er is een speciale categorie voor Nederlandse podcasts: Prijs van Oranje.

Wil je ons steunen? 🙏❤️ Stem op ons!

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Wil je toegang tot exclusieve toegang voor onze luisteraars? Schrijf je in voor de nieuwsbrief 'AI versterkt de Mens'

Contact AIToday Live


We zijn altijd op zoek naar nieuwe gasten die over AI willen spreken.

1
00:00:00,000 --> 00:00:05,720
Hey, leuk dat je weer luistert naar een korte aflevering van de AIToday Live.

2
00:00:05,720 --> 00:00:11,480
Met vandaag; Hoe herken je situaties waar AI je kan helpen?

3
00:00:11,480 --> 00:00:17,040
Deze vraag krijg ik steeds vaker en in deze aflevering kijken we vooral naar machine learning.

4
00:00:17,040 --> 00:00:28,280
Zoals je misschien weet, binnen de paraplu-term van AI heb je verschillende categorieën.

5
00:00:28,280 --> 00:00:33,200
Machine learning is al geruime tijd een bekende technologie en tegenwoordig gaat het ook

6
00:00:33,200 --> 00:00:35,600
vaak over generatieve AI.

7
00:00:35,600 --> 00:00:38,560
Vandaag wil ik het hebben over machine learning.

8
00:00:38,560 --> 00:00:45,200
Dus hoe herken je in het goed Nederlands use cases die geschikt zijn voor machine learning

9
00:00:45,200 --> 00:00:53,040
en ik ga ze onderverdelen in goed uitvoerbare cases, moeilijk uitvoerbare cases en cases

10
00:00:53,040 --> 00:00:56,560
waar je het eigenlijk beter niet kan toepassen.

11
00:00:56,560 --> 00:00:59,600
Laten we beginnen bij die goede cases.

12
00:00:59,600 --> 00:01:03,480
Voordat ik begin moet ik zeggen dat dit geen checklist is.

13
00:01:03,480 --> 00:01:09,920
We kijken naar de kenmerken van de situatie en zeggen dan; hey dit is een heel veelbelovende

14
00:01:09,920 --> 00:01:16,080
oplossing met machine learning voor deze situatie en eerlijk gezegd komt dit voornamelijk voor

15
00:01:16,080 --> 00:01:17,080
het uit ervaring.

16
00:01:17,080 --> 00:01:21,440
Oké, wat zijn dan die typische kenmerken?

17
00:01:21,440 --> 00:01:25,400
Een daarvan is wanneer je voorspellingen wilt maken.

18
00:01:25,400 --> 00:01:29,960
Je verwacht dat er voorspellende gaven in je data zit waarbij je hoopt dat je een klein

19
00:01:29,960 --> 00:01:31,360
beetje vooruit kan kijken.

20
00:01:31,360 --> 00:01:35,560
Je kan bijvoorbeeld voorspellen of klanten snel bij je weg gaan.

21
00:01:35,560 --> 00:01:40,160
Er zijn veel websites die voorspellen hoe grote de kans is dat je op een website een

22
00:01:40,160 --> 00:01:44,240
aankoop doet terwijl je nog aan het browsen bent.

23
00:01:44,240 --> 00:01:48,360
Je moet wel genoeg historische data hebben om een goede voorspelling te kunnen doen.

24
00:01:48,360 --> 00:01:54,440
Het kunnen indelen van gegevens is een andere karakteristiek, classificatie geheten.

25
00:01:54,440 --> 00:01:57,680
En daar zou je kunnen denken aan taalherkenning.

26
00:01:57,680 --> 00:02:03,000
Met sentimentanalyse kun je teksten classificeren als positief, neutraal of negatief.

27
00:02:03,000 --> 00:02:05,600
Of denk aan e-mail classificatie.

28
00:02:05,600 --> 00:02:10,960
Deze e-mail gaat bijvoorbeeld over loginproblemen en daar moet je het volgende voor doen.

29
00:02:10,960 --> 00:02:14,520
Deze e-mail gaat over iets heel anders en daar moeten we uiteraard iets anders voor

30
00:02:14,520 --> 00:02:15,520
doen.

31
00:02:15,520 --> 00:02:18,840
classificatie hebben we natuurlijk ook op het gebied van computer vision.

32
00:02:18,840 --> 00:02:25,480
Een bekende app, SkinVision, kan bijvoorbeeld plekjes op je huid classificeren naar een

33
00:02:25,480 --> 00:02:27,520
mogelijke risico, zelfs op huidkanker.

34
00:02:27,520 --> 00:02:31,400
Maar ook objectherkenning is ook zo'n karakteristiek.

35
00:02:31,400 --> 00:02:33,200
Daar is de machine ontzettend goed in.

36
00:02:33,200 --> 00:02:36,680
Gezichtsherkenning, objecten herkennen, zelfs augmented reality.

37
00:02:36,680 --> 00:02:43,840
Repetitief handmatig werk is ook zo'n karakteristiek waarbij de machine learning je ontzettend

38
00:02:43,840 --> 00:02:44,840
goed kan helpen.

39
00:02:44,840 --> 00:02:51,000
Dus we hebben het over voorspellen, classificatie, helpen met natuurlijke taal, dat de computer

40
00:02:51,000 --> 00:02:53,280
kan kijken, luisteren, zelfs spreken.

41
00:02:53,280 --> 00:02:55,920
Dat zijn best wel hele goede cases.

42
00:02:55,920 --> 00:02:58,960
Wat is nou best wel moeilijk?

43
00:02:58,960 --> 00:03:03,720
Als je hier tegenaan loopt en je denkt van, misschien kan het, maar daar moeten we wel

44
00:03:03,720 --> 00:03:04,720
op letten.

45
00:03:04,720 --> 00:03:11,200
En een van de dingen is bijvoorbeeld bij computer vision is dat wat ze noemen situaties met

46
00:03:11,200 --> 00:03:13,160
out of distribution data.

47
00:03:13,160 --> 00:03:15,400
Ik zal uitleggen wat dat betekent.

48
00:03:15,400 --> 00:03:21,920
Machine learning modellen worden getraind met heel veel data, maar dat de situatie die

49
00:03:21,920 --> 00:03:25,720
zich voordoet buiten het bereik ligt van die trainingsdata.

50
00:03:25,720 --> 00:03:27,760
Laat ik een voorbeeld geven.

51
00:03:27,760 --> 00:03:30,200
Stel je kan huisdieren herkennen.

52
00:03:30,200 --> 00:03:33,080
En dat doet de machine hartstikke goed.

53
00:03:33,080 --> 00:03:40,240
Vervolgens heb je een loslopende kangaroo en die springt in je tuin en die herkent de

54
00:03:40,240 --> 00:03:41,240
machine niet.

55
00:03:41,240 --> 00:03:42,800
Daarvan heb je geen trainingsdata.

56
00:03:42,800 --> 00:03:45,840
Het model is getraind op huisdieren.

57
00:03:45,840 --> 00:03:51,000
En toch zal het model proberen om dat onbekende beest te classificeren in een van de klassen

58
00:03:51,000 --> 00:03:52,200
die het wel kent.

59
00:03:52,200 --> 00:03:55,520
Dus misschien zegt het wel het is een hond of wat anders.

60
00:03:55,520 --> 00:03:58,960
Met dit soort situaties kan de machine moeilijk mee omgaan.

61
00:03:58,960 --> 00:04:05,040
Een ander voorbeeld, deze kan je ook vinden op social media, is een filmpje van Tesla

62
00:04:05,040 --> 00:04:10,080
waarbij de auto op de snelweg rijdt, waarbij de objectherkenning van de auto stoplichten

63
00:04:10,080 --> 00:04:11,080
overvliegen.

64
00:04:11,080 --> 00:04:17,360
Tesla rijders hebben van die schermen en daar zien ze de objecten die voor hen op de weg

65
00:04:17,360 --> 00:04:19,640
staan daarop verschijnen.

66
00:04:19,640 --> 00:04:25,040
Dus er kunnen stoplichten zijn, dat kunnen medeweggebruikers zijn en die zien zij op

67
00:04:25,040 --> 00:04:26,040
hun scherm.

68
00:04:26,040 --> 00:04:30,880
Dus nogmaals, er rijdt iemand op de snelweg en er vliegen allemaal stoplichten over en

69
00:04:30,880 --> 00:04:32,600
die vliegen als het ware over de auto heen.

70
00:04:32,600 --> 00:04:36,480
Ik weet niet hoe het bij jou zit, maar het is niet heel erg gebruikelijk dat er veel

71
00:04:36,480 --> 00:04:38,120
stoplichten zijn op de snelweg.

72
00:04:38,120 --> 00:04:39,960
Wat was er nou aan de hand?

73
00:04:39,960 --> 00:04:43,400
Voor de auto rijdt een vrachtwagen waarop stoplichten staan.

74
00:04:43,400 --> 00:04:44,400
Die worden vervoerd.

75
00:04:44,400 --> 00:04:50,480
Dus het model herkent vrachtwagens, stoplichten, maar rijdende vrachtwagens waarop stoplichten

76
00:04:50,480 --> 00:04:53,320
worden vervoerd, die kent hij niet.

77
00:04:53,320 --> 00:04:57,800
Dus dan heb je ook weer out-of-distribution data, zoals dat zo moeilijk heet.

78
00:04:57,800 --> 00:05:00,120
Daar kan machine learning heel slecht mee omgaan.

79
00:05:00,120 --> 00:05:05,600
Wat ook al lastig is, is als je weinig historische data hebt.

80
00:05:05,600 --> 00:05:07,520
Startups lopen hier vrij snel tegenaan.

81
00:05:07,520 --> 00:05:10,800
Wat machine learning doet, is het vinden van patronen in gegevens.

82
00:05:10,800 --> 00:05:14,320
En als je weinig gegevens hebt, zullen er ook weinig patronen in zitten.

83
00:05:14,320 --> 00:05:21,240
Of erger, dat als die wel patronen vindt, dat het niet sterke patronen zijn of zelfs

84
00:05:21,240 --> 00:05:22,880
valse patronen zijn.

85
00:05:22,880 --> 00:05:28,760
Dan vind je correlaties die er eigenlijk niet zijn.

86
00:05:28,760 --> 00:05:34,600
En als je daarmee zou gaan werken, ja, dan ga je daar besluiten op nemen die helemaal

87
00:05:34,600 --> 00:05:35,600
niet correct zijn.

88
00:05:35,600 --> 00:05:37,960
Je hebt hier zelfs een speciale website voor.

89
00:05:37,960 --> 00:05:38,960
Geweldig vind ik die.

90
00:05:38,960 --> 00:05:40,960
Ik vind het vaak leuk om daarin te neuzen.

91
00:05:40,960 --> 00:05:42,920
Die heet Spurious Correlations.

92
00:05:42,920 --> 00:05:45,040
Dat is Engels voor 'valse correlaties'.

93
00:05:45,040 --> 00:05:47,280
Ik zal de link opnemen in de show note.

94
00:05:47,280 --> 00:05:51,360
En een van mijn favorieten, die gebruik ik ook wel in mijn presentaties, is dat er een

95
00:05:51,360 --> 00:05:57,920
hele sterke correlatie is van de kaasconsumptie in Amerika en de hoeveelheid mensen die komen

96
00:05:57,920 --> 00:06:02,400
te overlijden omdat ze verstrikt raken in hun bedlakens.

97
00:06:02,400 --> 00:06:07,520
Als dat een oorzakelijk verband zou hebben, dan zouden wij de Nederlandse kranten daar

98
00:06:07,520 --> 00:06:08,520
vol van hebben staan.

99
00:06:08,520 --> 00:06:14,840
Als laatste rest dan nog de categorie waarvan je zegt 'dat kan je eigenlijk beter niet

100
00:06:14,840 --> 00:06:16,680
met machine gaan oplossen'.

101
00:06:16,680 --> 00:06:21,360
En een heel duidelijk signaal is dat je iets regelgebaseerd kan oplossen.

102
00:06:21,360 --> 00:06:24,240
Dat is uiteindelijk altijd een handigere manier.

103
00:06:24,240 --> 00:06:27,440
Dat is goedkoper, beter onderhoudbaar, beter te begrijpen.

104
00:06:27,440 --> 00:06:32,800
En uiteindelijk heb je daar ook altijd een hele duidelijke 100% ja of 100% nee antwoord.

105
00:06:32,800 --> 00:06:35,320
Dat is ook een van die karakteristieken.

106
00:06:35,320 --> 00:06:41,120
Als je dat tegenkomt en je vindt dat belangrijk, een 100% ja of een nee, dan is machine learning

107
00:06:41,120 --> 00:06:42,360
niet de beste oplossing.

108
00:06:42,360 --> 00:06:49,040
Waar machine learning ook heel erg slecht in is, is als je hele snelle veranderingen

109
00:06:49,040 --> 00:06:51,880
hebt die je real-time zou moeten voorspellen.

110
00:06:51,880 --> 00:06:55,000
Dan heb ik het bijvoorbeeld over het voorspellen van aandelenprijzen.

111
00:06:55,000 --> 00:06:56,720
Zou je dat kunnen?

112
00:06:56,720 --> 00:06:58,680
Dan word je er wel heel rijk van.

113
00:06:58,680 --> 00:07:03,400
Maar het is wel een heel belangrijke karakteristiek dat als je hiermee te maken hebt dat het heel

114
00:07:03,400 --> 00:07:04,520
erg lastig wordt.

115
00:07:04,520 --> 00:07:10,320
En eentje die natuurlijk ook daaronder valt zijn ethisch zeer gevoelige gebieden.

116
00:07:10,320 --> 00:07:16,200
Dus als je bijvoorbeeld je medewerkers gaat scoren of dat je tegen discriminerende besluiten

117
00:07:16,200 --> 00:07:22,800
aan gaat komen, dan is er een hele categorie waar machine learning misschien wel kan, maar

118
00:07:22,800 --> 00:07:24,200
waar je dat niet zou willen.

119
00:07:24,200 --> 00:07:29,880
Uiteraard is dit geen volledige lijst, maar dit is wel een manier waarop je een beetje

120
00:07:29,880 --> 00:07:33,040
kan inschatten of machine learning je kan helpen in jouw situatie.

121
00:07:33,040 --> 00:07:34,880
Dankjewel voor het luisteren.

122
00:07:34,880 --> 00:07:37,680
Mijn naam is Joop Snijder, ik ben CTO bij ETC.

123
00:07:37,680 --> 00:07:38,840
Tot de volgende keer!

124
00:07:38,840 --> 00:07:43,840
[Muziek]

125
00:07:43,840 --> 00:08:04,240