AIToday Live

S05E04 - Data waardevol inzetten met Marijn Markus - Deel 2

Info Support AIToday Season 5 Episode 4

In deze podcast bespreken we de kracht van data en hoe deze waardevol ingezet kan worden. Daarnaast vertelt Marijn Markus, Managing Data Scientist van Capgemini, wat hij van ChatGPT vindt, zoals: 

"Het probleem is niet dat machines nu papers kunnen schrijven zo goed als de mens.
Het probleem is dat sommige mensen papers schrijven zo slecht als een machine."

Stuur ons een bericht

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

Welkom bij een nieuwe aflevering van de AIToday Live. Het is me weer gelukt. Niet op het record knop gedrukt. Nu waren we tien minuten onderweg helaas. We zitten in het tweede deel van de opname met Marijn Markus. Heb je het eerste deel nog niet geluisterd? Luister die alsjeblieft terug. Heel erg interessant. Mijn naam is Joop Snijder, CTO bij Aigency. - En mijn naam is Niels Naglé, Chapter Lead bij Info Support. Marijn, dank je wel voor het tweede deel van dit gesprek. In het eerste deel gaf je aan dat je zes jaar bezig bent in het vakgebied. Hoe blijf je eigenlijk bij? Kijk, ons vakgebied gaat heel snel. Als het gaat over tooling bijvoorbeeld. Ik begon ooit met SPSS in een verre reisverleden, switchte naar R toen ik professioneel begon. Tegenwoordig is alles Python. Ik mis R nog steeds heel soms. R-Shiny is gewoon echt heel fijn als visualisatietool. Maar ja, je kunt al die tooltjes niet bijbenen. Wat je wel kan bijbenen is de methodologieën die erachter zitten. Want met alle respect, 90% van alle AI in productie die we gebruiken is lineaire regressie. Lineaire regressie is 30 jaar oud en dat kan je best in een ander tooltje, fitten. Maar waar het om gaat is dat jij het model kent en de sterktes en zwaktes ervan weet. en weet hoe je dat moet implementeren. En dat is een stukje ervaring dat jij behoudt welk middel je ook aan het gebruik mogen zijn. Daarom is het ook zo belangrijk dat het ook al wat ouder is, precies wat jij zegt hè. De sterktes en de zwaktes, die leer je alleen maar door het zoveel mogelijk te gebruiken, in te zetten, duwen, trekken. Ervaring. Maar elke paar jaar verkopen we het wel weer als iets nieuws jongens. Want eerst was het data, toen was het big data, toen was het data science, nu is het AI, straks is het quantum. God knows, ik ben nog steeds data aan het doen om mensen te helpen. Ja, maar goed, dat is a fact of life, denk ik, dat het steeds anders heet. En dat is ook wel fijn, toch, dat we die zaken die we in het verleden... op ongeveer dezelfde processen deden, nog steeds met die processen kunnen doen... met nieuwe advanced technologies om net meer impact te kunnen maken. Ik ben ook nog steeds blij met modelleren van data. Gelukkig gebruiken we daar ook nog steeds dimensioneel modelleren... wat in de jaren tachtig ontstaan is. Gebruik nog dagelijks. Ja, dat gaan we ook niet meer kwijtraken. Maar het belangrijke, en dit heb ik van een oude professor van me geleerd, is dat de mechanismes niet veranderen, alleen de context waarbinnen het zich manifesteert. Dingen zoals gewoon je zwaktes kennen, of weten wat je niet weet. Welk model je ook aan het gebruik mogen zijn, Random Forest tot XGBoost tot Deep Learning, weten wat je niet weet, of welk technologisch gedeelte jij nog niet snapt, en dat dan googelen, jezelf aanleren, via Stack Overflow, via training of via een chatGPT. Die skills van kunnen leren, die zijn redelijk tijds onafhankelijk. En dat is het allerbelangrijkste in het computervakgebied, zoals de ma het noemt. Want ja, haar zoon doet iets met computers, maar één op de drie mensen in de arbeidsmarkt... doen iets met computers. Dus dat dekt echt de lading in weer.- En voor de aankomende twee jaar, wat wordt de grootste uitdaging op het gebied van AI? In de context van van business naar tea. Dus niet in de consumenten of dat soort, maar gewoon als organisaties ermee bezig gaan. Wat wordt de grootste uitdaging? De uitdaging is dat we nu van de ene naar de andere hype aan het rennen zijn, met ChatGPT als modernste voorbeeld, waarvan de ene helft schreeuwt 'het wordt allemaal geweldig' en de andere 'het is verschrikkelijk want geen enkele student zal meer een paper hoeven te schrijven'. We hadden precies hetzelfde mechanisme toen de rekenmachine arriveerde en toen autocorrect en de typemachine en de wordprocessor arriveerden. Want het zou nooit meer hetzelfde zijn, ze zouden nooit meer leren schrijven, ze zouden nooit meer leren rekenen. Nee, want we gingen nadruk leggen op andere werkzaamheden. En tegenwoordig is er geen enkel bedrijf dat er meer over nadenkt om niet hun medewerkers een wordprocessor en een computer en een rekenmachine te geven. Gelukkig zijn die allemaal in één, zodat ze sneller kunnen werken. Chat-GPT is een volgende logische stap daarin, waarbij we enerzijds... Schrijven is makkelijk, jongens. Schrijven is makkelijk. Herschrijven is moeilijk, en dat kan dat ding nog niet. Dus wij gaan ChatGPT of generative AI-technieken, want zo moeten we het noemen. Ze zeggen ChatGPT, is alsof je het over smartphones hebt en iedereen zegt iPhone. Gewoon omdat ze geen enkel andere merken kennen. Het autogenereren van tekst gaat steeds makkelijker en goedkoper worden. En we waren toch al links en rechts aan het outsourcen. Dit is de volgende logische stap. Waar ik echt naar uitkijk is de plugin in Microsoft Word die kijkt... is deze tekst autogenerated of niet. Maar maakt dat uit? Minder dan je zou denken. Dat denk ik ook. Om een goede vriend van mij uit San Francisco te citeren. Bruce, ik hoop dat je luistert. Het probleem is niet dat machines nu papers kunnen schrijven zo goed als de mens. Het probleem is dat sommige mensen papers schrijven zo slecht als een machine. Maar we geven ze toch een zes, want ze hebben vijf kantjes voor geschreven. Ja, want blijkbaar kan je dus papers schrijven, maar dat geldt ook voor code, whatever, die al geschreven is. Dus je zit dubbel werk te doen. Die code hoeft helemaal niet te kunnen runnen en er zit ook geen enkele bronvermelding, Dus je kan het echt niet één op één gebruiken. Nou, dat zeg je, maar ik heb een gascollege gegeven, daar heb ik dit laten zien. En daar kwam op een gegeven moment ook de vraag van..."Ja, maar daar komt misschien niet mooie code uit." Toen zei ik, "Ja, maar wat nou als die doet wat die moet doen?" En je laat hem ook een test schrijven. En die test toont aan dat hij doet wat hij moet doen. Hoe belangrijk is dan nog goede code? Hoe belangrijk is dan nog gegenereerde taal? Hier zitten we... Goeie, hè? Hier zitten we te kijken naar enerzijds methodes versus outcomes. Tegelijkertijd hebben we het hier ook weer over... Het gaat niet om het schrijven. Het gaat over het code genereren of tekst genereren. Het gaat over het herschrijven. En ik ben echt verschrikkelijk slecht in het beginnen van schrijven van een codebase of beginnen met schrijven van een paper. Maar holy moly, als er een halfbakken product ligt, kan ik dat heel makkelijk gaan opschonen en verbeteren. En dat is de grote twist. Daar helpen deze technieken ons heel erg mee. En dan moeten we het juist als een geschenk zien. Dit maakt ons efficiënter. Ik hoef niet meer al mijn eigen dt-spelling checken te doen, jongens. En je weet dat je dat niet zo goed weet, dus als je daar tools voor in kan zetten om het doel te bereiken wat je wil bereiken, why not? Toen de stoommachine kwam zaten we ook te schreeuwen, ja die kinderen leren nu nooit meer wat hard werken is, want ze gaan stoommachine gebruiken. Dit is de zoveelste industriele revolutie, dit is de zoveelste stap. En ja, we zijn slecht geworden in de hoofdrekenen, we zijn slecht geworden in netjes aan elkaar schrijven en al die dingen, dat we de focus kunnen leggen op iets anders. En dat is het echte interessante, vind ik, van technologische vooruitgang binnen AI. Dat het ons steeds meer laat zien wat wij als echt menselijk beschouwen. Alles wat een machine kan, dat noemen we een paar jaar later geen AI meer. Lerpje zester. - Precies. Ik gebruik het zelf wel ook inderdaad al als productiviteitstool. Ik vind het heerlijk om content te maken. Dus ik deel veel kennis. Dan heb ik een heel artikel geschreven. En hoe fijn is het dan dat ik kan zeggen, op basis van dat artikel, maak er een samenvatting van. Maak hier een LinkedIn-post van. Het is allemaal mijn tekst. Normaal gesproken moet ik daar copyrights voor in huren. Dan zit ik dat verhaal te vertellen. Ik kan vragen van, doe me eens even vijf ideeën voor andere titels. Zit daar iets tussen wat ik zelf eigenlijk nog interessanter vind? Straks heb je hier gewoon knoppen voor in je Word Editor. Ja, en dan als je het inderdaad ziet als een productiviteits tool, iets wat jou helpt, denk ik dat het geweldig is. En daar hebben we denk ik het begin pas nu van gevoeld, geproefd, gezien. Ja, maar ik denk dat het dan ook belangrijk is om ook wel net iets meer te weten wat het wel is en wat het niet is. Dus een beetje te begrijpen waarvoor je het wel of niet kan inzetten, want anders wordt het dus niet als hulpmiddel ingezet, maar als waarheid gelezen en daar zit echt het risico. Daar heb je ook precies het probleem, want als tool om vragen mee te beantwoorden, is het niet geschikt. Het weet niks over 2022, want het is getraind op datum tot 2021. Maar het is makkelijker dan googelen, want dan moet je links lezen en klikken. Terwijl je hier gewoon een antwoord krijgt dat kwalitatief misschien minder goed is, maar je hebt het wel sneller. En dat is de echte reden waarom ChatGPT als Google-killer wordt bestempeld. Niet omdat het beter is, maar omdat het makkelijker is."Holy moly, ik heb vier jaar mensen gestudeerd, ik was teleurgesteld, wij zijn echt lui." Maar je moet het ook juist gebruiken in een domein waar je zelf expertise hebt, expert hebt, dus dat je ook daadwerkelijk de uitkomsten die eruit komen, dat je die ook kan beoordelen. Ik zie op social media van alles voorbij komen, gaan mensen vragen stellen aan dat ding waarvan ze weten dat hij het verkeerde antwoord geeft, met allemaal zinnen van "Mike heeft vier...""De moeder van Mike heeft..." Drie kinderen. Ja, vier kinderen. En nummer één, twee en drie heette Piet, Jan en Klaas. Hoe heette de vierde? Ja, daar komt dat ding niet uit. Maar dat is heel grappig. Maar je stelt dus vragen waarvan je het antwoord weet. Het is veel handiger om het gewoon als tooling te gebruiken... binnen je eigen domein waarbij je zelf kan inschatten... klopt het ja of nee. Ik vergelijk het zelf altijd wel met de rubber ducky. Je bent eigenlijk je probleem aan een collega aan het uitleggen... en doordat je een probleem eigenlijk weer terugspiegelt... naar je collega of eigenlijk naar jezelf of naar een chatty petit, dan door het al in te tikken, weer terug te lezen, kom je vaak zelf tot het creatieve proces van de oplossing. Dus ik zie het echt als een rubber ducky on steroids, zeg maar. Dat geldt voor de meeste generatieve AI oplossingen die nu opkomen in de markt. En daarmee ga ik eindelijk je vraag beantwoorden die je net stelde. Wat betekent dit voor organisaties? Het betekent dat wij meer efficiënt kunnen werken, betere beslissingen kunnen nemen. En dat gaat niet alleen over tekstanalyse, maar ook over marketingmateriaal genereren, auto-genereren van mid-journey, alle imagezooi tegenwoordig. Maar ook gewoon data-gedreven werken en iets beter met je Power BI-zooi om kunnen gaan om te forecasten of je marketingcampagne succesvoller wordt. De hele trend is niks nieuws. Alleen de komende 1, 2 jaar gaan we er hopelijk iets meer van implementeren. Want dit is ook meteen de hele uitdaging en probleem van het vakgebied. Dat bijna al deze technieken er al lang zijn, met alle respect. Alleen dat we ze steeds beter iteratief gaan toepassen... door er nog meer data en nog meer rekenkracht en nog meer parameters tegen aan te gooien. En wat dat betreft gaan we de komende 2 jaar nog magic zien links en rechts. Want het gaat allemaal nog veel beter worden. Maar het gaat niet een revolutie worden. Het zal altijd een evolutie zijn van dezelfde deep learning technieken waar we sinds 2013 al helemaal in op aan het gaan zijn. Dat vind ik meteen ook het enge. Want op een gegeven moment wordt dat juist de bottleneck. Een bottleneck voor wat? Vooruitgang op het datagebied. Lineaire regressie werkt prima, random forest is mijn bread and butter. We zijn zo hard op deep learning technieken aan het gaan. Ik ben zelf heel erg geïnteresseerd in graph databases, maar daar is gewoon veel minder aandacht voor bijvoorbeeld. Nee, zeker. En ik denk dat met zelf, dat met de komst van wetgeving rondom transparantie, dat er ook veel meer druk straks uit de samenleving komt, dat dat wel redelijk wat meer recht getrokken wordt. Want dat betekent namelijk dat je daar niet ongebreideld mee aan de slag kan gaan. Dus als je niet de juiste transparantie hebt, niet de juiste uitleg uit modellen... dan kom je daar niet meer helemaal mee weg. Nu staan we inderdaad in vuur en vlam voor ChatGPT. Ik vind het zelf ook echt heel fijn om mee te werken. Maar iets als bronvermelding ofzo zul je er niet krijgen. Het auto genereert ook bronvermelding, maar die slaat niet. Hetzelfde als quotes opvragen aan ChatGPT. Nelson Mandela. Ja, maar juist door het... Ik zou wel willen propageren om er juist heel veel mee te gaan werken. Om precies wat jij zei eigenlijk, als je terugkomt op die lineaire regressie van 30 jaar geleden, en door er veel mee te werken, veel gebruik van te maken, ga je leren wat kan wel, wat kan niet. Waar je natuurlijk wel heel goed over moet nadenken, waar wil je het risico op fouten lopen, waar niet. En daar heb je precies ook de uitdaging. Want je wil altijd de simpelst mogelijke oplossing gebruiken voor een probleem. De simpelst mogelijk uitlegbaar. Want ja, je hebt ze maar voor vijf minuten hun aandacht. En elke sales zou me afschieten natuurlijk op dit moment, want dan is het geen AI en dan is het niet moeilijk en sexy. Maar ons vakgebied als data scientist is juist om het zo simpel mogelijk te houden, met transparantie in gedachten. wat lastig is, want we hebben nu meteen ons hele GDPR-systeem ingesteld op privacy. Privacy en transparantie zijn mutually exclusive, nog voordat je deep learning gaat introduceren. En wat dat betreft gaan er heel veel mensen aangeklaagd worden de komende decennia. Gaan we heel veel mooie jurisprudentie krijgen en gaan we dan pas eigenlijk de limieten zien van wat wel en wat niet mag. Want of ik nou iemands hypotheek weiger en het niet kan uitleggen, omdat het een deep learning model is, en ik snap het niet. Of omdat ik het niet wil uitleggen, omdat ik weet dat het model racistisch en seksistisch is. De facto is dat voor de wet hetzelfde van, jij kan niet uitleggen hoe het werkt. Ja, gelukkig dekt de AVG precies dit geval af. Dus zo gauw een geautomatiseerd besluiten indruist op de levenssfeer van iemand, dan mag het al niet. Het mag niet en je moet het kunnen uitleggen, maar de interpretatie van die wet, dat weten we gewoon nog niet. En dat is heel eng. En als een mens precies hetzelfde besluit zou hebben genomen, zou hij nog kunnen gaan bullshitten van..."Ja, maar het was vanwege de koffie en..." Gisteren kreeg ik die vraag nog van "Ja, vinden we het erger als een machine een fout maakt?" Want als een mens een fout maakt, gaan we hem nog recht proberen te praten. Een machine heeft dat incentive niet, dat overlevingsmechanisme niet. En dat is meteen het enge, want er bestaat geen unbiased model. Er bestaat gewoon niet. De helft van die modellen hebben we ontwikkeld om juist bias te kunnen meten en aan te tonen als sociaalwetenschapper. Daarom heb ik zulke modellen geleerd. Maar unbiased mensen bestaan net zo min. En als een mens zegt, nee we moeten niet de data en we moeten niet de machines gebruiken, want die zijn biased, dan vertrouw ik die mens niet, want die heeft iets te verbergen. Want ik heb data nodig om de mensen te controleren......en ik heb mensen nodig om de data te controleren. Nou, wij slagen er op organisatieniveau nog totaal niet in......om die twee met elkaar te laten praten. Dus ik heb wel een baan de komende dezenken.- Ja, dat lijkt me een hele mooie om mee af te sluiten. Er bestaat geen unbiased data en er bestaan geen unbiased personen. Mooi Marijn, dank je wel. Leuk dat je weer luisterde naar een aflevering van AIToday Live. vergeet niet om je aan te melden. Nee, hoe zeg je dat? Om op het juiste knopje te drukken bij Spotify. Spotify. Op je social media. Op je social media, Spotify. Je weet wat ik bedoel. Dan mis je geen aflevering. Tot de volgende keer, yo. Like en subscribe.

People on this episode