S06E46 - Robot aan de knoppen, hoe AI onze podcast runt!

In deze aflevering van AIToday Live deelt de host een samenvatting van zijn presentatie op de AI Community Day over hoe generatieve AI wordt ingezet in de productie van de podcast. Er wordt ingegaan op de praktische toepassingen en uitdagingen van AI in het creatieproces, van het automatiseren van transcripties tot het genereren van visuals.

Luisteraars krijgen een uniek kijkje achter de schermen en ontdekken hoe AI bijdraagt aan efficiÃ«ntie zonder de menselijke touch te verliezen.

Links

Software: Descript (https://www.descript.com/)
Software: Whisper van OpenAI (https://openai.com/research/whisper/)
Software: MacWhisper Pro (https://goodsnooze.gumroad.com/l/macwhisper)
Online platform: Buzzsprout (http://buzzsprout.com/)
Software: Magic Mastering door Buzzsprout (https://www.buzzsprout.com/help/67-magic-mastering)
Software: DALLE 3 van OpenAI (https://openai.com/dall-e-3/)
Software: Midjourney (https://www.midjourney.com/)

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

0:00

Welkom bij een nieuwe aflevering van AIToday Live. Vandaag hebben we iets speciaals voor jullie. Onlangs had ik de eer om een sessie te geven op de AI Community Day genaamd Robot aan de knoppen hoe AI onze podcast runt. En in deze aflevering deel ik een samenvatting van die sessie en geef ik jullie een kijkje achter de schermen van onze podcast productie. Laat me eerst even kort vertellen over mezelf en Aigency. Zoals jullie weten ben ik Joop Snijder, CTO bij Aigency. En bij Aigency helpen we bedrijven AI te implementeren op een manier die echt waarde toevoegt. En dat geldt ook voor onze podcast AIToday Live waar we de nieuwste ontwikkelingen in AI bespreken en hoe deze technologieën organisaties kunnen helpen. Maar het mooie is dat we gebruiken generatieve AI uiteraard ook zelf om onze processen te versnellen zoals die van deze podcast. Waarom gebruiken we generatieve AI, GenAI, voor onze podcast? Het antwoord is simpel. Het geeft ons meer tijd om met onze gasten te praten en ervaringen te delen. Dus onze automatisering van de podcast heeft namelijk iets extra's. Die generatieve AI die we gebruiken bij het maken van deze podcast fungeert als een soort dojo waarin wij zelf ook constant leren en verbeteren. Dit is eigenlijk ook een productieomgeving waar we ontzettend veel in kunnen proberen en uiteindelijk vooral zien van wat kunnen we met die generatieve AI juist wel en wat kunnen we niet doen. Laten we daarmee beginnen want er zijn namelijk een heel aantal dingen die we met deze generatieve AI niet doen. Zo verzinnen wij geen vragen met AI. We voeren persoonlijke gesprekken uit, uit oprechte interesse met onze gasten. We maken ook geen samenvattingen van artikelen, boeken of blogs die onze gasten geschreven hebben. Die lezen we zelf voordat we met onze gasten spreken. Maar ja, we hebben natuurlijk wel heel wat tools en dat soort dingen gebruiken maar we hebben er ook een heel aantal uitgeprobeerd. En één daarvan die we hebben uitgeprobeerd, die niet geworden is, is Descript. Ik zal een linkje in de show notes zetten. Daarmee probeerden we onze u's en a's uit onze opnames te halen. Maar eerlijk gezegd werkte dat nogal matig. Er werden eerste klanken van woorden afgeknipt en de controle daardoor duurde langer dan wat het opleverde. Daarnaast kreeg het ook wel een beetje een heel steriel karakter wat je hoorde. En als we met elkaar in gesprek zijn dan moeten we soms even nadenken en dat maakt het gesprek alleen maar natuurlijker en denk ik ook veel fijner om naar te luisteren. Waar we generatieve AI ook voor inzetten is het ophalen van bronnen die onze gasten noemen en die we opnemen in show notes. En zoals een gast bijvoorbeeld interessante boeken, films of artikelen noemt, dan willen we die opnemen. In het begin probeerden we hier handmatig aantekeningen van te maken. Wat uiteindelijk al snel onwerkbaar bleek. Maar goed, in het begin hadden we gewoon, we zijn in 2020 begonnen, hadden we nog niet makkelijk de mogelijkheid om generatieve AI in te zetten voor dit soort dingen. Maar goed, dus die handmatige aantekeningen meteen onwerkbaar want het leidde af van het gesprek. De helle vergaten we. "Niels, vandaag is het jouw beurt om goed op te letten. Juist omdat je zo geconcentreerd met het gesprek bezig bent." En daarom toen het beschikbaar werd schakelden we al heel snel over op transcripties met tools zoals Whisper van OpenAI en later een Nederlandse tool MacWhisper Pro geheten. Want hoewel OpenAI een programmeerinterface biedt om geautomatiseerd spraak naar tekst om te zetten, kiezen wij toch voor de minder geautomatiseerde weg van die applicatie MacWhisper Pro. Omdat Whisper heeft namelijk een heel veel onhebbelijkheden. Zo kan je bijvoorbeeld maar 10 minuten per keer opsturen en dus je moet allerlei overlap moet je gaan detecteren en dat weer uit elkaar pluizen. Deze MacWhisper Pro die zoekt het eigenlijk voor ons uit. En het is namelijk heel belangrijk dat we goede transcripties hebben, want die transcripties, die teksten van wat we uitgesproken hebben, vormen de basis voor verdere contentgeneratie. Maar we controleren altijd handmatig op fouten en zorgen ervoor dat namen en details kloppen. Want die transcripties die zijn namelijk de start van al onze tekstomzettingen. Dus iedere fout die in de transcriptie zit komt dan in de gegenereerde tekst terug. Alleen dus in een veelfout. Dat willen we niet. Dus een heel handmatig proces om heel goed na te kijken. Waar zitten fouten en hoe moeten we die verbeteren? Een andere leuke case was het maken van de jingle met Aisha. We hebben nu al een hele tijd onze virtuele co-host Aisha. We hebben een jingle voorgemaakt. En wat we gedaan hebben is we gebruikten een stukje muziek. Die hebben we van internet afgehaald. Die kunnen we gebruiken. Maar ja, daar moest natuurlijk ook weer wat meer bij. Nou ben ik niet een zanger. Sterker nog, ik denk dat ik het tegendeel daarvan ben. Maar toch heb ik met mijn stem en met behulp van Gen AI dat om kunnen zetten in het ritme van de tune. En hoor je die uiteindelijk nu terug in die tune van Aisha. Nou, dit werd uiteindelijk vervolgens gemixt tot volgens mij een leuke herkenbare jingle. Voor het afmixen van onze afleveringen deden we dat eerst zelf. We gebruikten allerlei tools om ervoor te zorgen dat de geluidskwaliteit zo hoog mogelijk was. Maar gelukkig introduceerde Buzzsprout, onze podcast host, die introduceerde Magic Mastering. En die Magic Mastering is een dienst eigenlijk die ze aanbieden. En die zorgt ervoor dat het volume van je podcast consistent is. Zodat alle sprekers even goed hoorbaar zijn. Nou, in zo'n aflevering als dit ben ik natuurlijk alleen aan het woord. Maar met gasten hebben we daar best wel heel grote verschillen in. En het optimaliseert het geluidsniveau. Zodat de podcast een perfect volume heeft zonder pieken die de luisterervaring verstoren. Dat helpt ons enorm zeg maar in tijd. En ja, het was ook best wel een heel complex proces. Hebben we niet uitbesteed. Hopelijk heb je ook onze mooie visuals op de socials gezien. En voor het genereren van die achtergrondplaatjes op die visuals zijn we eerst begonnen met DALLE 3. Maar later zijn we overgeschakeld naar Midjourney. En dat komt DALLE 3, dat is de plaatjes generator van OpenAI via ChatGPT kan je dat ook doen. Maar die kan je ook geprogrammeerd, kun je die aanspreken. Dus we gebruikten daar termen van uit de podcast. En dan maak je die plaatjes. Maar ze hebben allemaal een beetje hetzelfde gevoel. Ik weet niet of je het herkent, maar ik zie meteen, oh ja, dit is een DALLE 3 plaatje. Het geeft voor mij geen bevredigend resultaat. Daarom kiezen we voor het handmatige gebruik van Midjourney. Daar kan ik dan zelf zeggen hoe de plaatje eruit moet zien. Kan ik ook opties kiezen, varianten kiezen. Dus de generatieve AI helpt me heel erg om die plaatjes te maken. Maar ook hier zit best wel weer een hele hoop handwerk en uitzoekwerk bij. Zo gebruiken we nog veel meer tekstgeneratie. We hebben Google tekst naar spraak gebruikt, bijvoorbeeld voor de teksten die Ayesha uitspreekt. Dus zo gebruiken we heel veel verschillende onderdelen van de generatieve AI om onze podcastproductie te runnen. Dus nogmaals, niet de gesprekken die we hebben, maar de podcastproductie. En onze aanpak, ik hoop dat je dat hoort door deze aflevering heen, die benadrukt toch wel de rol van Human in the Loop. De mens die in controle is en die daar een heel belangrijk onderdeel in vormt. We maken altijd een zorgvuldige afweging namelijk welke taken we handmatig uitvoeren via templates of die we met AI gaan uitvoeren. Dit houdt ons flexibel en zorgt ervoor dat we de kosten kunnen besparen zonder in te boeten op kwaliteit. Want de snel veranderende technologie brengt ook uitdagingen met zich mee. Gelukkig, de programmeerinterface van OpenAI is behoorlijk gestandaardiseerd. Dus we zouden best wel kunnen wisselen tussen de verschillende tools en de technologieën. En dat maakt ook ons nieuwsgierig om een klein blikje te werpen in de toekomst om misschien zelfs wel open source taalmodellen te gaan gebruiken die we lokaal kunnen draaien op onze eigen machines. Dus dat we geen cloud dienst nodig hebben. Gewoon eens om te kijken wat kan het, wat doet dit, waar loop je tegen aan. En het kan ons ook kosten besparen. Zo simpel is het ook. Dit was een hele korte blik achter de schermen van hoe AI onze podcast runt. We blijven altijd leren en verbeteren om jullie de beste content te bieden. Dus bedankt voor het luisteren naar AIToday Live. Vergeet je niet te abonneren via je favoriete podcast app. Tot de volgende keer![Muziek][Muziek]

AIToday Live

S06E46 - Robot aan de knoppen, hoe AI onze podcast runt!

Listen to this podcast on