AIToday Live
AIToday Live deelt praktijkverhalen over AI die je direct vooruit helpen in je werk. In een wereld waar AI-ontwikkelingen elkaar razendsnel opvolgen, kiezen wij bewust voor verdieping en praktijkervaring. We bieden een kalm kompas in turbulente tijden.
In deze podcast hoor je professionals uit Nederland en België die openhartig vertellen over hun ervaringen met AI-implementaties. Voorbij de hype en krantenkoppen laten zij zien hoe organisaties écht met AI werken.
Onze gasten delen hun successen én uitdagingen op een toegankelijke manier.
Daarmee helpen we jou om:
- Praktische inzichten te krijgen in wat AI wel en niet kan
- Te leren van de ervaringen van andere professionals
- Concrete ideeën op te doen voor je eigen organisatie
- De grotere lijnen te zien in AI-ontwikkelingen
Iedere maandag een diepgaand gesprek met een gast, gepresenteerd door Joop Snijder (CTO Aigency) en Niels Naglé (Info Support). Elke donderdag deelt Joop in een korte aflevering zijn eigen praktijkervaringen en inzichten.
"AIToday Live is twee keer genomineerd voor 'De Prijs van Oranje' door de Belgian Podcast Awards en staat op nummer 1 in de lijst van Zomerse luister-inspiratie: podcasts over AI, productiviteit, SEO & meer (Frankwatching, juni 2024)."
Ontdek hoe andere professionals AI succesvol inzetten. Ontvang ook exclusieve content, kijk achter de schermen en blijf op de hoogte van nieuwe gasten via onze nieuwsbrief: https://aitodaylive.substack.com
AIToday Live
S06E43 - Verbeter je leven: kristalhelder horen met de nieuwste AI gehoortechnologie
In deze aflevering van AIToday Live bespreken Marciano Ferrier en Nouri Khalass de innovatieve manieren waarop AI kan worden ingezet om de geluidskwaliteit voor slechthorenden te verbeteren. Hun expertise en ervaringen bieden een uniek inzicht in de technische uitdagingen en oplossingen op het gebied van audioverbetering.
Luisteraars krijgen een diepgaand begrip van hoe AI de spraakverstaanbaarheid kan vergroten en welke impact dit heeft op zowel individuen als de samenleving.
Links
- Bedrijf: Audus (https://www.audus.io)
- Onderzoek: Maatschappelijke impact van leeftijdsgerelateerde slechthorendheid (https://www.sirm.nl/publicaties/onderzoek-leeftijdsgerelateerde-slechthorendheid)
- Museum: Singer Museum (https://www.singerlaren.nl)
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.
Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).
Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.
Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!
1
00:00:00,001 --> 00:00:07,760
Hoi, leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live. Met vandaag twee
2
00:00:07,760 --> 00:00:13,760
gasten in de studio. Het gebeurt steeds wat vaker. We hebben Marciano Ferrier en Nouri
3
00:00:13,760 --> 00:00:19,520
Khalass. En zij gaan ons van alles vertellen over het verbeteren van geluidskwaliteit met AI.
4
00:00:19,520 --> 00:00:24,520
Mijn naam is Joop Snijder, CTO bij Aigency. Mijn naam is Niels Naglé, Area Lead,
5
00:00:24,520 --> 00:00:30,760
Data & AI uit bij Info Support. Marciano, Nouri, welkom in onze studio. Leuk dat jullie hier
6
00:00:30,760 --> 00:00:34,720
naartoe zijn gekomen vanaf de andere kant van het land, hoorde ik net. Dank dat we mochten komen.
7
00:00:34,720 --> 00:00:40,440
Ja, heel erg leuk. Zouden jullie je voordat we beginnen je eerst even willen voorstellen aan
8
00:00:40,440 --> 00:00:45,720
onze luisteraars? Marciano, zou jij willen beginnen? Ja, ik ben Marciano Ferrier. Ik ben
9
00:00:45,720 --> 00:00:52,920
de oprichter van Audus Technologies. En van huis uit ben ik opgeleid als dokter en daarna KNO.
10
00:00:52,920 --> 00:00:59,560
En ik heb een hele andere wending gemaakt naar dit gebied. Ja, leuk. Voor het eerst hebben we een
11
00:00:59,560 --> 00:01:08,080
dokter in de zaal. En Nouri? Ik ben Nouri Khalass, Director of Technology and Strategy bij
12
00:01:08,080 --> 00:01:13,520
Audus Technologies. Ik heb een computer science achtergrond. Ik heb gestudeerd in Delft. Daar heel
13
00:01:13,520 --> 00:01:18,840
veel ervaring op gedaan met computer science. Maar ook met mensen die slechthorend zijn en
14
00:01:18,840 --> 00:01:23,440
nadenken over hoe je die mensen op een innovatieve manier kunt kunnen helpen.
15
00:01:23,440 --> 00:01:29,040
Ja, want daar gaan we het vandaag over hebben. Slechthorendheid, AI en wat jullie daarvoor
16
00:01:29,040 --> 00:01:35,120
hebben gemaakt. Toch? Klopt, ja interessant. Zou je wat kunnen vertellen Marciano over
17
00:01:35,120 --> 00:01:43,640
Ouders en wat jullie doen en wat dat voor betekenis heeft voor slechthorenden?
18
00:01:43,640 --> 00:01:49,400
Ja, misschien even beginnen bij het begin. Ik werkte in het ziekenhuis in Bronovo in
19
00:01:49,400 --> 00:01:55,760
Den Haag. En daar zag ik heel veel mensen met gehoorverlies. Dat is meestal leeftijds
20
00:01:55,760 --> 00:02:01,800
gerelateerd. Als je ouder wordt, gaan we allemaal slechter horen. En begint dat vanaf je twintigste
21
00:02:01,800 --> 00:02:05,520
eigenlijk al. Dan begint de aftakeling van het lichaam al. Dus ook je gehoor.
22
00:02:05,520 --> 00:02:08,280
Dat is een fijn begin van de podcast.
23
00:02:08,280 --> 00:02:12,480
Dat is uit de droom helpen. Maar jullie hebben ook al een beetje slechter gehoor.
24
00:02:12,480 --> 00:02:13,480
Zeker.
25
00:02:13,480 --> 00:02:17,800
En als je daar ook nog met vuurwerk hebt gespeeld of in de muziekwereld hebt gezeten, dan is
26
00:02:17,800 --> 00:02:25,480
het veel erger. Maar daar zag ik dus heel veel mensen met slechthorendheid. En het gros daarvan,
27
00:02:25,480 --> 00:02:32,720
ook al is het betaald in Nederland, kiest toch niet voor een oplossing als een hoortoestel.
28
00:02:32,720 --> 00:02:41,960
In Nederland hebben we 2,6 miljoen slechthorenden. Vanaf 25 decibel tot helemaal doof. En slechts
29
00:02:41,960 --> 00:02:46,840
60 procent daarvan heeft een hulpmiddel. 40 procent niet. Er zijn heel veel redenen voor,
30
00:02:46,840 --> 00:02:54,880
financiële redenen, maar ook heel veel zit dan in de gedachte dat het een defect is of dat je
31
00:02:54,880 --> 00:02:59,080
toch iets moet dragen, dat het een zwakte is. Dus een heleboel redenen zitten erachter.
32
00:02:59,080 --> 00:03:05,200
Maar heel veel mensen zijn dus niet geholpen. En voor die grote groep ben ik gaan nadenken
33
00:03:05,200 --> 00:03:09,880
hoe we die dan wel kunnen bedienen. En daar is dit product wat we nu op de markt hebben
34
00:03:09,880 --> 00:03:17,120
gebracht uitgekomen. Dus wij veranderen het gehoor voor slechthorenden, de audio voor slechthorenden,
35
00:03:17,120 --> 00:03:23,480
niet met een hoortoestel. Maar we veranderen dat op het hulpmiddel wat ze voor handen hebben. Dus
36
00:03:23,480 --> 00:03:29,240
een mobiele telefoon, een laptop, een televisie of een car kit. Daar veranderen we de audio van.
37
00:03:29,240 --> 00:03:33,240
Dan heb je verder geen andere hardware voor nodig. We veranderen daar gewoon precies met
38
00:03:33,240 --> 00:03:40,840
dezelfde, ongeveer dezelfde algoritmes plus AI. Veranderen we het optimum voor hun, zodat
39
00:03:40,840 --> 00:03:45,960
ze vooral de spraakverstaanbaarheid vergroot wordt voor deze grote groep mensen. Dus het zou dan echt
40
00:03:45,960 --> 00:03:54,440
voor mij persoonlijk worden gemaakt? Wij kunnen, de ingang van onze engine is een hoortest eigenlijk.
41
00:03:54,440 --> 00:04:00,360
Dus we kunnen het helemaal persoonlijk doen, dat hebben we ook. Maar de meeste klanten kiezen toch
42
00:04:00,360 --> 00:04:08,960
voor een beperkt aantal instellingen. Dus licht, matig of sterk gehoorverlies of stand 1 en 2,
43
00:04:08,960 --> 00:04:16,400
hoe je het wil noemen. Dat is vaak uit praktische overwegingen de meest gekozen optie.
44
00:04:16,400 --> 00:04:19,800
Dan doe ik even voor de voorzichtige aanname. Het is niet alleen het volume harder zetten.
45
00:04:19,800 --> 00:04:26,120
Dat is een hele goede vraag. Dus bij beginnend gehoorverlies is volume toename een oplossing.
46
00:04:26,120 --> 00:04:30,680
En die werkt ook, geeft ook echt wel verbeteringen. Dus als je slechter hoort,
47
00:04:30,680 --> 00:04:34,960
dan doe ik het wat harder. Dan kan ik het beter verstaan. Maar de meeste mensen met
48
00:04:34,960 --> 00:04:40,320
gehoorverlies die hebben meer, veel meer baat bij een intelligentere manier van
49
00:04:40,320 --> 00:04:46,560
gehoorverbetering. En volume is daar maar een heel klein onderdeel van. Het gaat meer over
50
00:04:46,560 --> 00:04:52,680
frequentiespecifiek versterken en ook met compressie en andere achtergrond weghalen.
51
00:04:52,680 --> 00:04:58,080
Echt dat je de spraak naar voren haalt. Herkennen van spraak en geen spraak. Er komen andere
52
00:04:58,080 --> 00:05:03,280
trucs bij kijken dan alleen maar het volume. En volume is echt, als je naar de grote groep kijkt,
53
00:05:03,280 --> 00:05:09,560
misschien 15% van de oplossing. Ja, oké. Ja, die volume. Ja, dat is wel een goede vraag.
54
00:05:09,560 --> 00:05:15,120
Ja, als ik vroeger bij mijn oma kwam en stond alles te kneiterhard. Ja, maar dat is het dan
55
00:05:15,120 --> 00:05:20,600
inderdaad niet. Ja, dat is echt wel een eye-opener is voor heel veel mensen. Die tv die bij de
56
00:05:20,600 --> 00:05:25,200
buurvrouw of bij die oudere mensen te hard staat. Ja, dat hoeft eigenlijk helemaal niet.
57
00:05:25,200 --> 00:05:30,160
Vaak kan je met de helft van het volume en dus een andere manier van het aanbieden van het geluid,
58
00:05:30,160 --> 00:05:34,280
kom je veel verder. Dus als die tv zo hard staat, dan is er eigenlijk reden van,
59
00:05:34,280 --> 00:05:41,640
ga naar de hoorwinkel. Want nog steeds ook als KNO-arts, adviseer ik iedereen die er last van heeft,
60
00:05:41,640 --> 00:05:46,760
om wel een hoortoestel te nemen. Alleen ja, lijkt in de praktijk dat de grote groep dat dus niet
61
00:05:46,760 --> 00:05:52,600
doet. Maar dat advies is wel zoeken hulp. Ja, die drempel is vaak heel erg groot.
62
00:05:52,600 --> 00:05:58,120
Ik weet mijn vader, die heeft ik geloof wel tien jaar er tegen aangehikt ofzo,
63
00:05:58,120 --> 00:06:02,360
voordat hij uiteindelijk een gehoorapparaat nam. Terwijl iedereen wist dat hij die heel hard
64
00:06:02,360 --> 00:06:06,880
nodig had. Klopt, de gemiddelde uitsteltijd van een hoortoestel is meer dan zeven jaar.
65
00:06:06,880 --> 00:06:13,160
Dus als je voor een aanmerking komt en je zou er moeten nemen, is het uitstelgedrag dus bijna,
66
00:06:13,160 --> 00:06:18,720
ja, tien jaar, dan komt het echt wel overheen. Ja. En wat was het moment dat je dacht van,
67
00:06:18,720 --> 00:06:25,040
ja maar hier moet ik dan een andere oplossing voor vinden dan die gehoortoestellen?
68
00:06:25,040 --> 00:06:30,920
Nou dat heeft met twee dingen te maken eigenlijk. Mijn eigen interesse in techniek. Dus ik ben
69
00:06:30,920 --> 00:06:36,840
zelf zeg maar, ik ben niet alleen dokter, maar ik ben ook erg technisch aangereikt.
70
00:06:36,840 --> 00:06:42,160
Eigenlijk was ik beter aan de Delft gegaan dan studeren, studeren Leiden. Maar ja,
71
00:06:42,160 --> 00:06:47,320
dat kon in plaats van heel veel later. Als je ook KNO-arts bent, dat is één. En de tweede is dat
72
00:06:47,320 --> 00:06:52,920
ik ook contact heb gehad met de hoorindustrie. Dat is een industrie waar een aantal hele grote
73
00:06:52,920 --> 00:07:01,720
spelers in werkzaam zijn. En ook met alle media acties, je doet de radio maar aan, de televisie
74
00:07:01,720 --> 00:07:05,920
aan en je kijkt een half uur, komen er twee reclames van de hoortoestelwinkel voorbij meestal.
75
00:07:05,920 --> 00:07:12,280
Ondanks al hun activiteiten is dat percentage aan mensen die niet geholpen is, dat werd niet
76
00:07:12,280 --> 00:07:20,560
kleiner. Dus die drempel was zo groot. En ik heb wel oplossingen met hun besproken en gehad van,
77
00:07:20,560 --> 00:07:25,520
nou kunnen jullie iets mee? Zijn er andere manieren hoe we die groep kunnen bedienen?
78
00:07:25,520 --> 00:07:30,920
Daar had ik wel gedachten over, maar ben er wel achtergekomen dat ze hebben zo'n positie,
79
00:07:30,920 --> 00:07:36,200
waarin eigenlijk weinig hoeft te veranderen voor hun, dat zij niet aangelegen waren om
80
00:07:36,200 --> 00:07:42,800
echt grote veranderingen te maken. En ik ben ook niet een disruptor van de hoorindustrie.
81
00:07:42,800 --> 00:07:47,120
Ik wil echt iets toevoegen, dat zeg ik ook net, want ik raad iedereen aan om een hoortoestel
82
00:07:47,120 --> 00:07:51,040
te nemen. Wij voegen echt voor die groep die dat toch niet doet, iets toe van,
83
00:07:51,040 --> 00:07:53,960
nou hier heb je in ieder geval tools waar je wel mee uit de voeten kan.
84
00:07:53,960 --> 00:07:59,440
En die groep is die gegroeid de afgelopen jaren met het hele thuiswerken,
85
00:07:59,440 --> 00:08:03,240
waar veel meer teams, veel meer mobiele telefoon en mobiele overleggen?
86
00:08:03,240 --> 00:08:09,720
Ja, interessant. Wij richten ons echt als core op slechthorendheid,
87
00:08:09,720 --> 00:08:14,360
maar we zien bij de testen die we gedaan hebben, dat ook bij jongere mensen,
88
00:08:14,360 --> 00:08:24,360
en dat is ook een mooi artikel in de American Today, New York Times, van een half jaar geleden,
89
00:08:24,360 --> 00:08:29,440
geloof ik, daar stond in dat ook jonge mensen bij het kijken van televisieprogramma's nu
90
00:08:29,440 --> 00:08:34,120
vaak de ondertiteling aanzitten. Vanwege de rumoer, de omgeving waarin ze zitten,
91
00:08:34,120 --> 00:08:39,160
kunnen ze toch niet helemaal goed volgen. Dat is één grote groep, dus ook de jongeren die
92
00:08:39,160 --> 00:08:42,960
hebben baat bij verbeterde audio. Ook de kwaliteit van de speakers in
93
00:08:42,960 --> 00:08:50,000
de hedendaagse elektronica is niet super. Dus ook daar kan je met geluidsoptimalisatie
94
00:08:50,000 --> 00:08:56,160
echt nog wel verbetering geven. En wat ook hebben we gezien in de testen die we gedaan hebben,
95
00:08:56,160 --> 00:09:03,600
dat mensen als ze luisteren naar buitenlandse talen, dat daar het optimaliseren van audio
96
00:09:03,600 --> 00:09:07,160
ook zeer wenselijk is. De spraakverstaanbaarheid wordt enorm vergroot.
97
00:09:07,160 --> 00:09:12,040
Ja, en buitenlandse taal mag af en toe ook wel de snelheid wat minder. Als het een dialect is,
98
00:09:12,040 --> 00:09:15,720
helpt mij dan wel weer, zeg maar. Maar ik begrijp wel wat je zegt.
99
00:09:15,720 --> 00:09:19,200
Ja, als het niet live is, is het makkelijk. Dan kan je het langzaam afspoelen. Maar als je in
100
00:09:19,200 --> 00:09:23,680
een conference call zit, dan is het lastig om de snelheid te beïnvloeden.
101
00:09:23,680 --> 00:09:30,160
Ja, en Nouri=, jij zit meer aan de technische kant. Zou jij kunnen uitleggen, want we hebben het
102
00:09:30,160 --> 00:09:38,280
hier over de stem ergens uithalen. Is het zoiets als noise reduction, dus dat je ruizen weghaalt,
103
00:09:38,280 --> 00:09:43,200
stem omhoog haalt? Ja, het is vergelijkbaar. We hebben eigenlijk
104
00:09:43,200 --> 00:09:49,080
twee methoden. De eerste methode is source separation. Daarbij schrijf je eigenlijk
105
00:09:49,080 --> 00:09:55,800
het spraak van achtergrond. Dat kan van alles zijn. Dat kan muziek zijn, dat kan ruis zijn,
106
00:09:55,800 --> 00:10:01,440
dat kan rumoer zijn, dat kan incidentele ruis zijn, dat kan windruis zijn. Het kan dus van alles zijn.
107
00:10:01,440 --> 00:10:07,640
Daar maak je een scheiding tussen. Dan heb je als het goed is, goede kwaliteit geïsoleerde spraak.
108
00:10:07,640 --> 00:10:13,560
En dat is hetgeen wat je echt verstaanbaar wil maken. Wat Marciano ook zegt, je kan dat harder
109
00:10:13,560 --> 00:10:17,520
gaan zetten, maar dat is niet de bedoeling. Daar schiet je niet zo veel mee op. En wat je eigenlijk
110
00:10:17,520 --> 00:10:22,560
wil doen is frequentiespecifiek het geluid harder maken. Dus je gaat kijken naar het gehoorverlies,
111
00:10:22,560 --> 00:10:27,960
je gaat kijken naar het geluid, wat zit er allemaal in qua frequenties. En vaak gehoorverlies is 9 van
112
00:10:27,960 --> 00:10:32,720
de 10 keer zit dat in de hoge tonen. Dan heb je moeite met de hoge tonen goed kunnen verstaan.
113
00:10:32,720 --> 00:10:38,040
En dat wil je versterken, niet de andere frequenties, alleen die hoge tonen. En daarmee verbeter je de
114
00:10:38,040 --> 00:10:41,840
spraak verstaanbaar uit. En dat is een methode die je eigenlijk ook ziet zoals een hoortoestel
115
00:10:41,840 --> 00:10:47,480
werkt. Het zijn twee dingen, die source separation en dan die frequentiespecifieke verbetering.
116
00:10:47,480 --> 00:10:53,240
En samen heb je een pakketje wat vergelijkbaar is zoals een hoortoestel werkt. Ja en wat doet
117
00:10:53,240 --> 00:10:58,960
jullie oplossing anders dan als ik een equalizer zou hebben en zeggen van doe mij de hoge toon
118
00:10:58,960 --> 00:11:04,240
even wat omhoog. Ja dan ben je in principe ook weer inderdaad wel frequentiespecifiek bezig.
119
00:11:04,240 --> 00:11:12,600
En in de basis zijn hoortoestellen toch ook wel een soort equalizers. Alleen de instelling die je
120
00:11:12,600 --> 00:11:16,600
moet doen, die is heel belangrijk. Dus er zijn gewoon normen en standaarden van oké als iemand
121
00:11:16,600 --> 00:11:22,240
een bepaald gehoorverlies heeft, bijvoorbeeld in de hoge tonen, hoeveel moet je dan versterken?
122
00:11:22,240 --> 00:11:26,400
Want je kan het wel versterken, maar op een bepaald punt ben je het zo aan het versterken dat het niet
123
00:11:26,400 --> 00:11:31,560
duidelijker wordt. Dus dat is één. Dus de afstelling van de equalizer, daar zit eigenlijk
124
00:11:31,560 --> 00:11:37,640
de techniek. En wat we daarbij ook nog eens toepassen is compressie. Dus daarbij wil je
125
00:11:37,640 --> 00:11:43,000
eigenlijk zachte geluiden versterken, maar geluiden die al hard zijn, die laat je ongeroerd. En als je
126
00:11:43,000 --> 00:11:47,840
normaal aan het versterken bent, dan maak je eigenlijk alles luider. En dat moet je dan
127
00:11:47,840 --> 00:11:54,400
realtime doen, want je wil dit ook als je een Netflix serie zit te kijken, wil je dat ook horen.
128
00:11:54,400 --> 00:11:58,480
Nou is het voordeel van Netflix, dat is allemaal van tevoren opgenomen. Dus dan zou je dat nog
129
00:11:58,480 --> 00:12:03,520
achteraf kunnen toepassen. En zo maken we ook onderscheid tussen eigenlijk statische content
130
00:12:03,520 --> 00:12:07,520
en live content. Bijvoorbeeld een live uitzending van de NOS, het 8 uur journaal bijvoorbeeld,
131
00:12:07,520 --> 00:12:11,960
of een sportevenement. Nou daar zou je het inderdaad wel in realtime willen toepassen,
132
00:12:11,960 --> 00:12:17,040
of je bent aan het videobellen, dat soort situaties. Dus het moet zowel live als op statische content
133
00:12:17,040 --> 00:12:21,520
kunnen draaien. Maar als het live draait, dan moet je je inderdaad rekening houden met de
134
00:12:21,520 --> 00:12:28,040
realtime eisen die er zijn. Ja en hoe zijn die? Nou als je gaat kijken naar hoeveel kan je eigenlijk
135
00:12:28,040 --> 00:12:32,960
vertragen, dan heeft onderzoek aangetoond dat je ongeveer 15 milliseconden tussen beeld en geluid
136
00:12:32,960 --> 00:12:38,560
kunt vertragen. En dan ervaar je het nog wel als lip-sync. Dus de audio mag 15 milliseconden
137
00:12:38,560 --> 00:12:47,840
achterlopen, maar dan ervaar je het nog wel alsof het constant is. 15 milliseconden is echt ultra
138
00:12:47,840 --> 00:12:53,200
kort toch? Ja dat is heel weinig. En eigenlijk vinden wij dat nog te veel. Want als je getraind
139
00:12:53,200 --> 00:12:59,000
bent dan zie je wel dat het uit sync loopt. Dat lijkt me ook dan wel een technische uitdaging
140
00:12:59,000 --> 00:13:05,560
voor jullie. Ja, omdat in de basis veel van de technieken die wij gebruiken ook terug te vinden
141
00:13:05,560 --> 00:13:12,280
zijn in een hoortoestel. En een hoortoestel heel beperkt is in zijn rekenkracht. Is wat je kunt
142
00:13:12,280 --> 00:13:16,280
doen misschien maar beperkt, maar het moet wel ultrasnel werken. En omdat wij gewoon hetzelfde
143
00:13:16,280 --> 00:13:21,960
doen, nou werkt onze techniek ook ultrasnel. Daar komt er wel een complicerende factor bij,
144
00:13:21,960 --> 00:13:27,120
kijk als je inderdaad AI gaat inzetten en je wil het dan in realtime gaan doen. Nou dat komt ook
145
00:13:27,120 --> 00:13:33,400
met bepaalde performance bottlenecks. Dus we zijn ook best lang bezig geweest met inderdaad alles zo
146
00:13:33,400 --> 00:13:37,600
optimaal mogelijk maken om onder die 15 milliseconden te komen. Wat we nu gelukkig
147
00:13:37,600 --> 00:13:44,320
kunnen. Maar je maakt dat ook weer een trade-off tussen kwaliteit en tussen snelheid. Ja snap ik.
148
00:13:44,320 --> 00:13:49,880
Lelacy is wel echt onze vijand. We hebben weinig vijand hoor, we hebben veel vrienden.
149
00:13:49,880 --> 00:13:56,840
Lelacy is onze vijand. Ja, echt die vertraging. Daar kan ik me er alles bij voorstellen. Je kan
150
00:13:56,840 --> 00:14:01,160
soms wel hebben, weet je, als je sowieso televisie kijkt en het is net een heel klein beetje verschil.
151
00:14:01,160 --> 00:14:07,280
Is dat mega irritant als dat inderdaad niet lip sync is. Misschien wel leuk te vertellen,
152
00:14:07,280 --> 00:14:13,120
we waren de eerste bedrijf wat in Delft, bij de tv Delft, in de Green Village,
153
00:14:13,120 --> 00:14:20,320
testen hebben gedaan met een echt dedicated 5G netwerk. Dat is nu alweer twee jaar geleden.
154
00:14:20,320 --> 00:14:24,440
Dat gaat nu geveild worden eindelijk. Maar we hebben inderdaad van die latency,
155
00:14:24,440 --> 00:14:31,480
want met 4G konden we die latency niet bereiken. Dan kwamen we echt in getallen in de 40 tot 60
156
00:14:31,480 --> 00:14:35,960
milliseconden, wat gewoon echt duidelijke vertraging gaf. We hebben gekeken of 5G,
157
00:14:35,960 --> 00:14:41,000
en dan nu komt 6G, of we daarmee wel die latency konden halen. We hebben echt op het netwerk wat
158
00:14:41,000 --> 00:14:47,480
daar aangelegd was door de TNO, hebben met een aantal partners hebben gekeken, MCS,
159
00:14:47,480 --> 00:14:57,360
Surf, gekeken of we dat wel konden bereiken. Toen kwam helaas, totdat onze engine toen te
160
00:14:57,360 --> 00:15:05,160
traag was. Maar dat was twee jaar geleden. We kunnen het nu wel en binnenkort gaan we dat
161
00:15:05,160 --> 00:15:12,480
wel weer testen. Kunnen jullie dat op 4G nu? Is de compressie zo goed toegenomen of de technologie
162
00:15:12,480 --> 00:15:21,560
zo veranderd? Nee, 4G kan niet en dat ligt dus niet aan ons. Als je iemand voor je staat en je
163
00:15:21,560 --> 00:15:27,680
gaat je proces op de telefoon, dan kan het. Maar wij hebben patenten op processen in de cloud.
164
00:15:27,680 --> 00:15:33,280
We sturen het eerst naar een server toe, daar wordt geprocest en dan moet het weer terug. Het
165
00:15:33,280 --> 00:15:41,280
datanetwerk van de telefoon naar de data lijn, naar de server, heen en terug, die is met 4G
166
00:15:41,280 --> 00:15:50,720
gewoon veel te traag. Met 5G kan het wel. Je gaf aan dat dit op ieder device kan. Moet ik dan iets
167
00:15:50,720 --> 00:15:56,560
installeren? Hoe gaat dat? Het verschilt per toepassing. We hebben bijvoorbeeld toepassingen
168
00:15:56,560 --> 00:16:00,680
voor je desktop en je laptop. En daar is gewoon een kwestie van je installeert een applicatie,
169
00:16:00,680 --> 00:16:06,640
op jouw systeembeheerder doet dat voor je. Dan wordt alle audio, alle systeem audio,
170
00:16:06,640 --> 00:16:11,160
alle audio wordt in één keer aangepast. Dat gebeurt gewoon lokaal op je laptop. Maar we zijn
171
00:16:11,160 --> 00:16:15,520
bijvoorbeeld ook aan het nadenken met onder andere Nokia, hoe we het bijvoorbeeld in hun
172
00:16:15,520 --> 00:16:20,080
IMS systeem zouden kunnen doen. Wat is een IMS systeem? Dat is eigenlijk de telefooncentrale.
173
00:16:20,080 --> 00:16:24,640
Dus daar worden alle gesprekken komen daar binnen en gaan er ook weer uit. Dus daar wordt de routing
174
00:16:24,640 --> 00:16:29,240
wordt daar gedaan. En het is dan interessant, kan je daar op toepassen, zodat ook weer de telefoon
175
00:16:29,240 --> 00:16:34,160
gesprekken van verstaanbaarheid beter worden, zonder dat je iets hoeft te installeren op je
176
00:16:34,160 --> 00:16:40,640
telefoon. En dan geldt het eigenlijk voor iedereen. Ja. Gaaf. En hoe zit dan het personalisatie
177
00:16:40,640 --> 00:16:46,280
stukje daar dan weer in terug? Want het is voor iedereen, maar het is speciaal voor jou. Ja,
178
00:16:46,280 --> 00:16:50,680
dat is inderdaad een trade-off. In sommige situaties kan je het niet helemaal personaliseren. In het
179
00:16:50,680 --> 00:16:54,920
geval van bijvoorbeeld een telefooncentrale, soms als je een klantenbestand hebt, dan kunnen ze dat
180
00:16:54,920 --> 00:17:00,680
op basis van leeftijd zouden ze dat, nou, gepersonaliseerd kunnen doen. Onze technologie
181
00:17:00,680 --> 00:17:04,680
wordt bijvoorbeeld ook toegepast in musea. Dat is allemaal vooraf opgenomen audio. En daar wordt
182
00:17:04,680 --> 00:17:09,360
gewoon maar één stand gebruikt. Het is daar altijd aan en voor iedereen. Het ding is ook,
183
00:17:09,360 --> 00:17:15,440
als je verbeterde audio beluistert als niet slechthorende, of het is bewerkt voor iemand
184
00:17:15,440 --> 00:17:19,200
die een hogere leeftijd hebt, dan als niet slechthorende ervaar je dat nog niet per se
185
00:17:19,200 --> 00:17:23,240
als hinderlijk of als problematisch. Zeker nog, het is eigenlijk wel prettiger om naar te luisteren,
186
00:17:23,240 --> 00:17:28,280
omdat het gewoon duidelijker is qua smaak, qua spraak. Maar voor je desktop, die desktop
187
00:17:28,280 --> 00:17:33,240
applicatie, die kan je met drie standen instellen. En daarbij kan je ook je audiogram invullen,
188
00:17:33,240 --> 00:17:35,880
zodat het helemaal gepersonaliseerd wordt aan jouw gehoorverlies.
189
00:17:35,880 --> 00:17:44,000
En Marciano, wat was voor het eerst, zeg maar, dat je zoiets had van, hé, maar deze technologie
190
00:17:44,000 --> 00:17:50,000
werkt en niet voor jezelf, maar dat iemand anders tegen je zei van, ja, maar dit is het,
191
00:17:50,000 --> 00:17:58,040
dit wil ik. Ja, dat is wel een leuke anekdote die ik dan kan vertellen. We waren bij het Singer
192
00:17:58,040 --> 00:18:07,000
Museum en we hadden, Nouri had laatste hand gelegd aan de beta versie van onze verbetersoftware
193
00:18:07,000 --> 00:18:13,680
voor Musea. We maken dan de Musea tours veranderen dan voor slechthorenden. En we kamen daar bij de
194
00:18:13,680 --> 00:18:22,640
directeur van het museum, meneer De Loorn, en we hadden een appje gebouwd, echt een beetje houtje
195
00:18:22,640 --> 00:18:26,800
touwtje nog hoor. Dat was een uur voor demonstratie. Uur voor demonstratie, uiteindelijk. Het zat op een
196
00:18:26,800 --> 00:18:30,760
telefoon met een slechte speaker. We zitten hier met hele dure apparatuur, maar het was echt een
197
00:18:30,760 --> 00:18:36,320
simpel dingetje. En we wilden gewoon laten zien van, goh, we zijn hier mee bezig. En nou, gewoon
198
00:18:36,320 --> 00:18:42,480
een beetje interesse wekken. En hij kijkt zo en zegt, oh, dan kan ik beter mijn hoedjes stil uitdoen.
199
00:18:42,480 --> 00:18:49,640
Ik dacht, ja, maar het was niet echt bedoeld als een soort high-end oplossing. Het is gewoon even,
200
00:18:49,640 --> 00:18:55,600
ja, een soort teaser. Het is niet de echte test. We wisten ook niet dat hij slechthorend was.
201
00:18:55,600 --> 00:18:59,480
Dat wisten we ook niet. Geweldig. We zetten zijn hoedjes stil uit en luistert even,
202
00:18:59,480 --> 00:19:02,480
luistert nog wat aandachtiger. Nou, het is exact hetzelfde als mijn hoedjes stil.
203
00:19:02,480 --> 00:19:17,480
En nu, wat zijn de volgende stap? Ja, leuke vraag. We hebben echt heel hard gewerkt de afgelopen
204
00:19:17,480 --> 00:19:24,960
periode aan het afmaken van de software. We hebben de Workspace oplossing, die is voor Windows helemaal
205
00:19:24,960 --> 00:19:29,160
klaar. En een aantal bedrijven die daar heel erg geïnteresseerd zijn, en een aantal bedrijven waar het
206
00:19:29,160 --> 00:19:37,960
draait. De presets en ook voor accessibility, dus toegankelijkheid. Mensen die op de werkvloer met
207
00:19:37,960 --> 00:19:43,080
gehoorverlies lopen, dat heeft grote impact natuurlijk. We kunnen daarmee helpen, maar ook
208
00:19:43,080 --> 00:19:47,840
gewoon de mensen die naar buitenlandse talen daarmee moeite hebben. Een Japans bedrijf die
209
00:19:47,840 --> 00:19:52,680
dat specifiek daarvoor heeft gekocht, bijvoorbeeld om de Engelse taal beter te verstaan. Dat is ook
210
00:19:52,680 --> 00:19:59,800
een hele leuke case. Dus daar zijn we nu mee aan het groeien. En we zijn net de markt op aan het
211
00:19:59,800 --> 00:20:09,960
gaan. We hebben klanten, maar dit jaar is echt het jaar van het PR zoeken en groeien. Maar de
212
00:20:09,960 --> 00:20:18,080
verdere stappen, mijn droom eigenlijk, waar ik mee begonnen ben, is om het achterhuis-signaal
213
00:20:18,080 --> 00:20:26,920
te verbeteren voor slechthorenden. Dat is wel grappig, want in tijden van corona was gebarentaal
214
00:20:26,920 --> 00:20:34,040
verplicht. En dan vraag ik aan jullie, voor hoeveel mensen is gebarentaal ter beschikking gesteld?
215
00:20:34,040 --> 00:20:40,760
Hoeveel mensen kijken naar het journaal en hebben daar baat bij? - Ik heb er geen flauw idee over.
216
00:20:40,760 --> 00:20:45,440
Ik denk een klein percentage. - In aantallen?
217
00:20:45,440 --> 00:20:52,120
Ja, in absolute aantallen. Dit is een gok. 100.000? - Ik zou zeggen de helft, 50.000.
218
00:20:52,120 --> 00:20:56,840
Ja, dat zit al veel beter in de buurt. - Zo'n 120.000 mensen.
219
00:20:56,840 --> 00:20:57,800
Gewoon niet zo weinig? - Ja.
220
00:20:57,800 --> 00:21:01,800
En ik heb het net al een beetje verklapt, maar hoeveel mensen zijn er slechthorend in Nederland?
221
00:21:01,800 --> 00:21:05,160
Vele malen meer inderdaad. Dat is toch 2,3 miljoen mensen?
222
00:21:05,160 --> 00:21:13,880
Dat zijn er 2,6. En ongeveer 1 op de 7 mensen in Nederland heeft slechthorendheid. Dus van die
223
00:21:13,880 --> 00:21:18,840
grote groep mensen die voor de tv zitten en het journaal niet goed volgen, zijn er meerdere mensen
224
00:21:18,840 --> 00:21:25,240
die ik gesproken heb. En in mijn leven kom ik elke keer weer tegen waarbij de man apart tv kijkt
225
00:21:25,240 --> 00:21:29,920
van de vrouw. En de vrouw die slechthorend is, zit op de laptop te kijken met de koptelefoon op.
226
00:21:29,920 --> 00:21:34,800
En ja, ze zitten gewoon gescheiden in de avond te genieten van hun eigen footage.
227
00:21:34,800 --> 00:21:39,400
Of hetzelfde programma zelfs kan ook nog. Dat journaal vind ik ook zo belangrijk als
228
00:21:39,400 --> 00:21:48,320
informatiebron, maar ook entertainment. Dat wil ik graag veranderen. Daar zijn we ook wel mee
229
00:21:48,320 --> 00:21:54,080
bezig geweest met de NPO. We doen ook weer testen met de EO nu. Met podcast, maar ook met KPN hebben
230
00:21:54,080 --> 00:21:59,280
we testen voor de tv gedaan die zeer positief zijn uitgevallen. Dat is iets waar we graag naar toe
231
00:21:59,280 --> 00:22:05,400
willen. We gaan de televisie, entertainment en de broadcast veranderen. Dat is waar we naar toe
232
00:22:05,400 --> 00:22:10,560
willen. Maar ook de bioscoop willen we naar toe. Dat is ook een oplossing voor de bioscoop. En
233
00:22:10,560 --> 00:22:14,880
ook testen gedaan in het kleine bioscoopje bij mij in het dorp. Hartstikke leuk was dat.
234
00:22:14,880 --> 00:22:23,680
Wat waren daar de reacties? Ja, we hadden een zaal, twee keer een viewing met een aangepaste
235
00:22:23,680 --> 00:22:30,320
audio. Dat was ook deels klinische testen. We hebben woorden getest met ruis, zoals ik als
236
00:22:30,320 --> 00:22:38,320
k-noors gewend ben in een stille ruimte. En ook een documentaire met aangepaste audio. Dat was een
237
00:22:38,320 --> 00:22:46,000
documentaire over de Boorma's van Beuningen, de depot. Daar hadden we de delen van de audio
238
00:22:46,000 --> 00:22:51,120
aangepast. Dat hebben we gescoord en daar zagen we dat in alle levenscategorieën, dus ook jong,
239
00:22:51,120 --> 00:22:57,000
dus ook van 13-jarigen, maar ook iemand van 90, alle mensen hadden baat bij het verbeteren van
240
00:22:57,000 --> 00:23:03,240
audio. Dus jong en oud. We zagen wel dat de waardering van de jongere groep minder was.
241
00:23:03,240 --> 00:23:08,240
Ze zeiden, nou het is niet stoer, maar als ik moet kiezen, dan kies ik voor het origineel. En
242
00:23:08,240 --> 00:23:11,960
bij de oude groep was heel duidelijk de voorkeur voor het aangepaste geluid.
243
00:23:11,960 --> 00:23:19,600
Ja, mooi. Maar je vroeg waar ik naartoe wil. Ik wil natuurlijk de televisie Nederland 1,
244
00:23:19,600 --> 00:23:26,680
dat zou ik graag willen veranderen. Maar eigenlijk wil ik de potentie uit al die slechte horen,
245
00:23:26,680 --> 00:23:32,000
die dus geen hulp hebben, op zoveel mogelijk plekken verbeteren. Dat is eerst dus wat we nu
246
00:23:32,000 --> 00:23:38,840
doen. Uiteindelijk zouden we een heel goedkoop hoortoestel willen bouwen met cloud computing,
247
00:23:38,840 --> 00:23:44,040
voor niet zozeer voor Nederland, maar echt midden- en lagelonenlanden.
248
00:23:44,040 --> 00:23:46,880
Oh ja, wat een mooie. Ultimate goal.
249
00:23:46,880 --> 00:23:58,440
Mooie missie. Nouri, we zitten in de AI podcast. Wat waren nog meer uitdagingen waar jullie tegenaan
250
00:23:58,440 --> 00:24:04,040
lopen, of misschien die je voor ziet, in wat Marciano nu vertelt, waar jullie naartoe willen.
251
00:24:04,040 --> 00:24:12,080
Welke uitdagingen heb je op het gebied van AI? Ja, dan is vooral de vraag hoe we dat gaan inzetten,
252
00:24:12,080 --> 00:24:17,600
op nog interessantere manieren. Een probleem waar we nu best wel lang over aan het nadenken zijn,
253
00:24:17,600 --> 00:24:21,480
en waarvan we denken dat er bepaalde oplossingsrichtingen zijn die met behulp van AI
254
00:24:21,480 --> 00:24:26,960
gehaald kunnen worden, is op basis van wat er wordt uitgezonden, of wat de content is,
255
00:24:26,960 --> 00:24:32,960
dus is het muziek, of is het spraak, of is het ruis, dat we op basis daarvan de personalisatie
256
00:24:32,960 --> 00:24:38,240
elke keer net iets anders doen. Soms als het muziek is, dan wil je misschien helemaal niks doen,
257
00:24:38,240 --> 00:24:44,280
of op een hele andere manier weer het geluid gaan bewerken. En als het alleen maar weer sprake is,
258
00:24:44,280 --> 00:24:49,400
dan wil je soms een mannenstem anders bewerken als een vrouwenstem. In de regel, wij mannen,
259
00:24:49,400 --> 00:24:57,320
wij mompelen nogal eens. Daar hebben wij natuurlijk geen last van, maar in de regel is dat een issue.
260
00:24:57,320 --> 00:25:03,560
En we hebben natuurlijk ook een lager stemgeluid. En in dat geval wil je die op een net iets andere
261
00:25:03,560 --> 00:25:07,800
manier bewerken dan bij een vrouwenstem. Dus we willen dynamisch gaan kijken, kunnen we bijvoorbeeld
262
00:25:07,800 --> 00:25:12,520
een spreker herkennen? En is het een klassieke vrouwelijke stem of een klassieke mannelijke
263
00:25:12,520 --> 00:25:16,640
stem? En op basis daarvan kunnen we dan ook weer een andere instelling gebruiken met die
264
00:25:16,640 --> 00:25:21,320
frequentiespecifieke versterking. - Oh ja, slim. - Het is ook nog zo dat we,
265
00:25:21,320 --> 00:25:25,360
we kunnen natuurlijk de achtergrond weghalen, dat is in een telefoongesprek heel wenselijk,
266
00:25:25,360 --> 00:25:29,920
maar als je naar een serie kijkt, dan wil je de suspense, de spanning, wil je niet weghalen.
267
00:25:29,920 --> 00:25:35,320
Dat wil je eigenlijk ook zeg maar automatisch laten doen. Wat voor soort content is het?
268
00:25:35,320 --> 00:25:40,440
Is het een serie? Moeten hier alle ruizen weg? Of moeten we juist net wel iets van de achtergrond
269
00:25:40,440 --> 00:25:45,600
erin laten? Dat is ook iets waar we modellen op willen trainen. - Een film zonder filmmuziek.
270
00:25:45,600 --> 00:25:47,600
- Exact. - Dan wordt het waarschijnlijk
271
00:25:47,600 --> 00:25:52,080
een hele lange zit. - Precies, dat bedoelen we. - Ja, maar dat
272
00:25:52,080 --> 00:25:56,840
zeg je ook documentaire, is ook een filmzalen, maar is toch net wat anders dan in een actiescene.
273
00:25:56,840 --> 00:26:08,200
- Absoluut. Ik had een vraag en die ontzettend… Oh ja, daar wilde ik nog aan jou vragen. Er is
274
00:26:08,200 --> 00:26:15,040
natuurlijk, want er luisteren ook heel veel mensen die natuurlijk werken, op werk is er heel vaak
275
00:26:15,040 --> 00:26:21,880
wel aandacht voor lichamelijke fitheid, mentale fitheid. We hebben zelfs ook allemaal dat soort
276
00:26:21,880 --> 00:26:27,760
programma's. Ik heb nog nooit iets gehoord over gehoorfitheid. Terwijl we zitten tegenwoordig
277
00:26:27,760 --> 00:26:32,960
volgens mij veel meer te luisteren. Dus allemaal met Teams meetings, Zoom meetings, weet ik wat
278
00:26:32,960 --> 00:26:39,680
allemaal. Krijgen jullie daar aanvragen over? - Leuk je het zegt, maar eigenlijk niet.
279
00:26:39,680 --> 00:26:46,640
Nee, het is… En dat gaf ik een beetje aan, een beetje bespottelijk, maar met de hulp voor geheel
280
00:26:46,640 --> 00:26:50,360
doven, wat ik heel goed vind. Laten we dat even onderstrepen. Het is hartstikke goed dat dat er
281
00:26:50,360 --> 00:26:58,040
was. Maar de slechthorendheid is een beetje weggemoffeld. We hebben ondertiteling en daarmee
282
00:26:58,040 --> 00:27:05,560
is het klaar. En dat zie je eigenlijk in het geheel dat er voor mensen die tussen niet-doof
283
00:27:05,560 --> 00:27:11,800
en goedhorend in zitten. Het is eigenlijk een beetje een vacuum waar je… We accepteren dat
284
00:27:11,800 --> 00:27:16,240
gewoon en dan moet je maar mee leven. Dus de aandacht die jij daar verwacht, die is er eigenlijk
285
00:27:16,240 --> 00:27:20,040
helemaal niet. Echt te weinig. - Je ziet ook als je nu dan bijvoorbeeld
286
00:27:20,040 --> 00:27:26,880
kijkt naar ons product Knisper Workspace voor je werkomgeving. Niet goed een Teams call kunnen
287
00:27:26,880 --> 00:27:31,600
volgen of dat niet goed kunnen verstaan. Dat is echt wel heel uitputtend ook. Je bent aan de
288
00:27:31,600 --> 00:27:35,560
eind van de dag helemaal uitgewrongen als je gewoon slecht dat hebt kunnen verstaan. Zeker
289
00:27:35,560 --> 00:27:41,040
als je in een hybride meeting zit. Dus mensen zijn deels thuis en deels op een locatie en dan
290
00:27:41,040 --> 00:27:45,600
naar geroezemoes en dat soort zaken. Dus dat kost je echt heel veel energie. Dus er gaat ook een
291
00:27:45,600 --> 00:27:51,360
hele hoop productiviteit verloren omdat we op die manier werken en omdat we de audio heel slecht
292
00:27:51,360 --> 00:27:57,240
verstaan. - Ja en wat ik dan zelf ook merk is dat je dan ook afgeleid raakt. Omdat het dan inderdaad
293
00:27:57,240 --> 00:28:02,440
zoveel energie kost. Het kost je zoveel energie dat het dan makkelijker is op een gegeven moment
294
00:28:02,440 --> 00:28:08,600
gewoon die ruis maar als de ruis te laten en wat anders te doen. - Ja en dat is toch best wel slecht
295
00:28:08,600 --> 00:28:13,240
voor je efficiëntie inderdaad. En als daar belangrijke zaken besproken worden. - Als het
296
00:28:13,240 --> 00:28:19,600
goed is doe je iets in die meeting. - Er is een onderzoek van de SiRM, dat is een onderzoek
297
00:28:19,600 --> 00:28:25,560
wel een opdracht van Specsavers geweest een paar jaar geleden. Die heeft berekend dat het verlies
298
00:28:25,560 --> 00:28:32,480
in de geld aan die 40% die niet geholpen is, is 5,8 miljard. Dus het niet helpen van gehoorverlies
299
00:28:32,480 --> 00:28:39,120
kost de maatschappij 5,8 miljard per jaar. - Ja dat is fors. Er ligt wel een hele mooie
300
00:28:39,120 --> 00:28:44,720
uitdaging. - Ja en had ik een afvraag voor zo'n werk situaties. Als je inderdaad hybride meetings
301
00:28:44,720 --> 00:28:48,840
hebt. Dan zit er in een hoekje zit een geroezemoes en de andere kant is juist een punt aan het maken
302
00:28:48,840 --> 00:28:53,760
en eigenlijk wil je je focussen op degene die het punt wil maken en het geroezemoes weg. Maar
303
00:28:53,760 --> 00:28:58,760
hoe ga je daar dan mee om? - Ja als je geluk hebt dan heb je soms een microfoon op tafel staan.
304
00:28:58,760 --> 00:29:04,120
Heb je geluk en dat je dan als het goed is een richtingsgevoelige microfoon in en die helpt
305
00:29:04,120 --> 00:29:08,120
dan hopelijk al een beetje. Die kan dan al een beetje onderscheid maken in oké waar komen nou
306
00:29:08,120 --> 00:29:13,200
de belangrijkste informatie vandaan. Waar moet ik op inzoomen eigenlijk en wat kan ik achterwege
307
00:29:13,200 --> 00:29:20,160
laten. Maar als dat niet lukt en wij krijgen gewoon ruwe audio waarbij inderdaad geroezemoes erin zit
308
00:29:20,160 --> 00:29:25,880
en sprekers die je naar voren wilt halen. Dan is ons source separation algoritme wel daartoe in
309
00:29:25,880 --> 00:29:31,480
staat om eigenlijk de sprekers die op de voorgrond zich bevinden om die te scheiden en degenen die
310
00:29:31,480 --> 00:29:36,520
op de achtergrond zitten nog wat zachter te zetten of juist helemaal weg te halen. Want anders
311
00:29:36,520 --> 00:29:41,240
interfereert het gewoon met elkaar. - Zouden er dan mogelijkheden zijn om juist op het
312
00:29:41,240 --> 00:29:47,520
geroezemoes in te zoomen dat je daarmee kan gaan spelen? Dat klinkt een beetje als een beetje
313
00:29:47,520 --> 00:29:52,960
spioneren. - Nee niet zozeer dat. Maar wat ik dan van familie en dergelijke die wat minder goed
314
00:29:52,960 --> 00:29:57,400
horend zijn bij verjaardagen zitten en eigenlijk het gesprek juist net even aan de andere kant
315
00:29:57,400 --> 00:30:01,040
van de tafel willen volgen maar dichtbij dan geroezemoes hebben. Zo zie ik het ook een beetje
316
00:30:01,040 --> 00:30:06,500
een meeting. Hoe ga je daarin kunnen sturen? - Je kan dat gewoon beschikbaar maken want ook
317
00:30:06,500 --> 00:30:13,040
die achtergrond geluid is gewoon geluid en je kan situationeel ook kijken naar het achtergrond geluid
318
00:30:13,040 --> 00:30:17,320
en wat daar dus in zit. Dat was het ook wat we net over hadden. Als daar muziek in zit dan wil je dat
319
00:30:17,320 --> 00:30:20,600
weer op een andere manier bewerken dan als die achtergrond als dat achtergrondrumoer is wat je
320
00:30:20,600 --> 00:30:25,320
misschien toch wel wilt mee wilt meekrijgen. - Dus dus echt op die source separator dan zou je
321
00:30:25,320 --> 00:30:31,000
daarop kunnen gaan inspelen en daarmee gaan interveniëren waar je op wilt focussen. - En
322
00:30:31,000 --> 00:30:36,720
nou wil het geval dat mensen luisteren naar ons. Dus we hebben geluid. Is er mogelijkheid dat we
323
00:30:36,720 --> 00:30:46,760
bijvoorbeeld een stukje van deze podcast laten omzetten juist in de algemene omzetting die we
324
00:30:46,760 --> 00:30:50,600
die voor een aantal minuten of zo gaan gebruiken? - Ja, dan moeten we even allemaal door elkaar
325
00:30:50,600 --> 00:30:55,280
gaan praten. Dan maak ik het extra moeilijk. - Oh ja, dan probeer ik het ook even beter te doen.
326
00:30:55,280 --> 00:31:01,400
- Nee, maar dat kunnen we zeker demonstreren. Want het effect is dan voor iedereen al waarneembaar
327
00:31:01,400 --> 00:31:06,160
zonder dat op een irritante manier je het hoeft te ervaren. - Nou, dat zou sowieso leuk zijn.
328
00:31:06,160 --> 00:31:09,880
- Ja, dan laten we dat sowieso dan doen toch? - Super leuk.
329
00:31:09,880 --> 00:31:13,600
De audio is vanaf hier omgezet dus je gaat nu het verschil horen.
330
00:31:13,600 --> 00:31:19,840
- Ja, we hebben ook altijd een virtuele co-host. Dus die zou ik graag een vraag jullie willen
331
00:31:19,840 --> 00:31:26,080
laten stellen. - Aisha.
332
00:31:26,080 --> 00:31:44,800
Ik hoop dat je het tot nu toe naar je zin hebt. Ik ben Aisha. De AI van deze podcast
333
00:31:44,800 --> 00:31:49,680
zou het goed zijn als ik je een vraag stel? - Natuurlijk.
334
00:31:49,680 --> 00:31:55,480
Hoe kunnen we ervoor zorgen dat vrouwelijke experts meer geconsulteerd worden bij AI ontwerp?
335
00:31:55,480 --> 00:32:03,600
- Dat is een goede vraag. Want waarom doen we dat eigenlijk niet? Dat zit daar dan een beetje achter.
336
00:32:03,600 --> 00:32:09,600
Waarom schenken we daar geen aandacht aan? Oeh, dat is wel een heel brede vraag.
337
00:32:09,600 --> 00:32:14,280
- Een brede vraag. Ze is behoorlijk maatschappelijk betrokken.
338
00:32:14,280 --> 00:32:20,080
- Ja, dat is wel goed. Ik moet ook eerlijk zeggen, in dat opzicht gaan wij daar wel een beetje mee in
339
00:32:20,080 --> 00:32:26,680
de trend. Allemaal mannen die er bij ons hier aan werken. Ook in ons source separation algoritme.
340
00:32:26,680 --> 00:32:34,480
Ik denk dat we meer open moeten staan. En misschien juist op plekken die niet zoveel
341
00:32:34,480 --> 00:32:40,080
aandacht krijgen. En mensen, groepen die we een beetje wegcijferen, juist een extra zetje
342
00:32:40,080 --> 00:32:44,560
moeten geven. En iedereen wel heel serieus nemen. Want we generaliseren nog wel eens.
343
00:32:44,560 --> 00:32:53,640
Maar ik moet zeggen, wij staan op de IBC. Dat is een international broadcast convention.
344
00:32:53,640 --> 00:32:57,600
Dat is een beurs voor broadcast, televisie, dat soort zaken. Dat is voor ons ook interessant
345
00:32:57,600 --> 00:33:04,480
om daar iets mee te doen. En daar kwamen we ook Jessica, ik weet even haar achternaam niet meer,
346
00:33:04,480 --> 00:33:09,440
kwamen we daar tegen. Die bezig is met, ook source separation, op een hele innovatieve manier.
347
00:33:09,440 --> 00:33:13,800
Misschien is het wel leuk, ik kan al die details wel delen, kunnen we dat misschien in de show notes
348
00:33:13,800 --> 00:33:20,440
zetten. Die zijn echt met heel erg complexe AI modellen bezig. Source separation modellen.
349
00:33:20,440 --> 00:33:25,760
En ook dat je individuele sprekers kunt herkennen. Dus als wij straks over elkaar gaan praten,
350
00:33:25,760 --> 00:33:31,720
is hun model erin toe in staat om dat van elkaar te scheiden. En gewoon vier aparte audiosporen
351
00:33:31,720 --> 00:33:37,200
aan te leveren. Is echt indrukwekkend. Maar je moet het maar net weten en tegenkomen natuurlijk.
352
00:33:37,200 --> 00:33:41,520
Als je weet dat er al heel veel vrouwen daarmee bezig zijn. Op een hele indrukwekkende manier.
353
00:33:41,520 --> 00:33:52,360
Ja, wat goed. En hebben jullie ook iets van testgroepen? Ja, we hebben een vast groepje
354
00:33:52,360 --> 00:33:56,880
van oude mensen die we mogen lastigvallen. En als je die een doosje chocolade geeft,
355
00:33:56,880 --> 00:34:01,960
dan vindt het fantastisch om eraan mee te doen. Maar nu eigenlijk ook omdat we zien dat onze
356
00:34:01,960 --> 00:34:08,920
oplossing voor meerdere leeftijdsgroepen baat kan hebben, zijn we ook nog steeds wel op zoek
357
00:34:08,920 --> 00:34:14,840
naar extra mensen. Iedereen die zich daarvoor ter beschikking wil stellen is altijd welkom.
358
00:34:14,840 --> 00:34:21,920
Ja, en dan misschien vrouwen extra. Zeker. Bedankt voor je diepgaande toelichting,
359
00:34:21,920 --> 00:34:28,760
zeer informatief. Vanaf hier hoor je weer de originele opname en kan je nog mooi even het
360
00:34:28,760 --> 00:34:33,960
verschil beluisteren tussen wat je net hebt gehoord, dus de gewijzigde audio,
361
00:34:33,960 --> 00:34:38,720
en wat er nu weer aankomt. Die heb je al vast te pakken, toch? Als mooi compliment.
362
00:34:38,720 --> 00:34:44,800
Ja, prettig om te horen. Leuk feitje is wel, ook weer zo'n robot stem, ik neem aan dat dit even
363
00:34:44,800 --> 00:34:50,120
een robot was natuurlijk, van iemand beledigen, is vaak ook weer voor iemand die slecht horend
364
00:34:50,120 --> 00:34:58,040
is best moeilijk te verstaan. Het klinkt heel telefonisch natuurlijk. Dit was nog een stem
365
00:34:58,040 --> 00:35:03,360
met redelijk wat hoog, dus dat geeft wat meer detail. Maar het is vaak als je dus aan het
366
00:35:03,360 --> 00:35:06,640
telefoneren bent en je hebt zo'n robot stem, vind ik het al heel moeilijk om te verstaan.
367
00:35:06,640 --> 00:35:12,640
Ja, druk op 1 of druk op 2 en dan moet je maar net gehoord hebben waar je nou precies op moet drukken.
368
00:35:12,640 --> 00:35:17,760
Dat is best wel een issue. Er wordt niet echt heel erg bij stilgestaan. Ook dat soort audio
369
00:35:17,760 --> 00:35:22,760
kunnen wij verbeteren natuurlijk. Maar daar hebben mensen best wel moeite mee.
370
00:35:22,760 --> 00:35:27,920
Ja, dat snap ik wel. En je moet ook heel snel die informatie tot je nemen, dus hoe beter
371
00:35:27,920 --> 00:35:33,320
dat uiteindelijk hoorbaar is, hoe beter je uiteindelijk ook die keuze kan maken. Ja,
372
00:35:33,320 --> 00:35:38,760
grappig. Nooit zo bij stilgestaan. Ik was wel nieuwsgierig met de ontwikkelingen van AI gaan
373
00:35:38,760 --> 00:35:45,480
heel snel. Wat zijn de technische uitdagingen die jullie eraan zien komen, die getackeld kunnen
374
00:35:45,480 --> 00:35:52,640
worden met die snelle verbeteringen? Technische uitdagingen? Nou, ik hoop om terug te komen,
375
00:35:52,640 --> 00:35:57,920
voor ons is performance het allerbelangrijkste. Dus wij hoeven in principe geen heel groot netwerk
376
00:35:57,920 --> 00:36:04,680
te kunnen draaien met hoge kwaliteit en heel veel parameters om tot resultaat te komen.
377
00:36:04,680 --> 00:36:12,160
Ik heb juist meer hoop in alle acceleratiechips die tegenwoordig in apparaten zitten, dat we die
378
00:36:12,160 --> 00:36:17,360
meer kunnen gaan gebruiken. Om onze algoritmes, die dan maar beperkt van omvang zijn, nog sneller
379
00:36:17,360 --> 00:36:21,560
kunnen evalueren en daardoor gewoon nog steeds hetzelfde resultaat kunnen halen. Maar dat het
380
00:36:21,560 --> 00:36:26,280
gewoon efficiënter wordt voor je batterij en dat soort zaken. Wat je daar natuurlijk ziet is dat
381
00:36:26,280 --> 00:36:31,400
zeker Big Tech is daar heel erg mee bezig, maar die houden die chips allemaal voor zichzelf.
382
00:36:31,400 --> 00:36:42,480
Dus Google heeft de TPU, de Tensor Process Unit, dat je neurale netwerken precies kan draaien op
383
00:36:42,480 --> 00:36:48,080
zo'n chip. Ik weet dat Microsoft gaat nu ook heel veel geld investeren om large language
384
00:36:48,080 --> 00:36:54,560
models erop te draaien. Zie je dat dat dan wel voor jullie openen wordt, dat je toegang krijgt op dat
385
00:36:54,560 --> 00:37:01,240
soort hardware? Ja en het wordt ook gewoon gelukkig steeds normaler om zo'n acceleration chip in je
386
00:37:01,240 --> 00:37:05,920
product te bouwen. Er komen nu al bijvoorbeeld televisies uit waar ook zo'n chip in zit. AI
387
00:37:05,920 --> 00:37:12,280
of voor vision, maar het kan ook voor audio gebruikt worden. En dat is inderdaad iets waar
388
00:37:12,280 --> 00:37:17,600
wij echt op mee kunnen kunnen liften. Je zit nog wel heel erg met het feit van ja, iedereen bouwt
389
00:37:17,600 --> 00:37:22,480
zijn eigen chip, dus iedereen heeft ook zijn eigen interface hoe je dat moet gebruiken. Er zit
390
00:37:22,480 --> 00:37:26,160
altijd wel weer laagjes software tussen die dat kunnen oplossen, maar dat is ook niet altijd ideaal.
391
00:37:26,160 --> 00:37:34,400
Maar het feit dat eigenlijk iedere apparaat tegenwoordig in welke vorm dan ook een AI chip
392
00:37:34,400 --> 00:37:38,880
krijgt die wij kunnen gebruiken, ja dat is gewoon een groot voordeel voor ons. Ja snap ik.
393
00:37:38,880 --> 00:37:46,800
Marciano, ik heb voor jou nog een hele praktische vraag. Want jij zegt helemaal aan het beginnen
394
00:37:46,800 --> 00:37:53,600
van deze aflevering zeg je van mensen vanaf 20 en dan gaat je gehoor al langzaam achteruit. Hoe weet
395
00:37:53,600 --> 00:37:59,240
ik nou, hoe kan ik nou controleren of mijn gehoor zeg maar aan het achteruitgaan is en dat ik daar
396
00:37:59,240 --> 00:38:06,760
eigenlijk hulp, ondersteuning meer nodig heb? Ja dat denk ik dat ook een deel van het probleem
397
00:38:06,760 --> 00:38:14,640
is dat je het niet altijd weet. Het is goed dat je daar op terugkomt. Zeg maar de internationale
398
00:38:14,640 --> 00:38:20,200
standaard als je geen hoortest kan doen is eigenlijk een jong kind. Dus het gehoor van
399
00:38:20,200 --> 00:38:30,080
iemand van acht jaar bijvoorbeeld is eigenlijk ook een Zuid-Afrikaanse audioloog die veel
400
00:38:30,080 --> 00:38:34,400
onderzoekt met hoortesten en die heeft in het begin van zijn proeven heeft hij altijd kinderen
401
00:38:34,400 --> 00:38:41,240
gebruikt als referentie. Dus als een oma ten opzichte van haar kleinkind een bepaald aantal
402
00:38:41,240 --> 00:38:45,800
scoren van woorden wel of niet kon verstaan of het volume zoveel harder moest doen dan was dat een
403
00:38:45,800 --> 00:38:51,520
reden om om hulp te zoeken. Maar ik denk als je zelf gewoon overdag merkt dat je vermoeid raakt
404
00:38:51,520 --> 00:38:56,120
tijdens gesprekken, tijdens Teams calls of tijdens telefoongesprekken dat dat een indicator is van
405
00:38:56,120 --> 00:39:04,200
hey ligt het aan mijn fysieke gestel of is dat gehoor ook een onderdeel? En er zijn ook heel
406
00:39:04,200 --> 00:39:09,600
veel test tools gemaakt door de Hoorstichting en heel veel bedrijven ook die hoortesten online
407
00:39:09,600 --> 00:39:15,640
hebben. Audi, beter Hoorn, Schoonenberg, Spekzeven ze hebben allemaal online tools waarbij je in
408
00:39:15,640 --> 00:39:19,640
ieder geval indicatie kan krijgen of je hulp zou moeten zoeken ja of nee. Maar je bent eigenlijk
409
00:39:19,640 --> 00:39:28,680
zelf de belangrijkste validator. Moet ik hulp hebben ja of nee? Ja precies en stel er komt uit
410
00:39:28,680 --> 00:39:35,360
van ik heb hulp nodig. Kan ik als individu ook jullie product aanschaffen? Dat zou ik heel graag
411
00:39:35,360 --> 00:39:41,360
willen maar daar zijn we gewoon echt net een maatje te klein voor. Dus wij bieden oplossingen aan
412
00:39:41,360 --> 00:39:48,520
bedrijven echt B2B. Dus je kan wel je werkgever vragen of je kan wel een mailtje naar de NPO
413
00:39:48,520 --> 00:39:56,880
sturen van goh ik heb daar behoefte aan. Nee maar daar is onze service niveau gewoon niet toe in staat
414
00:39:56,880 --> 00:40:03,400
om individu te helpen. Ja duidelijk. Dus het is echt B2B. Dus als je als bedrijf iets wil doen
415
00:40:03,400 --> 00:40:09,520
aan nou wat ik net zei die gehoor fitheid of zo voor je medewerkers. Precies. Dan kunnen ze contact
416
00:40:09,520 --> 00:40:15,960
met jullie opnemen. Graag. Kijk nou dan zorgen wij ervoor dat dat in de show notes staat. Ja super
417
00:40:15,960 --> 00:40:21,200
bedankt voor de inzichten die jullie hebben gegeven in nou ja weet je wat je allemaal kan doen met
418
00:40:21,200 --> 00:40:25,240
met audio voor ons natuurlijk ook heel erg interessant. We zitten niet voor niks met de
419
00:40:25,240 --> 00:40:30,080
koptelefoons hier op en microfoons. Dus heel erg bedankt dat jullie hier hebben wilde komen.
420
00:40:30,240 --> 00:40:39,480
Nou ja ik hoop zeg maar ik ben zelf deze uitzending laat ik het zo zeggen normaal gesproken luister
421
00:40:39,480 --> 00:40:44,360
ik niet heel veel terug van onze eigen uitzending. U weet wat we besproken hebben. Maar ik ga wel
422
00:40:44,360 --> 00:40:50,800
die minuten die we omgezet hebben ga ik natuurlijk sowieso luisteren. Ja leuk. En nou ja laat via
423
00:40:50,800 --> 00:40:59,840
de socials weten wat je ervan vindt. Dus hoe ervaar je dat? Hoe vind je het? En welke verbetering levert
424
00:40:59,840 --> 00:41:04,280
dat voor je op? Ja en waar zijn je werk zou dit je kunnen helpen? Ja ik ben heel erg benieuwd.
425
00:41:04,280 --> 00:41:13,480
Marciano bedankt. Nouri bedankt. Zo hartstikke die stond nog aan. Dat is een goede gehoortest.
426
00:41:13,480 --> 00:41:20,080
Jazeker. Jij? Zeker zeker. Fijn dat je weer luisterde naar een aflevering van AIToday live.
427
00:41:20,080 --> 00:41:24,880
Vergeet je niet te abonneren via je favoriete podcast app en dan mis je geen aflevering.
428
00:41:24,880 --> 00:41:27,040
Dank je wel voor het luisteren. Tot de volgende keer.
429
00:41:27,040 --> 00:41:29,040
[Muziek]