AIToday Live

S06E43 - Verbeter je leven: kristalhelder horen met de nieuwste AI gehoortechnologie

Aigency by Info Support Season 6 Episode 43

In deze aflevering van AIToday Live bespreken Marciano Ferrier en Nouri Khalass de innovatieve manieren waarop AI kan worden ingezet om de geluidskwaliteit voor slechthorenden te verbeteren. Hun expertise en ervaringen bieden een uniek inzicht in de technische uitdagingen en oplossingen op het gebied van audioverbetering.

Luisteraars krijgen een diepgaand begrip van hoe AI de spraakverstaanbaarheid kan vergroten en welke impact dit heeft op zowel individuen als de samenleving.


Links

Stuur ons een bericht

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:00,001 --> 00:00:07,760
Hoi, leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live. Met vandaag twee

2
00:00:07,760 --> 00:00:13,760
gasten in de studio. Het gebeurt steeds wat vaker. We hebben Marciano Ferrier en Nouri

3
00:00:13,760 --> 00:00:19,520
Khalass. En zij gaan ons van alles vertellen over het verbeteren van geluidskwaliteit met AI.

4
00:00:19,520 --> 00:00:24,520
Mijn naam is Joop Snijder, CTO bij Aigency. Mijn naam is Niels Naglé, Area Lead,

5
00:00:24,520 --> 00:00:30,760
Data & AI uit bij Info Support. Marciano, Nouri, welkom in onze studio. Leuk dat jullie hier

6
00:00:30,760 --> 00:00:34,720
naartoe zijn gekomen vanaf de andere kant van het land, hoorde ik net. Dank dat we mochten komen.

7
00:00:34,720 --> 00:00:40,440
Ja, heel erg leuk. Zouden jullie je voordat we beginnen je eerst even willen voorstellen aan

8
00:00:40,440 --> 00:00:45,720
onze luisteraars? Marciano, zou jij willen beginnen? Ja, ik ben Marciano Ferrier. Ik ben

9
00:00:45,720 --> 00:00:52,920
de oprichter van Audus Technologies. En van huis uit ben ik opgeleid als dokter en daarna KNO.

10
00:00:52,920 --> 00:00:59,560
En ik heb een hele andere wending gemaakt naar dit gebied. Ja, leuk. Voor het eerst hebben we een

11
00:00:59,560 --> 00:01:08,080
dokter in de zaal. En Nouri? Ik ben Nouri Khalass, Director of Technology and Strategy bij

12
00:01:08,080 --> 00:01:13,520
Audus Technologies. Ik heb een computer science achtergrond. Ik heb gestudeerd in Delft. Daar heel

13
00:01:13,520 --> 00:01:18,840
veel ervaring op gedaan met computer science. Maar ook met mensen die slechthorend zijn en

14
00:01:18,840 --> 00:01:23,440
nadenken over hoe je die mensen op een innovatieve manier kunt kunnen helpen.

15
00:01:23,440 --> 00:01:29,040
Ja, want daar gaan we het vandaag over hebben. Slechthorendheid, AI en wat jullie daarvoor

16
00:01:29,040 --> 00:01:35,120
hebben gemaakt. Toch? Klopt, ja interessant. Zou je wat kunnen vertellen Marciano over

17
00:01:35,120 --> 00:01:43,640
Ouders en wat jullie doen en wat dat voor betekenis heeft voor slechthorenden?

18
00:01:43,640 --> 00:01:49,400
Ja, misschien even beginnen bij het begin. Ik werkte in het ziekenhuis in Bronovo in

19
00:01:49,400 --> 00:01:55,760
Den Haag. En daar zag ik heel veel mensen met gehoorverlies. Dat is meestal leeftijds

20
00:01:55,760 --> 00:02:01,800
gerelateerd. Als je ouder wordt, gaan we allemaal slechter horen. En begint dat vanaf je twintigste

21
00:02:01,800 --> 00:02:05,520
eigenlijk al. Dan begint de aftakeling van het lichaam al. Dus ook je gehoor.

22
00:02:05,520 --> 00:02:08,280
Dat is een fijn begin van de podcast.

23
00:02:08,280 --> 00:02:12,480
Dat is uit de droom helpen. Maar jullie hebben ook al een beetje slechter gehoor.

24
00:02:12,480 --> 00:02:13,480
Zeker.

25
00:02:13,480 --> 00:02:17,800
En als je daar ook nog met vuurwerk hebt gespeeld of in de muziekwereld hebt gezeten, dan is

26
00:02:17,800 --> 00:02:25,480
het veel erger. Maar daar zag ik dus heel veel mensen met slechthorendheid. En het gros daarvan,

27
00:02:25,480 --> 00:02:32,720
ook al is het betaald in Nederland, kiest toch niet voor een oplossing als een hoortoestel.

28
00:02:32,720 --> 00:02:41,960
In Nederland hebben we 2,6 miljoen slechthorenden. Vanaf 25 decibel tot helemaal doof. En slechts

29
00:02:41,960 --> 00:02:46,840
60 procent daarvan heeft een hulpmiddel. 40 procent niet. Er zijn heel veel redenen voor,

30
00:02:46,840 --> 00:02:54,880
financiële redenen, maar ook heel veel zit dan in de gedachte dat het een defect is of dat je

31
00:02:54,880 --> 00:02:59,080
toch iets moet dragen, dat het een zwakte is. Dus een heleboel redenen zitten erachter.

32
00:02:59,080 --> 00:03:05,200
Maar heel veel mensen zijn dus niet geholpen. En voor die grote groep ben ik gaan nadenken

33
00:03:05,200 --> 00:03:09,880
hoe we die dan wel kunnen bedienen. En daar is dit product wat we nu op de markt hebben

34
00:03:09,880 --> 00:03:17,120
gebracht uitgekomen. Dus wij veranderen het gehoor voor slechthorenden, de audio voor slechthorenden,

35
00:03:17,120 --> 00:03:23,480
niet met een hoortoestel. Maar we veranderen dat op het hulpmiddel wat ze voor handen hebben. Dus

36
00:03:23,480 --> 00:03:29,240
een mobiele telefoon, een laptop, een televisie of een car kit. Daar veranderen we de audio van.

37
00:03:29,240 --> 00:03:33,240
Dan heb je verder geen andere hardware voor nodig. We veranderen daar gewoon precies met

38
00:03:33,240 --> 00:03:40,840
dezelfde, ongeveer dezelfde algoritmes plus AI. Veranderen we het optimum voor hun, zodat

39
00:03:40,840 --> 00:03:45,960
ze vooral de spraakverstaanbaarheid vergroot wordt voor deze grote groep mensen. Dus het zou dan echt

40
00:03:45,960 --> 00:03:54,440
voor mij persoonlijk worden gemaakt? Wij kunnen, de ingang van onze engine is een hoortest eigenlijk.

41
00:03:54,440 --> 00:04:00,360
Dus we kunnen het helemaal persoonlijk doen, dat hebben we ook. Maar de meeste klanten kiezen toch

42
00:04:00,360 --> 00:04:08,960
voor een beperkt aantal instellingen. Dus licht, matig of sterk gehoorverlies of stand 1 en 2,

43
00:04:08,960 --> 00:04:16,400
hoe je het wil noemen. Dat is vaak uit praktische overwegingen de meest gekozen optie.

44
00:04:16,400 --> 00:04:19,800
Dan doe ik even voor de voorzichtige aanname. Het is niet alleen het volume harder zetten.

45
00:04:19,800 --> 00:04:26,120
Dat is een hele goede vraag. Dus bij beginnend gehoorverlies is volume toename een oplossing.

46
00:04:26,120 --> 00:04:30,680
En die werkt ook, geeft ook echt wel verbeteringen. Dus als je slechter hoort,

47
00:04:30,680 --> 00:04:34,960
dan doe ik het wat harder. Dan kan ik het beter verstaan. Maar de meeste mensen met

48
00:04:34,960 --> 00:04:40,320
gehoorverlies die hebben meer, veel meer baat bij een intelligentere manier van

49
00:04:40,320 --> 00:04:46,560
gehoorverbetering. En volume is daar maar een heel klein onderdeel van. Het gaat meer over

50
00:04:46,560 --> 00:04:52,680
frequentiespecifiek versterken en ook met compressie en andere achtergrond weghalen.

51
00:04:52,680 --> 00:04:58,080
Echt dat je de spraak naar voren haalt. Herkennen van spraak en geen spraak. Er komen andere

52
00:04:58,080 --> 00:05:03,280
trucs bij kijken dan alleen maar het volume. En volume is echt, als je naar de grote groep kijkt,

53
00:05:03,280 --> 00:05:09,560
misschien 15% van de oplossing. Ja, oké. Ja, die volume. Ja, dat is wel een goede vraag.

54
00:05:09,560 --> 00:05:15,120
Ja, als ik vroeger bij mijn oma kwam en stond alles te kneiterhard. Ja, maar dat is het dan

55
00:05:15,120 --> 00:05:20,600
inderdaad niet. Ja, dat is echt wel een eye-opener is voor heel veel mensen. Die tv die bij de

56
00:05:20,600 --> 00:05:25,200
buurvrouw of bij die oudere mensen te hard staat. Ja, dat hoeft eigenlijk helemaal niet.

57
00:05:25,200 --> 00:05:30,160
Vaak kan je met de helft van het volume en dus een andere manier van het aanbieden van het geluid,

58
00:05:30,160 --> 00:05:34,280
kom je veel verder. Dus als die tv zo hard staat, dan is er eigenlijk reden van,

59
00:05:34,280 --> 00:05:41,640
ga naar de hoorwinkel. Want nog steeds ook als KNO-arts, adviseer ik iedereen die er last van heeft,

60
00:05:41,640 --> 00:05:46,760
om wel een hoortoestel te nemen. Alleen ja, lijkt in de praktijk dat de grote groep dat dus niet

61
00:05:46,760 --> 00:05:52,600
doet. Maar dat advies is wel zoeken hulp. Ja, die drempel is vaak heel erg groot.

62
00:05:52,600 --> 00:05:58,120
Ik weet mijn vader, die heeft ik geloof wel tien jaar er tegen aangehikt ofzo,

63
00:05:58,120 --> 00:06:02,360
voordat hij uiteindelijk een gehoorapparaat nam. Terwijl iedereen wist dat hij die heel hard

64
00:06:02,360 --> 00:06:06,880
nodig had. Klopt, de gemiddelde uitsteltijd van een hoortoestel is meer dan zeven jaar.

65
00:06:06,880 --> 00:06:13,160
Dus als je voor een aanmerking komt en je zou er moeten nemen, is het uitstelgedrag dus bijna,

66
00:06:13,160 --> 00:06:18,720
ja, tien jaar, dan komt het echt wel overheen. Ja. En wat was het moment dat je dacht van,

67
00:06:18,720 --> 00:06:25,040
ja maar hier moet ik dan een andere oplossing voor vinden dan die gehoortoestellen?

68
00:06:25,040 --> 00:06:30,920
Nou dat heeft met twee dingen te maken eigenlijk. Mijn eigen interesse in techniek. Dus ik ben

69
00:06:30,920 --> 00:06:36,840
zelf zeg maar, ik ben niet alleen dokter, maar ik ben ook erg technisch aangereikt.

70
00:06:36,840 --> 00:06:42,160
Eigenlijk was ik beter aan de Delft gegaan dan studeren, studeren Leiden. Maar ja,

71
00:06:42,160 --> 00:06:47,320
dat kon in plaats van heel veel later. Als je ook KNO-arts bent, dat is één. En de tweede is dat

72
00:06:47,320 --> 00:06:52,920
ik ook contact heb gehad met de hoorindustrie. Dat is een industrie waar een aantal hele grote

73
00:06:52,920 --> 00:07:01,720
spelers in werkzaam zijn. En ook met alle media acties, je doet de radio maar aan, de televisie

74
00:07:01,720 --> 00:07:05,920
aan en je kijkt een half uur, komen er twee reclames van de hoortoestelwinkel voorbij meestal.

75
00:07:05,920 --> 00:07:12,280
Ondanks al hun activiteiten is dat percentage aan mensen die niet geholpen is, dat werd niet

76
00:07:12,280 --> 00:07:20,560
kleiner. Dus die drempel was zo groot. En ik heb wel oplossingen met hun besproken en gehad van,

77
00:07:20,560 --> 00:07:25,520
nou kunnen jullie iets mee? Zijn er andere manieren hoe we die groep kunnen bedienen?

78
00:07:25,520 --> 00:07:30,920
Daar had ik wel gedachten over, maar ben er wel achtergekomen dat ze hebben zo'n positie,

79
00:07:30,920 --> 00:07:36,200
waarin eigenlijk weinig hoeft te veranderen voor hun, dat zij niet aangelegen waren om

80
00:07:36,200 --> 00:07:42,800
echt grote veranderingen te maken. En ik ben ook niet een disruptor van de hoorindustrie.

81
00:07:42,800 --> 00:07:47,120
Ik wil echt iets toevoegen, dat zeg ik ook net, want ik raad iedereen aan om een hoortoestel

82
00:07:47,120 --> 00:07:51,040
te nemen. Wij voegen echt voor die groep die dat toch niet doet, iets toe van,

83
00:07:51,040 --> 00:07:53,960
nou hier heb je in ieder geval tools waar je wel mee uit de voeten kan.

84
00:07:53,960 --> 00:07:59,440
En die groep is die gegroeid de afgelopen jaren met het hele thuiswerken,

85
00:07:59,440 --> 00:08:03,240
waar veel meer teams, veel meer mobiele telefoon en mobiele overleggen?

86
00:08:03,240 --> 00:08:09,720
Ja, interessant. Wij richten ons echt als core op slechthorendheid,

87
00:08:09,720 --> 00:08:14,360
maar we zien bij de testen die we gedaan hebben, dat ook bij jongere mensen,

88
00:08:14,360 --> 00:08:24,360
en dat is ook een mooi artikel in de American Today, New York Times, van een half jaar geleden,

89
00:08:24,360 --> 00:08:29,440
geloof ik, daar stond in dat ook jonge mensen bij het kijken van televisieprogramma's nu

90
00:08:29,440 --> 00:08:34,120
vaak de ondertiteling aanzitten. Vanwege de rumoer, de omgeving waarin ze zitten,

91
00:08:34,120 --> 00:08:39,160
kunnen ze toch niet helemaal goed volgen. Dat is één grote groep, dus ook de jongeren die

92
00:08:39,160 --> 00:08:42,960
hebben baat bij verbeterde audio. Ook de kwaliteit van de speakers in

93
00:08:42,960 --> 00:08:50,000
de hedendaagse elektronica is niet super. Dus ook daar kan je met geluidsoptimalisatie

94
00:08:50,000 --> 00:08:56,160
echt nog wel verbetering geven. En wat ook hebben we gezien in de testen die we gedaan hebben,

95
00:08:56,160 --> 00:09:03,600
dat mensen als ze luisteren naar buitenlandse talen, dat daar het optimaliseren van audio

96
00:09:03,600 --> 00:09:07,160
ook zeer wenselijk is. De spraakverstaanbaarheid wordt enorm vergroot.

97
00:09:07,160 --> 00:09:12,040
Ja, en buitenlandse taal mag af en toe ook wel de snelheid wat minder. Als het een dialect is,

98
00:09:12,040 --> 00:09:15,720
helpt mij dan wel weer, zeg maar. Maar ik begrijp wel wat je zegt.

99
00:09:15,720 --> 00:09:19,200
Ja, als het niet live is, is het makkelijk. Dan kan je het langzaam afspoelen. Maar als je in

100
00:09:19,200 --> 00:09:23,680
een conference call zit, dan is het lastig om de snelheid te beïnvloeden.

101
00:09:23,680 --> 00:09:30,160
Ja, en Nouri=, jij zit meer aan de technische kant. Zou jij kunnen uitleggen, want we hebben het

102
00:09:30,160 --> 00:09:38,280
hier over de stem ergens uithalen. Is het zoiets als noise reduction, dus dat je ruizen weghaalt,

103
00:09:38,280 --> 00:09:43,200
stem omhoog haalt? Ja, het is vergelijkbaar. We hebben eigenlijk

104
00:09:43,200 --> 00:09:49,080
twee methoden. De eerste methode is source separation. Daarbij schrijf je eigenlijk

105
00:09:49,080 --> 00:09:55,800
het spraak van achtergrond. Dat kan van alles zijn. Dat kan muziek zijn, dat kan ruis zijn,

106
00:09:55,800 --> 00:10:01,440
dat kan rumoer zijn, dat kan incidentele ruis zijn, dat kan windruis zijn. Het kan dus van alles zijn.

107
00:10:01,440 --> 00:10:07,640
Daar maak je een scheiding tussen. Dan heb je als het goed is, goede kwaliteit geïsoleerde spraak.

108
00:10:07,640 --> 00:10:13,560
En dat is hetgeen wat je echt verstaanbaar wil maken. Wat Marciano ook zegt, je kan dat harder

109
00:10:13,560 --> 00:10:17,520
gaan zetten, maar dat is niet de bedoeling. Daar schiet je niet zo veel mee op. En wat je eigenlijk

110
00:10:17,520 --> 00:10:22,560
wil doen is frequentiespecifiek het geluid harder maken. Dus je gaat kijken naar het gehoorverlies,

111
00:10:22,560 --> 00:10:27,960
je gaat kijken naar het geluid, wat zit er allemaal in qua frequenties. En vaak gehoorverlies is 9 van

112
00:10:27,960 --> 00:10:32,720
de 10 keer zit dat in de hoge tonen. Dan heb je moeite met de hoge tonen goed kunnen verstaan.

113
00:10:32,720 --> 00:10:38,040
En dat wil je versterken, niet de andere frequenties, alleen die hoge tonen. En daarmee verbeter je de

114
00:10:38,040 --> 00:10:41,840
spraak verstaanbaar uit. En dat is een methode die je eigenlijk ook ziet zoals een hoortoestel

115
00:10:41,840 --> 00:10:47,480
werkt. Het zijn twee dingen, die source separation en dan die frequentiespecifieke verbetering.

116
00:10:47,480 --> 00:10:53,240
En samen heb je een pakketje wat vergelijkbaar is zoals een hoortoestel werkt. Ja en wat doet

117
00:10:53,240 --> 00:10:58,960
jullie oplossing anders dan als ik een equalizer zou hebben en zeggen van doe mij de hoge toon

118
00:10:58,960 --> 00:11:04,240
even wat omhoog. Ja dan ben je in principe ook weer inderdaad wel frequentiespecifiek bezig.

119
00:11:04,240 --> 00:11:12,600
En in de basis zijn hoortoestellen toch ook wel een soort equalizers. Alleen de instelling die je

120
00:11:12,600 --> 00:11:16,600
moet doen, die is heel belangrijk. Dus er zijn gewoon normen en standaarden van oké als iemand

121
00:11:16,600 --> 00:11:22,240
een bepaald gehoorverlies heeft, bijvoorbeeld in de hoge tonen, hoeveel moet je dan versterken?

122
00:11:22,240 --> 00:11:26,400
Want je kan het wel versterken, maar op een bepaald punt ben je het zo aan het versterken dat het niet

123
00:11:26,400 --> 00:11:31,560
duidelijker wordt. Dus dat is één. Dus de afstelling van de equalizer, daar zit eigenlijk

124
00:11:31,560 --> 00:11:37,640
de techniek. En wat we daarbij ook nog eens toepassen is compressie. Dus daarbij wil je

125
00:11:37,640 --> 00:11:43,000
eigenlijk zachte geluiden versterken, maar geluiden die al hard zijn, die laat je ongeroerd. En als je

126
00:11:43,000 --> 00:11:47,840
normaal aan het versterken bent, dan maak je eigenlijk alles luider. En dat moet je dan

127
00:11:47,840 --> 00:11:54,400
realtime doen, want je wil dit ook als je een Netflix serie zit te kijken, wil je dat ook horen.

128
00:11:54,400 --> 00:11:58,480
Nou is het voordeel van Netflix, dat is allemaal van tevoren opgenomen. Dus dan zou je dat nog

129
00:11:58,480 --> 00:12:03,520
achteraf kunnen toepassen. En zo maken we ook onderscheid tussen eigenlijk statische content

130
00:12:03,520 --> 00:12:07,520
en live content. Bijvoorbeeld een live uitzending van de NOS, het 8 uur journaal bijvoorbeeld,

131
00:12:07,520 --> 00:12:11,960
of een sportevenement. Nou daar zou je het inderdaad wel in realtime willen toepassen,

132
00:12:11,960 --> 00:12:17,040
of je bent aan het videobellen, dat soort situaties. Dus het moet zowel live als op statische content

133
00:12:17,040 --> 00:12:21,520
kunnen draaien. Maar als het live draait, dan moet je je inderdaad rekening houden met de

134
00:12:21,520 --> 00:12:28,040
realtime eisen die er zijn. Ja en hoe zijn die? Nou als je gaat kijken naar hoeveel kan je eigenlijk

135
00:12:28,040 --> 00:12:32,960
vertragen, dan heeft onderzoek aangetoond dat je ongeveer 15 milliseconden tussen beeld en geluid

136
00:12:32,960 --> 00:12:38,560
kunt vertragen. En dan ervaar je het nog wel als lip-sync. Dus de audio mag 15 milliseconden

137
00:12:38,560 --> 00:12:47,840
achterlopen, maar dan ervaar je het nog wel alsof het constant is. 15 milliseconden is echt ultra

138
00:12:47,840 --> 00:12:53,200
kort toch? Ja dat is heel weinig. En eigenlijk vinden wij dat nog te veel. Want als je getraind

139
00:12:53,200 --> 00:12:59,000
bent dan zie je wel dat het uit sync loopt. Dat lijkt me ook dan wel een technische uitdaging

140
00:12:59,000 --> 00:13:05,560
voor jullie. Ja, omdat in de basis veel van de technieken die wij gebruiken ook terug te vinden

141
00:13:05,560 --> 00:13:12,280
zijn in een hoortoestel. En een hoortoestel heel beperkt is in zijn rekenkracht. Is wat je kunt

142
00:13:12,280 --> 00:13:16,280
doen misschien maar beperkt, maar het moet wel ultrasnel werken. En omdat wij gewoon hetzelfde

143
00:13:16,280 --> 00:13:21,960
doen, nou werkt onze techniek ook ultrasnel. Daar komt er wel een complicerende factor bij,

144
00:13:21,960 --> 00:13:27,120
kijk als je inderdaad AI gaat inzetten en je wil het dan in realtime gaan doen. Nou dat komt ook

145
00:13:27,120 --> 00:13:33,400
met bepaalde performance bottlenecks. Dus we zijn ook best lang bezig geweest met inderdaad alles zo

146
00:13:33,400 --> 00:13:37,600
optimaal mogelijk maken om onder die 15 milliseconden te komen. Wat we nu gelukkig

147
00:13:37,600 --> 00:13:44,320
kunnen. Maar je maakt dat ook weer een trade-off tussen kwaliteit en tussen snelheid. Ja snap ik.

148
00:13:44,320 --> 00:13:49,880
Lelacy is wel echt onze vijand. We hebben weinig vijand hoor, we hebben veel vrienden.

149
00:13:49,880 --> 00:13:56,840
Lelacy is onze vijand. Ja, echt die vertraging. Daar kan ik me er alles bij voorstellen. Je kan

150
00:13:56,840 --> 00:14:01,160
soms wel hebben, weet je, als je sowieso televisie kijkt en het is net een heel klein beetje verschil.

151
00:14:01,160 --> 00:14:07,280
Is dat mega irritant als dat inderdaad niet lip sync is. Misschien wel leuk te vertellen,

152
00:14:07,280 --> 00:14:13,120
we waren de eerste bedrijf wat in Delft, bij de tv Delft, in de Green Village,

153
00:14:13,120 --> 00:14:20,320
testen hebben gedaan met een echt dedicated 5G netwerk. Dat is nu alweer twee jaar geleden.

154
00:14:20,320 --> 00:14:24,440
Dat gaat nu geveild worden eindelijk. Maar we hebben inderdaad van die latency,

155
00:14:24,440 --> 00:14:31,480
want met 4G konden we die latency niet bereiken. Dan kwamen we echt in getallen in de 40 tot 60

156
00:14:31,480 --> 00:14:35,960
milliseconden, wat gewoon echt duidelijke vertraging gaf. We hebben gekeken of 5G,

157
00:14:35,960 --> 00:14:41,000
en dan nu komt 6G, of we daarmee wel die latency konden halen. We hebben echt op het netwerk wat

158
00:14:41,000 --> 00:14:47,480
daar aangelegd was door de TNO, hebben met een aantal partners hebben gekeken, MCS,

159
00:14:47,480 --> 00:14:57,360
Surf, gekeken of we dat wel konden bereiken. Toen kwam helaas, totdat onze engine toen te

160
00:14:57,360 --> 00:15:05,160
traag was. Maar dat was twee jaar geleden. We kunnen het nu wel en binnenkort gaan we dat

161
00:15:05,160 --> 00:15:12,480
wel weer testen. Kunnen jullie dat op 4G nu? Is de compressie zo goed toegenomen of de technologie

162
00:15:12,480 --> 00:15:21,560
zo veranderd? Nee, 4G kan niet en dat ligt dus niet aan ons. Als je iemand voor je staat en je

163
00:15:21,560 --> 00:15:27,680
gaat je proces op de telefoon, dan kan het. Maar wij hebben patenten op processen in de cloud.

164
00:15:27,680 --> 00:15:33,280
We sturen het eerst naar een server toe, daar wordt geprocest en dan moet het weer terug. Het

165
00:15:33,280 --> 00:15:41,280
datanetwerk van de telefoon naar de data lijn, naar de server, heen en terug, die is met 4G

166
00:15:41,280 --> 00:15:50,720
gewoon veel te traag. Met 5G kan het wel. Je gaf aan dat dit op ieder device kan. Moet ik dan iets

167
00:15:50,720 --> 00:15:56,560
installeren? Hoe gaat dat? Het verschilt per toepassing. We hebben bijvoorbeeld toepassingen

168
00:15:56,560 --> 00:16:00,680
voor je desktop en je laptop. En daar is gewoon een kwestie van je installeert een applicatie,

169
00:16:00,680 --> 00:16:06,640
op jouw systeembeheerder doet dat voor je. Dan wordt alle audio, alle systeem audio,

170
00:16:06,640 --> 00:16:11,160
alle audio wordt in één keer aangepast. Dat gebeurt gewoon lokaal op je laptop. Maar we zijn

171
00:16:11,160 --> 00:16:15,520
bijvoorbeeld ook aan het nadenken met onder andere Nokia, hoe we het bijvoorbeeld in hun

172
00:16:15,520 --> 00:16:20,080
IMS systeem zouden kunnen doen. Wat is een IMS systeem? Dat is eigenlijk de telefooncentrale.

173
00:16:20,080 --> 00:16:24,640
Dus daar worden alle gesprekken komen daar binnen en gaan er ook weer uit. Dus daar wordt de routing

174
00:16:24,640 --> 00:16:29,240
wordt daar gedaan. En het is dan interessant, kan je daar op toepassen, zodat ook weer de telefoon

175
00:16:29,240 --> 00:16:34,160
gesprekken van verstaanbaarheid beter worden, zonder dat je iets hoeft te installeren op je

176
00:16:34,160 --> 00:16:40,640
telefoon. En dan geldt het eigenlijk voor iedereen. Ja. Gaaf. En hoe zit dan het personalisatie

177
00:16:40,640 --> 00:16:46,280
stukje daar dan weer in terug? Want het is voor iedereen, maar het is speciaal voor jou. Ja,

178
00:16:46,280 --> 00:16:50,680
dat is inderdaad een trade-off. In sommige situaties kan je het niet helemaal personaliseren. In het

179
00:16:50,680 --> 00:16:54,920
geval van bijvoorbeeld een telefooncentrale, soms als je een klantenbestand hebt, dan kunnen ze dat

180
00:16:54,920 --> 00:17:00,680
op basis van leeftijd zouden ze dat, nou, gepersonaliseerd kunnen doen. Onze technologie

181
00:17:00,680 --> 00:17:04,680
wordt bijvoorbeeld ook toegepast in musea. Dat is allemaal vooraf opgenomen audio. En daar wordt

182
00:17:04,680 --> 00:17:09,360
gewoon maar één stand gebruikt. Het is daar altijd aan en voor iedereen. Het ding is ook,

183
00:17:09,360 --> 00:17:15,440
als je verbeterde audio beluistert als niet slechthorende, of het is bewerkt voor iemand

184
00:17:15,440 --> 00:17:19,200
die een hogere leeftijd hebt, dan als niet slechthorende ervaar je dat nog niet per se

185
00:17:19,200 --> 00:17:23,240
als hinderlijk of als problematisch. Zeker nog, het is eigenlijk wel prettiger om naar te luisteren,

186
00:17:23,240 --> 00:17:28,280
omdat het gewoon duidelijker is qua smaak, qua spraak. Maar voor je desktop, die desktop

187
00:17:28,280 --> 00:17:33,240
applicatie, die kan je met drie standen instellen. En daarbij kan je ook je audiogram invullen,

188
00:17:33,240 --> 00:17:35,880
zodat het helemaal gepersonaliseerd wordt aan jouw gehoorverlies.

189
00:17:35,880 --> 00:17:44,000
En Marciano, wat was voor het eerst, zeg maar, dat je zoiets had van, hé, maar deze technologie

190
00:17:44,000 --> 00:17:50,000
werkt en niet voor jezelf, maar dat iemand anders tegen je zei van, ja, maar dit is het,

191
00:17:50,000 --> 00:17:58,040
dit wil ik. Ja, dat is wel een leuke anekdote die ik dan kan vertellen. We waren bij het Singer

192
00:17:58,040 --> 00:18:07,000
Museum en we hadden, Nouri had laatste hand gelegd aan de beta versie van onze verbetersoftware

193
00:18:07,000 --> 00:18:13,680
voor Musea. We maken dan de Musea tours veranderen dan voor slechthorenden. En we kamen daar bij de

194
00:18:13,680 --> 00:18:22,640
directeur van het museum, meneer De Loorn, en we hadden een appje gebouwd, echt een beetje houtje

195
00:18:22,640 --> 00:18:26,800
touwtje nog hoor. Dat was een uur voor demonstratie. Uur voor demonstratie, uiteindelijk. Het zat op een

196
00:18:26,800 --> 00:18:30,760
telefoon met een slechte speaker. We zitten hier met hele dure apparatuur, maar het was echt een

197
00:18:30,760 --> 00:18:36,320
simpel dingetje. En we wilden gewoon laten zien van, goh, we zijn hier mee bezig. En nou, gewoon

198
00:18:36,320 --> 00:18:42,480
een beetje interesse wekken. En hij kijkt zo en zegt, oh, dan kan ik beter mijn hoedjes stil uitdoen.

199
00:18:42,480 --> 00:18:49,640
Ik dacht, ja, maar het was niet echt bedoeld als een soort high-end oplossing. Het is gewoon even,

200
00:18:49,640 --> 00:18:55,600
ja, een soort teaser. Het is niet de echte test. We wisten ook niet dat hij slechthorend was.

201
00:18:55,600 --> 00:18:59,480
Dat wisten we ook niet. Geweldig. We zetten zijn hoedjes stil uit en luistert even,

202
00:18:59,480 --> 00:19:02,480
luistert nog wat aandachtiger. Nou, het is exact hetzelfde als mijn hoedjes stil.

203
00:19:02,480 --> 00:19:17,480
En nu, wat zijn de volgende stap? Ja, leuke vraag. We hebben echt heel hard gewerkt de afgelopen

204
00:19:17,480 --> 00:19:24,960
periode aan het afmaken van de software. We hebben de Workspace oplossing, die is voor Windows helemaal

205
00:19:24,960 --> 00:19:29,160
klaar. En een aantal bedrijven die daar heel erg geïnteresseerd zijn, en een aantal bedrijven waar het

206
00:19:29,160 --> 00:19:37,960
draait. De presets en ook voor accessibility, dus toegankelijkheid. Mensen die op de werkvloer met

207
00:19:37,960 --> 00:19:43,080
gehoorverlies lopen, dat heeft grote impact natuurlijk. We kunnen daarmee helpen, maar ook

208
00:19:43,080 --> 00:19:47,840
gewoon de mensen die naar buitenlandse talen daarmee moeite hebben. Een Japans bedrijf die

209
00:19:47,840 --> 00:19:52,680
dat specifiek daarvoor heeft gekocht, bijvoorbeeld om de Engelse taal beter te verstaan. Dat is ook

210
00:19:52,680 --> 00:19:59,800
een hele leuke case. Dus daar zijn we nu mee aan het groeien. En we zijn net de markt op aan het

211
00:19:59,800 --> 00:20:09,960
gaan. We hebben klanten, maar dit jaar is echt het jaar van het PR zoeken en groeien. Maar de

212
00:20:09,960 --> 00:20:18,080
verdere stappen, mijn droom eigenlijk, waar ik mee begonnen ben, is om het achterhuis-signaal

213
00:20:18,080 --> 00:20:26,920
te verbeteren voor slechthorenden. Dat is wel grappig, want in tijden van corona was gebarentaal

214
00:20:26,920 --> 00:20:34,040
verplicht. En dan vraag ik aan jullie, voor hoeveel mensen is gebarentaal ter beschikking gesteld?

215
00:20:34,040 --> 00:20:40,760
Hoeveel mensen kijken naar het journaal en hebben daar baat bij? - Ik heb er geen flauw idee over.

216
00:20:40,760 --> 00:20:45,440
Ik denk een klein percentage. - In aantallen?

217
00:20:45,440 --> 00:20:52,120
Ja, in absolute aantallen. Dit is een gok. 100.000? - Ik zou zeggen de helft, 50.000.

218
00:20:52,120 --> 00:20:56,840
Ja, dat zit al veel beter in de buurt. - Zo'n 120.000 mensen.

219
00:20:56,840 --> 00:20:57,800
Gewoon niet zo weinig? - Ja.

220
00:20:57,800 --> 00:21:01,800
En ik heb het net al een beetje verklapt, maar hoeveel mensen zijn er slechthorend in Nederland?

221
00:21:01,800 --> 00:21:05,160
Vele malen meer inderdaad. Dat is toch 2,3 miljoen mensen?

222
00:21:05,160 --> 00:21:13,880
Dat zijn er 2,6. En ongeveer 1 op de 7 mensen in Nederland heeft slechthorendheid. Dus van die

223
00:21:13,880 --> 00:21:18,840
grote groep mensen die voor de tv zitten en het journaal niet goed volgen, zijn er meerdere mensen

224
00:21:18,840 --> 00:21:25,240
die ik gesproken heb. En in mijn leven kom ik elke keer weer tegen waarbij de man apart tv kijkt

225
00:21:25,240 --> 00:21:29,920
van de vrouw. En de vrouw die slechthorend is, zit op de laptop te kijken met de koptelefoon op.

226
00:21:29,920 --> 00:21:34,800
En ja, ze zitten gewoon gescheiden in de avond te genieten van hun eigen footage.

227
00:21:34,800 --> 00:21:39,400
Of hetzelfde programma zelfs kan ook nog. Dat journaal vind ik ook zo belangrijk als

228
00:21:39,400 --> 00:21:48,320
informatiebron, maar ook entertainment. Dat wil ik graag veranderen. Daar zijn we ook wel mee

229
00:21:48,320 --> 00:21:54,080
bezig geweest met de NPO. We doen ook weer testen met de EO nu. Met podcast, maar ook met KPN hebben

230
00:21:54,080 --> 00:21:59,280
we testen voor de tv gedaan die zeer positief zijn uitgevallen. Dat is iets waar we graag naar toe

231
00:21:59,280 --> 00:22:05,400
willen. We gaan de televisie, entertainment en de broadcast veranderen. Dat is waar we naar toe

232
00:22:05,400 --> 00:22:10,560
willen. Maar ook de bioscoop willen we naar toe. Dat is ook een oplossing voor de bioscoop. En

233
00:22:10,560 --> 00:22:14,880
ook testen gedaan in het kleine bioscoopje bij mij in het dorp. Hartstikke leuk was dat.

234
00:22:14,880 --> 00:22:23,680
Wat waren daar de reacties? Ja, we hadden een zaal, twee keer een viewing met een aangepaste

235
00:22:23,680 --> 00:22:30,320
audio. Dat was ook deels klinische testen. We hebben woorden getest met ruis, zoals ik als

236
00:22:30,320 --> 00:22:38,320
k-noors gewend ben in een stille ruimte. En ook een documentaire met aangepaste audio. Dat was een

237
00:22:38,320 --> 00:22:46,000
documentaire over de Boorma's van Beuningen, de depot. Daar hadden we de delen van de audio

238
00:22:46,000 --> 00:22:51,120
aangepast. Dat hebben we gescoord en daar zagen we dat in alle levenscategorieën, dus ook jong,

239
00:22:51,120 --> 00:22:57,000
dus ook van 13-jarigen, maar ook iemand van 90, alle mensen hadden baat bij het verbeteren van

240
00:22:57,000 --> 00:23:03,240
audio. Dus jong en oud. We zagen wel dat de waardering van de jongere groep minder was.

241
00:23:03,240 --> 00:23:08,240
Ze zeiden, nou het is niet stoer, maar als ik moet kiezen, dan kies ik voor het origineel. En

242
00:23:08,240 --> 00:23:11,960
bij de oude groep was heel duidelijk de voorkeur voor het aangepaste geluid.

243
00:23:11,960 --> 00:23:19,600
Ja, mooi. Maar je vroeg waar ik naartoe wil. Ik wil natuurlijk de televisie Nederland 1,

244
00:23:19,600 --> 00:23:26,680
dat zou ik graag willen veranderen. Maar eigenlijk wil ik de potentie uit al die slechte horen,

245
00:23:26,680 --> 00:23:32,000
die dus geen hulp hebben, op zoveel mogelijk plekken verbeteren. Dat is eerst dus wat we nu

246
00:23:32,000 --> 00:23:38,840
doen. Uiteindelijk zouden we een heel goedkoop hoortoestel willen bouwen met cloud computing,

247
00:23:38,840 --> 00:23:44,040
voor niet zozeer voor Nederland, maar echt midden- en lagelonenlanden.

248
00:23:44,040 --> 00:23:46,880
Oh ja, wat een mooie. Ultimate goal.

249
00:23:46,880 --> 00:23:58,440
Mooie missie. Nouri, we zitten in de AI podcast. Wat waren nog meer uitdagingen waar jullie tegenaan

250
00:23:58,440 --> 00:24:04,040
lopen, of misschien die je voor ziet, in wat Marciano nu vertelt, waar jullie naartoe willen.

251
00:24:04,040 --> 00:24:12,080
Welke uitdagingen heb je op het gebied van AI? Ja, dan is vooral de vraag hoe we dat gaan inzetten,

252
00:24:12,080 --> 00:24:17,600
op nog interessantere manieren. Een probleem waar we nu best wel lang over aan het nadenken zijn,

253
00:24:17,600 --> 00:24:21,480
en waarvan we denken dat er bepaalde oplossingsrichtingen zijn die met behulp van AI

254
00:24:21,480 --> 00:24:26,960
gehaald kunnen worden, is op basis van wat er wordt uitgezonden, of wat de content is,

255
00:24:26,960 --> 00:24:32,960
dus is het muziek, of is het spraak, of is het ruis, dat we op basis daarvan de personalisatie

256
00:24:32,960 --> 00:24:38,240
elke keer net iets anders doen. Soms als het muziek is, dan wil je misschien helemaal niks doen,

257
00:24:38,240 --> 00:24:44,280
of op een hele andere manier weer het geluid gaan bewerken. En als het alleen maar weer sprake is,

258
00:24:44,280 --> 00:24:49,400
dan wil je soms een mannenstem anders bewerken als een vrouwenstem. In de regel, wij mannen,

259
00:24:49,400 --> 00:24:57,320
wij mompelen nogal eens. Daar hebben wij natuurlijk geen last van, maar in de regel is dat een issue.

260
00:24:57,320 --> 00:25:03,560
En we hebben natuurlijk ook een lager stemgeluid. En in dat geval wil je die op een net iets andere

261
00:25:03,560 --> 00:25:07,800
manier bewerken dan bij een vrouwenstem. Dus we willen dynamisch gaan kijken, kunnen we bijvoorbeeld

262
00:25:07,800 --> 00:25:12,520
een spreker herkennen? En is het een klassieke vrouwelijke stem of een klassieke mannelijke

263
00:25:12,520 --> 00:25:16,640
stem? En op basis daarvan kunnen we dan ook weer een andere instelling gebruiken met die

264
00:25:16,640 --> 00:25:21,320
frequentiespecifieke versterking. - Oh ja, slim. - Het is ook nog zo dat we,

265
00:25:21,320 --> 00:25:25,360
we kunnen natuurlijk de achtergrond weghalen, dat is in een telefoongesprek heel wenselijk,

266
00:25:25,360 --> 00:25:29,920
maar als je naar een serie kijkt, dan wil je de suspense, de spanning, wil je niet weghalen.

267
00:25:29,920 --> 00:25:35,320
Dat wil je eigenlijk ook zeg maar automatisch laten doen. Wat voor soort content is het?

268
00:25:35,320 --> 00:25:40,440
Is het een serie? Moeten hier alle ruizen weg? Of moeten we juist net wel iets van de achtergrond

269
00:25:40,440 --> 00:25:45,600
erin laten? Dat is ook iets waar we modellen op willen trainen. - Een film zonder filmmuziek.

270
00:25:45,600 --> 00:25:47,600
- Exact. - Dan wordt het waarschijnlijk

271
00:25:47,600 --> 00:25:52,080
een hele lange zit. - Precies, dat bedoelen we. - Ja, maar dat

272
00:25:52,080 --> 00:25:56,840
zeg je ook documentaire, is ook een filmzalen, maar is toch net wat anders dan in een actiescene.

273
00:25:56,840 --> 00:26:08,200
- Absoluut. Ik had een vraag en die ontzettend… Oh ja, daar wilde ik nog aan jou vragen. Er is

274
00:26:08,200 --> 00:26:15,040
natuurlijk, want er luisteren ook heel veel mensen die natuurlijk werken, op werk is er heel vaak

275
00:26:15,040 --> 00:26:21,880
wel aandacht voor lichamelijke fitheid, mentale fitheid. We hebben zelfs ook allemaal dat soort

276
00:26:21,880 --> 00:26:27,760
programma's. Ik heb nog nooit iets gehoord over gehoorfitheid. Terwijl we zitten tegenwoordig

277
00:26:27,760 --> 00:26:32,960
volgens mij veel meer te luisteren. Dus allemaal met Teams meetings, Zoom meetings, weet ik wat

278
00:26:32,960 --> 00:26:39,680
allemaal. Krijgen jullie daar aanvragen over? - Leuk je het zegt, maar eigenlijk niet.

279
00:26:39,680 --> 00:26:46,640
Nee, het is… En dat gaf ik een beetje aan, een beetje bespottelijk, maar met de hulp voor geheel

280
00:26:46,640 --> 00:26:50,360
doven, wat ik heel goed vind. Laten we dat even onderstrepen. Het is hartstikke goed dat dat er

281
00:26:50,360 --> 00:26:58,040
was. Maar de slechthorendheid is een beetje weggemoffeld. We hebben ondertiteling en daarmee

282
00:26:58,040 --> 00:27:05,560
is het klaar. En dat zie je eigenlijk in het geheel dat er voor mensen die tussen niet-doof

283
00:27:05,560 --> 00:27:11,800
en goedhorend in zitten. Het is eigenlijk een beetje een vacuum waar je… We accepteren dat

284
00:27:11,800 --> 00:27:16,240
gewoon en dan moet je maar mee leven. Dus de aandacht die jij daar verwacht, die is er eigenlijk

285
00:27:16,240 --> 00:27:20,040
helemaal niet. Echt te weinig. - Je ziet ook als je nu dan bijvoorbeeld

286
00:27:20,040 --> 00:27:26,880
kijkt naar ons product Knisper Workspace voor je werkomgeving. Niet goed een Teams call kunnen

287
00:27:26,880 --> 00:27:31,600
volgen of dat niet goed kunnen verstaan. Dat is echt wel heel uitputtend ook. Je bent aan de

288
00:27:31,600 --> 00:27:35,560
eind van de dag helemaal uitgewrongen als je gewoon slecht dat hebt kunnen verstaan. Zeker

289
00:27:35,560 --> 00:27:41,040
als je in een hybride meeting zit. Dus mensen zijn deels thuis en deels op een locatie en dan

290
00:27:41,040 --> 00:27:45,600
naar geroezemoes en dat soort zaken. Dus dat kost je echt heel veel energie. Dus er gaat ook een

291
00:27:45,600 --> 00:27:51,360
hele hoop productiviteit verloren omdat we op die manier werken en omdat we de audio heel slecht

292
00:27:51,360 --> 00:27:57,240
verstaan. - Ja en wat ik dan zelf ook merk is dat je dan ook afgeleid raakt. Omdat het dan inderdaad

293
00:27:57,240 --> 00:28:02,440
zoveel energie kost. Het kost je zoveel energie dat het dan makkelijker is op een gegeven moment

294
00:28:02,440 --> 00:28:08,600
gewoon die ruis maar als de ruis te laten en wat anders te doen. - Ja en dat is toch best wel slecht

295
00:28:08,600 --> 00:28:13,240
voor je efficiëntie inderdaad. En als daar belangrijke zaken besproken worden. - Als het

296
00:28:13,240 --> 00:28:19,600
goed is doe je iets in die meeting. - Er is een onderzoek van de SiRM, dat is een onderzoek

297
00:28:19,600 --> 00:28:25,560
wel een opdracht van Specsavers geweest een paar jaar geleden. Die heeft berekend dat het verlies

298
00:28:25,560 --> 00:28:32,480
in de geld aan die 40% die niet geholpen is, is 5,8 miljard. Dus het niet helpen van gehoorverlies

299
00:28:32,480 --> 00:28:39,120
kost de maatschappij 5,8 miljard per jaar. - Ja dat is fors. Er ligt wel een hele mooie

300
00:28:39,120 --> 00:28:44,720
uitdaging. - Ja en had ik een afvraag voor zo'n werk situaties. Als je inderdaad hybride meetings

301
00:28:44,720 --> 00:28:48,840
hebt. Dan zit er in een hoekje zit een geroezemoes en de andere kant is juist een punt aan het maken

302
00:28:48,840 --> 00:28:53,760
en eigenlijk wil je je focussen op degene die het punt wil maken en het geroezemoes weg. Maar

303
00:28:53,760 --> 00:28:58,760
hoe ga je daar dan mee om? - Ja als je geluk hebt dan heb je soms een microfoon op tafel staan.

304
00:28:58,760 --> 00:29:04,120
Heb je geluk en dat je dan als het goed is een richtingsgevoelige microfoon in en die helpt

305
00:29:04,120 --> 00:29:08,120
dan hopelijk al een beetje. Die kan dan al een beetje onderscheid maken in oké waar komen nou

306
00:29:08,120 --> 00:29:13,200
de belangrijkste informatie vandaan. Waar moet ik op inzoomen eigenlijk en wat kan ik achterwege

307
00:29:13,200 --> 00:29:20,160
laten. Maar als dat niet lukt en wij krijgen gewoon ruwe audio waarbij inderdaad geroezemoes erin zit

308
00:29:20,160 --> 00:29:25,880
en sprekers die je naar voren wilt halen. Dan is ons source separation algoritme wel daartoe in

309
00:29:25,880 --> 00:29:31,480
staat om eigenlijk de sprekers die op de voorgrond zich bevinden om die te scheiden en degenen die

310
00:29:31,480 --> 00:29:36,520
op de achtergrond zitten nog wat zachter te zetten of juist helemaal weg te halen. Want anders

311
00:29:36,520 --> 00:29:41,240
interfereert het gewoon met elkaar. - Zouden er dan mogelijkheden zijn om juist op het

312
00:29:41,240 --> 00:29:47,520
geroezemoes in te zoomen dat je daarmee kan gaan spelen? Dat klinkt een beetje als een beetje

313
00:29:47,520 --> 00:29:52,960
spioneren. - Nee niet zozeer dat. Maar wat ik dan van familie en dergelijke die wat minder goed

314
00:29:52,960 --> 00:29:57,400
horend zijn bij verjaardagen zitten en eigenlijk het gesprek juist net even aan de andere kant

315
00:29:57,400 --> 00:30:01,040
van de tafel willen volgen maar dichtbij dan geroezemoes hebben. Zo zie ik het ook een beetje

316
00:30:01,040 --> 00:30:06,500
een meeting. Hoe ga je daarin kunnen sturen? - Je kan dat gewoon beschikbaar maken want ook

317
00:30:06,500 --> 00:30:13,040
die achtergrond geluid is gewoon geluid en je kan situationeel ook kijken naar het achtergrond geluid

318
00:30:13,040 --> 00:30:17,320
en wat daar dus in zit. Dat was het ook wat we net over hadden. Als daar muziek in zit dan wil je dat

319
00:30:17,320 --> 00:30:20,600
weer op een andere manier bewerken dan als die achtergrond als dat achtergrondrumoer is wat je

320
00:30:20,600 --> 00:30:25,320
misschien toch wel wilt mee wilt meekrijgen. - Dus dus echt op die source separator dan zou je

321
00:30:25,320 --> 00:30:31,000
daarop kunnen gaan inspelen en daarmee gaan interveniëren waar je op wilt focussen. - En

322
00:30:31,000 --> 00:30:36,720
nou wil het geval dat mensen luisteren naar ons. Dus we hebben geluid. Is er mogelijkheid dat we

323
00:30:36,720 --> 00:30:46,760
bijvoorbeeld een stukje van deze podcast laten omzetten juist in de algemene omzetting die we

324
00:30:46,760 --> 00:30:50,600
die voor een aantal minuten of zo gaan gebruiken? - Ja, dan moeten we even allemaal door elkaar

325
00:30:50,600 --> 00:30:55,280
gaan praten. Dan maak ik het extra moeilijk. - Oh ja, dan probeer ik het ook even beter te doen.

326
00:30:55,280 --> 00:31:01,400
- Nee, maar dat kunnen we zeker demonstreren. Want het effect is dan voor iedereen al waarneembaar

327
00:31:01,400 --> 00:31:06,160
zonder dat op een irritante manier je het hoeft te ervaren. - Nou, dat zou sowieso leuk zijn.

328
00:31:06,160 --> 00:31:09,880
- Ja, dan laten we dat sowieso dan doen toch? - Super leuk.

329
00:31:09,880 --> 00:31:13,600
De audio is vanaf hier omgezet dus je gaat nu het verschil horen.

330
00:31:13,600 --> 00:31:19,840
- Ja, we hebben ook altijd een virtuele co-host. Dus die zou ik graag een vraag jullie willen

331
00:31:19,840 --> 00:31:26,080
laten stellen. - Aisha.

332
00:31:26,080 --> 00:31:44,800
Ik hoop dat je het tot nu toe naar je zin hebt. Ik ben Aisha. De AI van deze podcast

333
00:31:44,800 --> 00:31:49,680
zou het goed zijn als ik je een vraag stel? - Natuurlijk.

334
00:31:49,680 --> 00:31:55,480
Hoe kunnen we ervoor zorgen dat vrouwelijke experts meer geconsulteerd worden bij AI ontwerp?

335
00:31:55,480 --> 00:32:03,600
- Dat is een goede vraag. Want waarom doen we dat eigenlijk niet? Dat zit daar dan een beetje achter.

336
00:32:03,600 --> 00:32:09,600
Waarom schenken we daar geen aandacht aan? Oeh, dat is wel een heel brede vraag.

337
00:32:09,600 --> 00:32:14,280
- Een brede vraag. Ze is behoorlijk maatschappelijk betrokken.

338
00:32:14,280 --> 00:32:20,080
- Ja, dat is wel goed. Ik moet ook eerlijk zeggen, in dat opzicht gaan wij daar wel een beetje mee in

339
00:32:20,080 --> 00:32:26,680
de trend. Allemaal mannen die er bij ons hier aan werken. Ook in ons source separation algoritme.

340
00:32:26,680 --> 00:32:34,480
Ik denk dat we meer open moeten staan. En misschien juist op plekken die niet zoveel

341
00:32:34,480 --> 00:32:40,080
aandacht krijgen. En mensen, groepen die we een beetje wegcijferen, juist een extra zetje

342
00:32:40,080 --> 00:32:44,560
moeten geven. En iedereen wel heel serieus nemen. Want we generaliseren nog wel eens.

343
00:32:44,560 --> 00:32:53,640
Maar ik moet zeggen, wij staan op de IBC. Dat is een international broadcast convention.

344
00:32:53,640 --> 00:32:57,600
Dat is een beurs voor broadcast, televisie, dat soort zaken. Dat is voor ons ook interessant

345
00:32:57,600 --> 00:33:04,480
om daar iets mee te doen. En daar kwamen we ook Jessica, ik weet even haar achternaam niet meer,

346
00:33:04,480 --> 00:33:09,440
kwamen we daar tegen. Die bezig is met, ook source separation, op een hele innovatieve manier.

347
00:33:09,440 --> 00:33:13,800
Misschien is het wel leuk, ik kan al die details wel delen, kunnen we dat misschien in de show notes

348
00:33:13,800 --> 00:33:20,440
zetten. Die zijn echt met heel erg complexe AI modellen bezig. Source separation modellen.

349
00:33:20,440 --> 00:33:25,760
En ook dat je individuele sprekers kunt herkennen. Dus als wij straks over elkaar gaan praten,

350
00:33:25,760 --> 00:33:31,720
is hun model erin toe in staat om dat van elkaar te scheiden. En gewoon vier aparte audiosporen

351
00:33:31,720 --> 00:33:37,200
aan te leveren. Is echt indrukwekkend. Maar je moet het maar net weten en tegenkomen natuurlijk.

352
00:33:37,200 --> 00:33:41,520
Als je weet dat er al heel veel vrouwen daarmee bezig zijn. Op een hele indrukwekkende manier.

353
00:33:41,520 --> 00:33:52,360
Ja, wat goed. En hebben jullie ook iets van testgroepen? Ja, we hebben een vast groepje

354
00:33:52,360 --> 00:33:56,880
van oude mensen die we mogen lastigvallen. En als je die een doosje chocolade geeft,

355
00:33:56,880 --> 00:34:01,960
dan vindt het fantastisch om eraan mee te doen. Maar nu eigenlijk ook omdat we zien dat onze

356
00:34:01,960 --> 00:34:08,920
oplossing voor meerdere leeftijdsgroepen baat kan hebben, zijn we ook nog steeds wel op zoek

357
00:34:08,920 --> 00:34:14,840
naar extra mensen. Iedereen die zich daarvoor ter beschikking wil stellen is altijd welkom.

358
00:34:14,840 --> 00:34:21,920
Ja, en dan misschien vrouwen extra. Zeker. Bedankt voor je diepgaande toelichting,

359
00:34:21,920 --> 00:34:28,760
zeer informatief. Vanaf hier hoor je weer de originele opname en kan je nog mooi even het

360
00:34:28,760 --> 00:34:33,960
verschil beluisteren tussen wat je net hebt gehoord, dus de gewijzigde audio,

361
00:34:33,960 --> 00:34:38,720
en wat er nu weer aankomt. Die heb je al vast te pakken, toch? Als mooi compliment.

362
00:34:38,720 --> 00:34:44,800
Ja, prettig om te horen. Leuk feitje is wel, ook weer zo'n robot stem, ik neem aan dat dit even

363
00:34:44,800 --> 00:34:50,120
een robot was natuurlijk, van iemand beledigen, is vaak ook weer voor iemand die slecht horend

364
00:34:50,120 --> 00:34:58,040
is best moeilijk te verstaan. Het klinkt heel telefonisch natuurlijk. Dit was nog een stem

365
00:34:58,040 --> 00:35:03,360
met redelijk wat hoog, dus dat geeft wat meer detail. Maar het is vaak als je dus aan het

366
00:35:03,360 --> 00:35:06,640
telefoneren bent en je hebt zo'n robot stem, vind ik het al heel moeilijk om te verstaan.

367
00:35:06,640 --> 00:35:12,640
Ja, druk op 1 of druk op 2 en dan moet je maar net gehoord hebben waar je nou precies op moet drukken.

368
00:35:12,640 --> 00:35:17,760
Dat is best wel een issue. Er wordt niet echt heel erg bij stilgestaan. Ook dat soort audio

369
00:35:17,760 --> 00:35:22,760
kunnen wij verbeteren natuurlijk. Maar daar hebben mensen best wel moeite mee.

370
00:35:22,760 --> 00:35:27,920
Ja, dat snap ik wel. En je moet ook heel snel die informatie tot je nemen, dus hoe beter

371
00:35:27,920 --> 00:35:33,320
dat uiteindelijk hoorbaar is, hoe beter je uiteindelijk ook die keuze kan maken. Ja,

372
00:35:33,320 --> 00:35:38,760
grappig. Nooit zo bij stilgestaan. Ik was wel nieuwsgierig met de ontwikkelingen van AI gaan

373
00:35:38,760 --> 00:35:45,480
heel snel. Wat zijn de technische uitdagingen die jullie eraan zien komen, die getackeld kunnen

374
00:35:45,480 --> 00:35:52,640
worden met die snelle verbeteringen? Technische uitdagingen? Nou, ik hoop om terug te komen,

375
00:35:52,640 --> 00:35:57,920
voor ons is performance het allerbelangrijkste. Dus wij hoeven in principe geen heel groot netwerk

376
00:35:57,920 --> 00:36:04,680
te kunnen draaien met hoge kwaliteit en heel veel parameters om tot resultaat te komen.

377
00:36:04,680 --> 00:36:12,160
Ik heb juist meer hoop in alle acceleratiechips die tegenwoordig in apparaten zitten, dat we die

378
00:36:12,160 --> 00:36:17,360
meer kunnen gaan gebruiken. Om onze algoritmes, die dan maar beperkt van omvang zijn, nog sneller

379
00:36:17,360 --> 00:36:21,560
kunnen evalueren en daardoor gewoon nog steeds hetzelfde resultaat kunnen halen. Maar dat het

380
00:36:21,560 --> 00:36:26,280
gewoon efficiënter wordt voor je batterij en dat soort zaken. Wat je daar natuurlijk ziet is dat

381
00:36:26,280 --> 00:36:31,400
zeker Big Tech is daar heel erg mee bezig, maar die houden die chips allemaal voor zichzelf.

382
00:36:31,400 --> 00:36:42,480
Dus Google heeft de TPU, de Tensor Process Unit, dat je neurale netwerken precies kan draaien op

383
00:36:42,480 --> 00:36:48,080
zo'n chip. Ik weet dat Microsoft gaat nu ook heel veel geld investeren om large language

384
00:36:48,080 --> 00:36:54,560
models erop te draaien. Zie je dat dat dan wel voor jullie openen wordt, dat je toegang krijgt op dat

385
00:36:54,560 --> 00:37:01,240
soort hardware? Ja en het wordt ook gewoon gelukkig steeds normaler om zo'n acceleration chip in je

386
00:37:01,240 --> 00:37:05,920
product te bouwen. Er komen nu al bijvoorbeeld televisies uit waar ook zo'n chip in zit. AI

387
00:37:05,920 --> 00:37:12,280
of voor vision, maar het kan ook voor audio gebruikt worden. En dat is inderdaad iets waar

388
00:37:12,280 --> 00:37:17,600
wij echt op mee kunnen kunnen liften. Je zit nog wel heel erg met het feit van ja, iedereen bouwt

389
00:37:17,600 --> 00:37:22,480
zijn eigen chip, dus iedereen heeft ook zijn eigen interface hoe je dat moet gebruiken. Er zit

390
00:37:22,480 --> 00:37:26,160
altijd wel weer laagjes software tussen die dat kunnen oplossen, maar dat is ook niet altijd ideaal.

391
00:37:26,160 --> 00:37:34,400
Maar het feit dat eigenlijk iedere apparaat tegenwoordig in welke vorm dan ook een AI chip

392
00:37:34,400 --> 00:37:38,880
krijgt die wij kunnen gebruiken, ja dat is gewoon een groot voordeel voor ons. Ja snap ik.

393
00:37:38,880 --> 00:37:46,800
Marciano, ik heb voor jou nog een hele praktische vraag. Want jij zegt helemaal aan het beginnen

394
00:37:46,800 --> 00:37:53,600
van deze aflevering zeg je van mensen vanaf 20 en dan gaat je gehoor al langzaam achteruit. Hoe weet

395
00:37:53,600 --> 00:37:59,240
ik nou, hoe kan ik nou controleren of mijn gehoor zeg maar aan het achteruitgaan is en dat ik daar

396
00:37:59,240 --> 00:38:06,760
eigenlijk hulp, ondersteuning meer nodig heb? Ja dat denk ik dat ook een deel van het probleem

397
00:38:06,760 --> 00:38:14,640
is dat je het niet altijd weet. Het is goed dat je daar op terugkomt. Zeg maar de internationale

398
00:38:14,640 --> 00:38:20,200
standaard als je geen hoortest kan doen is eigenlijk een jong kind. Dus het gehoor van

399
00:38:20,200 --> 00:38:30,080
iemand van acht jaar bijvoorbeeld is eigenlijk ook een Zuid-Afrikaanse audioloog die veel

400
00:38:30,080 --> 00:38:34,400
onderzoekt met hoortesten en die heeft in het begin van zijn proeven heeft hij altijd kinderen

401
00:38:34,400 --> 00:38:41,240
gebruikt als referentie. Dus als een oma ten opzichte van haar kleinkind een bepaald aantal

402
00:38:41,240 --> 00:38:45,800
scoren van woorden wel of niet kon verstaan of het volume zoveel harder moest doen dan was dat een

403
00:38:45,800 --> 00:38:51,520
reden om om hulp te zoeken. Maar ik denk als je zelf gewoon overdag merkt dat je vermoeid raakt

404
00:38:51,520 --> 00:38:56,120
tijdens gesprekken, tijdens Teams calls of tijdens telefoongesprekken dat dat een indicator is van

405
00:38:56,120 --> 00:39:04,200
hey ligt het aan mijn fysieke gestel of is dat gehoor ook een onderdeel? En er zijn ook heel

406
00:39:04,200 --> 00:39:09,600
veel test tools gemaakt door de Hoorstichting en heel veel bedrijven ook die hoortesten online

407
00:39:09,600 --> 00:39:15,640
hebben. Audi, beter Hoorn, Schoonenberg, Spekzeven ze hebben allemaal online tools waarbij je in

408
00:39:15,640 --> 00:39:19,640
ieder geval indicatie kan krijgen of je hulp zou moeten zoeken ja of nee. Maar je bent eigenlijk

409
00:39:19,640 --> 00:39:28,680
zelf de belangrijkste validator. Moet ik hulp hebben ja of nee? Ja precies en stel er komt uit

410
00:39:28,680 --> 00:39:35,360
van ik heb hulp nodig. Kan ik als individu ook jullie product aanschaffen? Dat zou ik heel graag

411
00:39:35,360 --> 00:39:41,360
willen maar daar zijn we gewoon echt net een maatje te klein voor. Dus wij bieden oplossingen aan

412
00:39:41,360 --> 00:39:48,520
bedrijven echt B2B. Dus je kan wel je werkgever vragen of je kan wel een mailtje naar de NPO

413
00:39:48,520 --> 00:39:56,880
sturen van goh ik heb daar behoefte aan. Nee maar daar is onze service niveau gewoon niet toe in staat

414
00:39:56,880 --> 00:40:03,400
om individu te helpen. Ja duidelijk. Dus het is echt B2B. Dus als je als bedrijf iets wil doen

415
00:40:03,400 --> 00:40:09,520
aan nou wat ik net zei die gehoor fitheid of zo voor je medewerkers. Precies. Dan kunnen ze contact

416
00:40:09,520 --> 00:40:15,960
met jullie opnemen. Graag. Kijk nou dan zorgen wij ervoor dat dat in de show notes staat. Ja super

417
00:40:15,960 --> 00:40:21,200
bedankt voor de inzichten die jullie hebben gegeven in nou ja weet je wat je allemaal kan doen met

418
00:40:21,200 --> 00:40:25,240
met audio voor ons natuurlijk ook heel erg interessant. We zitten niet voor niks met de

419
00:40:25,240 --> 00:40:30,080
koptelefoons hier op en microfoons. Dus heel erg bedankt dat jullie hier hebben wilde komen.

420
00:40:30,240 --> 00:40:39,480
Nou ja ik hoop zeg maar ik ben zelf deze uitzending laat ik het zo zeggen normaal gesproken luister

421
00:40:39,480 --> 00:40:44,360
ik niet heel veel terug van onze eigen uitzending. U weet wat we besproken hebben. Maar ik ga wel

422
00:40:44,360 --> 00:40:50,800
die minuten die we omgezet hebben ga ik natuurlijk sowieso luisteren. Ja leuk. En nou ja laat via

423
00:40:50,800 --> 00:40:59,840
de socials weten wat je ervan vindt. Dus hoe ervaar je dat? Hoe vind je het? En welke verbetering levert

424
00:40:59,840 --> 00:41:04,280
dat voor je op? Ja en waar zijn je werk zou dit je kunnen helpen? Ja ik ben heel erg benieuwd.

425
00:41:04,280 --> 00:41:13,480
Marciano bedankt. Nouri bedankt. Zo hartstikke die stond nog aan. Dat is een goede gehoortest.

426
00:41:13,480 --> 00:41:20,080
Jazeker. Jij? Zeker zeker. Fijn dat je weer luisterde naar een aflevering van AIToday live.

427
00:41:20,080 --> 00:41:24,880
Vergeet je niet te abonneren via je favoriete podcast app en dan mis je geen aflevering.

428
00:41:24,880 --> 00:41:27,040
Dank je wel voor het luisteren. Tot de volgende keer.

429
00:41:27,040 --> 00:41:29,040
[Muziek]


People on this episode