HOSAN Fase-2

Spraakherkenning — de technologie die gesproken woorden automatisch omzet in tekst — wordt in Nederland steeds belangrijker. Ze wordt gebruikt voor ondertiteling op televisie, het doorzoeken van videoarchieven, spraakgestuurde systemen en interactie met chatbots of robots. Deze toepassingen maken inmiddels deel uit van het dagelijks leven, binnen én buiten de creatieve sector. Toch werken huidige spraakherkenningssystemen vaak minder goed voor mensen met een regionaal accent, die dialect spreken of afwisselen tussen Nederlands en andere talen, zoals Engels of Fries. Dat leidt tot praktische en maatschappelijke problemen: organisaties kampen met hogere kosten en lagere kwaliteit bij ondertiteling of transcriptie, gemeenschappen zien hun stemmen ondervertegenwoordigd in archieven en digitale platforms, en gebruikers raken gefrustreerd wanneer technologie hun natuurlijke spraak niet begrijpt.

Dit project maakt deel uit van het HOSAN-programma, een nationale samenwerking die spraakherkenning voor het Nederlands in al zijn diversiteit wil verbeteren — vooral in sectoren waar mensen communiceren via spraakgestuurde technologie. In de eerste fase van HOSAN (2025) identificeerden onderzoekers veelbelovende aanpakken voor hoogwaardige Nederlandse spraakherkenning en ontwikkelden zij juridische en ethische richtlijnen voor eerlijke en inclusieve technologie. Daarbij kwam ook een belangrijk tekort aan het licht: er ontbreken goede methoden om te begrijpen waarom systemen fouten maken bij regionale of niet-standaardsprekers. Huidige tests geven alleen een algemene nauwkeurigheidsscore, zonder te laten zien of problemen te maken hebben met dialectkenmerken, achtergrondgeluid of gespreksdynamiek.

Dit vervolgproject ontwikkelt nieuwe methoden om die oorzaken te diagnosticeren. Het kijkt niet alleen naar het geluid van spraak, maar ook naar tekst (transcripties) en visuele aanwijzingen zoals gebaren of gezichtsuitdrukkingen, die helpen verduidelijken wie er spreekt en wat er wordt gezegd. Het project herdefinieert bovendien wat “goede prestaties” in de praktijk betekenen: bij live-ondertiteling draait het om leesbaarheid, bij archivering om betekenisbehoud, en bij spraakinterfaces zoals chatbots om het begrijpen van de intentie van de spreker. Het nieuwe evaluatiekader meet al deze aspecten — verstaanbaarheid, betekenisbehoud en communicatieve effectiviteit.

In samenwerking met nationale, regionale en lokale publieke omroepen ontwikkelt het project pilot-tests en een dataset met opnamen, transcripties en contextuele informatie. Zo wordt niet alleen zichtbaar dat systemen fouten maken, maar ook waarom en onder welke omstandigheden. De verkregen inzichten helpen onderzoekers om spraakherkenningsmodellen te verbeteren en bedrijven om systemen te kiezen of te bouwen die voor iedereen goed werken. Door evaluatie transparant, eerlijk en afgestemd op de echte diversiteit van het Nederlands te maken, draagt dit project bij aan spraaktechnologie — van ondertiteling tot chatbots — die werkelijk alle stemmen in de samenleving herkent.

Partners