In dit project wordt gewerkt aan de verbetering van automatische spraakherkenning voor het Nederlands. Automatische spraakherkenning wordt steeds vaker gebruikt binnen de creatieve industrie. Denk aan robots of chatbots waarmee je kunt praten, bijvoorbeeld om informatie te vinden. Of aan het automatisch ondertitelen van televisieprogramma’s.

Hoewel automatische spraakherkenning steeds beter werkt, blijkt uit testen dat er Nederlandse sprekers zijn voor wie de kwaliteit van spraakherkenning achterblijft. Dan gaat het bijvoorbeeld om sprekers die in meer of mindere mate een accent hebben, dan wel een dialect spreken. Of om ouderen, kinderen en sprekers voor wie het Nederlands de tweede taal is. Het is onwenselijk dat deze groep sprekers wordt uitgesloten van diensten in de culturele en creatieve industrie die gebruik maken van automatische spraakherkenning in diensten die –ook door commerciële partijen– worden ontwikkeld.

Daarom hebben een aantal partijen binnen de creatieve industrie de handen ineengeslagen: met behulp van de grote hoeveelheden spraakdata van NPO, opgeslagen bij Beeld & Geluid, gaan we onderzoeken hoe we automatische spraakherkenning voor deze vormen van spraak kunnen verbeteren. In deze eerste fase van het project dat we “Hoogwaardige Spraakherkenning voor al het Nederlands” (HOSAN) hebben gedoopt, gaan we, geïnformeerd door concrete use cases vanuit het veld, proefondervindelijk uitzoeken wat hiervoor technisch en organisatorisch nodig is. Dat doen we door Nederlands spraakmodellen te trainen op basis van archiefdata (radio en televisie) met behulp van de nationale supercomputer bij SURF.

Fase 1

In de eerste fase van HOSAN is aangetoond dat een publiek georganiseerd spraak-AI ecosysteem voor Nederland technisch en juridisch haalbaar is. We realiseerden een eerste werkend fundament waarin data, modelontwikkeling en infrastructuur samenkwamen, en onderzochten de randvoorwaarden rond governance, AVG en duurzaam beheer.

De kerninzicht uit fase 1: AI is geen los project maar infrastructuur. Het ontwikkelen van één model is niet voldoende — wat nodig is, is een samenhangend ecosysteem dat publieke waarden borgt en structurele afhankelijkheid vermindert.

Fase 1 levert daarmee het bewijs én de basis voor gerichte opschaling naar een duurzaam nationaal AI-fundament voor spraak.