Bronnen

De Stichting Open Spraaktechnologie maakt gebruik van Github voor het delen van spraaktechnologie software en Surfdrive voor het delen van modellen en data.

Voor het installeren van de Kaldi spraakherkenningstoolkit inclusief Nederlandse modellen en bijbehorende scripts zie de KALDI_NL repository op GitHub. De modellen zijn ook los beschikbaar onder een Apache 2.0 licentie via de surfdrive repository van het project.

Webservices

Webservices voor bijvoorbeeld automatische spraakherkenning en forced alignment waar deze software en modellen gebruikt worden, zijn te vinden op: https://webservices.cls.ru.nl/

Kaldi

Kaldi is de spraakherkenningssoftware zelf die in een internationale community wordt ontwikkeld. Meer informatie over de installatie ervan is hier te vinden: https://sourceforge.net/projects/kaldi/ Let op: het vergt de nodige ICT kennis om de software te installeren. Het is geen consumentensoftware die je met een druk op de knop installeert. In principe is kennis over spraakherkenning zelf niet noodzakelijk. Via deze site zullen we zo veel mogelijk documentatie beschikbaar stellen die kunnen helpen bij het gebruik van spraakherkenning.  

Kaldi-NL

Kaldi-NL bestaat uit de Nederlandse modellen die we beschikbaar stellen en software die we om KALDI heen hebben gebouwd. Via de GitHub repository van het project stellen we voorbeeldscripts beschikbaar die de werking van de herkenning demonstreren en vanwaaruit je verder kunt werken. Bijvoorbeeld een ‘decode’ script dat audio files in de ene directory oppakt, deze herkent en de output deponeert in een andere directory. Ons model is dat software rondom de spraakherkenning, zoals APIs, conversie van video naar audio, queue-ing en load balancing mechanismen, gebruik in een dialoog setting (bv met een robot) worden ontwikkeld door de partijen die met de spraakherkenning aan de slag gaan. Zo werkt Beeld en Geluid aan een verwerkingspijplijn die het eenvoudiger maakt om de spraakherkenner in een workflow te integreren met veel data. We juichen het beschikbaar stellen van dit soort code via de GitHub repository van het project van harte toe. Als je wilt bijdragen meld je dan aan via GitHub (als individu of als team).

De modellen die het project beschikbaar stelt zijn ontwikkeld met behulp van data collecties, audio (akoestische modellen) en tekst (taalmodellen). Om de modellen vrij beschikbaar te kunnen stellen moeten soms afspraken worden gemaakt met rechthebbenden van de collecties. Zo worden akoestische modellen die zijn ontwikkeld met behulp van het Corpus Gesproken Nederlands beschikbaar gesteld met toestemming van de Nederlandse Taalunie als rechthebbenden.

Bijdragen aan de repository

De volgende teams dragen nu bij aan deze repository:

  • Universiteit Twente
  • Nederlands Instituut voor Beeld & Geluid
  • Radboud Universiteit Nijmegen

%d bloggers liken dit: