Microsoft heeft zijn eerste eigen spraak-naar-tekst model uitgebracht: MAI-Transcribe-1. Het model ondersteunt 25 talen — waaronder het Nederlands — en is beschikbaar via Microsoft Foundry. Volgens Microsoft presteert het model beter dan bestaande systemen zoals Whisper, GPT-Transcribe en Gemini Flash op de FLEURS-benchmark, een veelgebruikte meetlat voor meertalige spraakherkenning.
Het model is ontworpen met moeilijke opnameomstandigheden in gedachten: achtergrondgeluid, slechte audiokwaliteit en overlappende stemmen. De prijs bedraagt $0,36 per uur audio, wat Microsoft positioneert als een concurrerende optie ten opzichte van Whisper-API’s en andere transcriptiediensten.
MAI-Transcribe-1 maakt deel uit van een bredere strategische zet van Microsoft: naast het spraakmodel lanceerde het bedrijf ook MAI-Voice-1 (tekst-naar-spraak) en MAI-Image-2. De transcriptie-functionaliteit wordt stapsgewijs geïntegreerd in Microsoft Teams en Copilot Voice.
Voor de Nederlandse markt is de ondersteuning van het Nederlands relevant — al blijft de vraag in hoeverre het model getraind is op voldoende gevarieerde Nederlandstalige data, inclusief accenten en dialecten.
Meer informatie op microsoft.ai.