Le protocole MRCPv2 (Media Resource Control Protocol) est un ensemble de normes utilisées dans le domaine de l’ASR (Automatic Speech Recognition – Traitement automatique de la parole). Il permet la communication entre les applications de traitement vocal, les serveurs de ressources vocales et les outils clients téléphoniques en standardisant les interactions et en facilitant l’intégration de ses composants dans des environnements plus vastes.
Plus concrètement, c’est un outil déterminant permettant la mise en place de SVIs (Serveurs Vocaux Interactifs) ou de Voicebots (agents conversationnels) performants.
Les grammaires MRCP ou built-in
C’est un élément fondamental du protocole MRCPv2 : sa modularité et son évolutivité. Cela se traduit par la possibilité de mettre en place des grammaires personnalisées ou built-in. Les possibilités avec ces outils sont presque infinies. Elles permettent à la fois d’améliorer la précision des résultats de l’ASR en ajoutant une couche d’interprétation, mais également de traiter des cas d’usage normalement inatteignables avec des modèles de langages traditionnels. Vous allez pouvoir, pour chaque tour de parole, déterminer la grammaire la plus pertinente à utiliser en fonction de votre besoin et des retours attendus.
Voici quelques exemples de grammaires personnalisés que nous avons mis en place chez Allo-Media et les cas d’usage correspondants :
💬 Épellation :
Cette grammaire permet d’interpréter le résultat de la transcription en forçant la compréhension des lettres et des chiffres et en supprimant les mots parasites.
Cas d’usage : ils sont multiples. Le mode épellation peut être utilisé pour permettre la reconnaissance de numéros d’identification, de numéros de dossiers, de numéros de cartes bancaires…
Exemple : Dans mon voicebot, je souhaite que l’utilisateur puisse me communiquer son numéro de dossier.
💬 Utilisateur : “Mon numéro de dossier est “ABC123”.
Allo-Media renvoie comme valeur :
<instance>abc123</instance>
📍Adresse :
Cette grammaire va permettre de pouvoir comprendre, retranscrire et structurer les adresses postales en se basant sur le dictionnaire de l’INSEE.
Cas d’usage : lorsque vous souhaitez connaître l’adresse d’un client, une adresse de livraison…
Exemple : Dans mon voicebot, je souhaite pouvoir récupérer l’adresse postale de l’utilisateur
💬 Utilisateur : “Alors… mon adresse est… 18 Boulevard Pasteur, Paris 15, 6ème étage”.
Allo-Media renvoie comme valeur :
<instance>
<address>
<number>18</number>
<street>boulevard pasteur</street>
<zipcode>75015</zipcode>
<city>paris</city>
<complement>6ème étage</complement>
</address>
</instance>
🏷 Mot-clé :
Cet outil permet d’identifier et de récupérer un mot-clé prédéfini dans une réponse fournie par le moteur de reconnaissance vocale.
Cas d’usage : lors de la mise en place d’un SVI, cela va permettre d’orienter l’utilisateur vers la file ou le tour de parole correspondant.
Exemple : Dans mon SVI, je veux que l’utilisateur puisse choisir entre les files “dossier” ou « réclamation » selon son besoin.
💬 Utilisateur : “Je souhaiterais porter une réclamation”
Allo-Media renvoie comme valeur :
<instance>réclamation</instance>
📅 Date :
La built-in date est capable d’analyser, de comprendre et de structurer les dates dans de multiples formats. Elle est également en mesure d’interpréter les dates relatives.
Cas d’usage : vous avez besoin de déterminer une date de rendez-vous, de récupérer une date de début ou de fin de contrat, une date de livraison…
Exemple : Dans mon voicebot, je veux que l’utilisateur puisse me dire quand il sera disponible pour un rendez-vous.
💬 Utilisateur : “Je suis disponible mardi prochain”
Allo-Media renvoie la valeur suivante :
<instance>
<date>
<day>30</day>
<month>01</month>
<year>2024</year>
</date>
</instance>
En couplant ces grammaires avec des modèles de langages évolutifs et personnalisés, vous allez pouvoir doper les performances de vos SVIs et de vos Voicebots et surtout travailler sur de nouveaux cas d’usage jusqu’alors difficilement traitables.