Skip to main content

Aujourd’hui, une transcription de qualité est essentielle pour extraire des informations pertinentes et concrétiser des actions stratégiques, telles que l’amélioration de l’expérience client et la détection des tendances. Allant au-delà de la simple minimisation d’erreurs, une transcription efficace signifie une adaptation précise au contexte spécifique et propre à chaque marque.

Chez uh!ive, nous avons développé la Language Model Factory (LMF), une innovation fondamentale pour nous et nos clients. Cette solution sur mesure repose sur des modèles de langage adaptés à chaque client, assurant une transcription précise et une compréhension fine des nuances propres à chaque conversation. 

L’importance d’une transcription de qualité s’étend également au domaine des systèmes de la reconnaissance vocale en langage naturel et à l’interprétation des conversations entre humains et robots, où une transcription précise devient essentielle pour assurer une communication fluide et une compréhension mutuelle. 

La Language Model Factory d’uh!ive se positionne ainsi comme un levier essentiel pour une analyse pertinente des interactions téléphoniques, tout en répondant aux défis posés par les interfaces homme-machine en constante évolution.

L’évolution des modèles de langage chez uh!ive

La transformation d’un signal vocal en une transcription utilisable, à travers la reconnaissance automatique de la parole (ASR), implique une succession d’étapes cruciales. Pour simplifier, on part des phonèmes, les éléments sonores du langage, qui rassemblés à plusieurs (on parle de n-grammes) auront un poids statistique aboutissant in fine à une expression contenant les mots de la transcription finale. Le modèle de langage (LM) joue un rôle central en convertissant ces phonèmes en expressions, et donc en mots, générant ainsi les phrases récupérées dans nos API* ou nos interfaces Web.

Chez uh!ive, fort de notre expertise dans la prestation des services d’ASR, nous avons constaté que la personnalisation et l’adaptation de chaque LM pour chaque client est essentielle pour des résultats optimaux. 

Explorons davantage l’importance de ces modèles adaptés après un bref retour en arrière :

Il fut un temps, il y a quelques années, où la création manuelle d’un ensemble de données linguistiques spécifiques pour chaque client était incontournable. À cette époque, cette démarche impliquait non seulement une élaboration minutieuse de données adaptées, mais aussi leur soumission à un processus d’apprentissage automatique qui mobilisait des serveurs fonctionnant de manière ininterrompue pendant plusieurs jours consécutifs. 

Cette double contrainte rendait l’opération non seulement excessivement coûteuse pour nos clients, mais également soumise à des délais considérables, limitant ainsi la réactivité nécessaire dans un environnement où la rapidité est essentielle.

Fort heureusement, depuis 2021, nous avons introduit avec succès notre Language Model Factory (LMF). Cette innovation nous permet dorénavant de développer des modèles de langage personnalisés en seulement quelques heures, une fois que le besoin et le cas d’usage de l’utilisateur a été clarifié.

La Language Model Factory

Comment avons-nous réussi à diminuer à ce point le temps de calcul, et surtout se passer de la constitution de corpus à la main ? Pour chaque langue (français, anglais, espagnol…) nous avons un modèle de base qui sert de charpente, facilement réutilisable, sur lequel nous ajoutons du corpus selon l’industrie souhaitée (voyage, énergie, assurance…). Mais comme chaque client est unique, nous pouvons aussi facilement ajouter à ce cocktail du jargon propre à la marque : des noms de produits, des noms de concurrents, des expressions idiomatiques propres au secteur… Il est également possible d’ajouter des emprunts à des langues étrangères (ex: check-in souvent utilisé à la place de “enregistrement” dans l’industrie aérienne ou hôtelière).

Il est important de noter que la LMF produit un véritable “graphe de décodage”. Cela veut dire que les expressions spécifiques du client sont parties intégrantes de l’apprentissage automatisé, et sont donc présentes dans le modèle statistique qu’est ce graphe de décodage. Il ne s’agit pas de mettre en place une phase de post-traitement, suite à la transcription, qui remplacerait des morceaux de texte initiaux par les expressions du client lorsqu’il y a homophonie.

Ce progrès significatif en termes d’efficacité et d’accessibilité de la personnalisation des modèles de langage supprime les longs délais qui étaient auparavant associés à ce processus, répondant ainsi de manière précise aux exigences de nos clients et offrant une flexibilité dans le temps, adaptée à l’évolution continue de nos clients (nouveaux produits, nouveaux process…). La Language Model Factory permet l’amélioration continue de nos modèles.

Exploration des cas d’usage pratiques

L’adaptation des modèles de langage est cruciale dans différentes situations, pour garantir une compréhension contextuelle optimale et des interactions fluides entre individus ou avec des robots.

  • Industrie spécifique : Lorsque les conversations sont liées à des domaines d’activité spécifiques, tels que le secteur médical, juridique, financier, ou toute autre industrie spécialisée, l’adaptation du modèle de langage permet de reconnaître et de transcrire avec précision des termes techniques et spécialisés propres à chaque secteur.
  • Jargon métier : Dans les environnements professionnels où un jargon spécifique est utilisé, comme dans l’énergie, les télécoms ou d’autres domaines spécialisés, l’adaptation du modèle de langage garantit la reconnaissance correcte de ces termes particuliers, contribuant ainsi à une transcription plus précise.
  • Noms propres et produits : Lorsque des noms propres, tels que des noms d’entreprises, de produits, ou de personnes, sont fréquemment mentionnés, l’adaptation du modèle de langage assure une transcription qualitative de ces éléments, évitant ainsi les erreurs de reconnaissance.
  • Langage décontracté et expressions localisées : Lors de discussions informelles, ou bien pour prendre en compte des expressions locales dans certains pays (soixante-dix versus septante…), adapter le modèle de langage est crucial pour saisir et retranscrire ces subtilités linguistiques de manière précise et contextuelle.
  • Environnements multilingues : Lorsque les conversations impliquent l’utilisation fréquente de termes étrangers (check-in, oversize…), l’adaptation du modèle de langage facilite la transcription précise de ces éléments, évitant ainsi les confusions et les erreurs de reconnaissance.
  • Évolution du vocabulaire et concepts : Pour les secteurs où les termes et concepts évoluent rapidement, tels que la technologie ou les industries émergentes, l’adaptation continue du modèle de langage permet de rester à jour, assurant ainsi une transcription pertinente et précise au fil du temps.

Plus concrètement, voici ci-dessous quelques exemples de cas illustrant l’intérêt de l’adaptation des modèles de langage.

Si vous souhaitez identifier efficacement les produits les plus fréquemment mentionnés lors des conversations téléphoniques, que ce soit pour capitaliser sur un succès ou pour résoudre un problème de production, la reconnaissance précise des noms de produits, ou de termes consacrés dans votre métier, est cruciale, éliminant ainsi la nécessité d’utiliser des alternatives telles que des alias. 

Ainsi si vous êtes une entreprise de location de matériel ou une administration, la transcription de termes tels que « la location » ou « l’allocation » peut avoir des implications différentes dans le cadre de vos analyses. L’utilisation d’un alias, consistant à conserver une mauvaise transcription et à l’accepter, devient inutile grâce à la création d’un modèle adapté via la Language Model Factory (LMF). Cela simplifie considérablement l’intégration de la bonne orthographe en fonction du contexte, éliminant ainsi toute confusion entre les termes réels et les alias.

Autre exemple, dans le cadre d’une mise en place d’un robot téléphonique pour traiter des demandes en dehors des heures de travail : dans ce cas, l’utilisation d’un modèle de langage adapté présente un avantage significatif pour interpréter correctement l’intention de l’appelant. 

Par exemple, en tant que compagnie d’assurance, vous avez tout intérêt à garantir une reconnaissance précise des noms de péages ou de villes pour offrir une assistance automobile de qualité. De même, une autorité organisatrice des transports dans une métropole tirerait profit de la disponibilité des noms d’arrêts de son réseau dans un Modèle de Langage dédié. 

En enrichissant la LMF avec une liste de mots clés pertinents, allant de quelques dizaines à quelques centaines, nous renforçons statistiquement ces expressions. Ainsi, elles se démarquent dans la transcription, facilitant ensuite l’orchestration du robot téléphonique. Cette approche garantit une meilleure compréhension contextuelle, contribuant à des interactions plus précises et efficaces.

Vers la quête d’excellence dans la transcription conversationnelle automatisée

Chez uh!ive, nous travaillons sur plusieurs aspects pour améliorer constamment la qualité de nos transcriptions. Nous avançons notamment sur l’amélioration de l’application des règles grammaticales, comme la conjugaison et les pluriels. Nous explorons également le processus de conversion directe du son en mots.

Nous sommes également déterminés à impliquer davantage nos clients dans notre processus. Nous voulons qu’ils comprennent comment nous construisons nos modèles, rendant ainsi notre approche plus transparente. En collaborant étroitement avec nos clients, nous visons à rendre la mise à jour de nos modèles plus rapide et flexible, s’adaptant aux besoins changeants de chacun. 

En résumé, chez uh!ive, l’innovation et l’amélioration continue sont essentielles. Notre objectif est de repousser les limites de la technologie pour fournir des transcriptions toujours meilleures, mieux adaptées au contexte, et intégrant plus facilement les retours de nos clients. Nous sommes résolus à évoluer constamment, convaincus que chaque avancée contribue à redéfinir les normes de l’analyse vocale et de la transcription automatisée.

Notes de fin d’article

*API: Application Programming Interface, https://fr.wikipedia.org/wiki/Interface_de_programmation

Leave a Reply

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.