De la voix au texte, la puissance de l'écosystème Open Source - retour sur la conférence OSXP

01/12/2021

Auteur(s) :

Lucian Precup

Temps de lecture : 4 minute(s)

Retour sur la présentation "De la voix au texte, la puissance de l'écosystème Open Source", donnée à la conférence OSXP (Open Source Experience) par Lucian Precup et Aline Paponaud: lien de l'enregistrement vidéo et résumé des idées présentées.

De la voix au texte, la puissance de l'écosystème Open Source - retour sur la conférence OSXP

En novembre dernier nous étions à la conférence Open Source Experience qui ouvrait ses portes pour sa première édition. A cette occasion, nous avons présenté l'écosystème Open Source autour des technologies Speech-To-Text. Plus tôt cette année, lors de la conférence Berlin Buzzwords, nous présentions notre approche pour améliorer les technologies Speech-To-Text avec la technologie Elasticsearch : Speech to text with Elasticsearch. OSXP était pour nous une occasion pour généraliser la présentation, et aussi partager notre expérience en français :-).

Le Speech-To-Text (STT) a beaucoup évolué notamment grâce au Machine Learning et au Deep Learning. Cette technologie est disponible partout via des APIs dans le Cloud et chez les opérateurs tels que Google, Apple, Facebook, Amazon, Microsoft, etc. Souvent, tout se passe côté serveur : la voix enregistrée ou les contenus média sont téléchargés vers les nuages des opérateurs en question et interprétés à distance.

Une certaine dépendance à la plateforme est également introduite car souvent ces fonctionnalités sont disponibles uniquement pour leur écosystème respectif.

La fonctionnalité Google search by voice disponible sur Chrome

L’Open Source a enregistré beaucoup d’avancées ces trois dernières années. Il y a de plus en plus de bibliothèques Open Source tel que Kaldi (sous licence Apache) qui fournit des modèles, des algorithmes et des recettes qui peuvent être utilisées dans les applications, même offline. Vosk une bibliothèque sous licence Apache fournit également un support supplémentaire pour des langues et langages de programmation. La référence historique dans l’Open Source, CMU Sphinx, a laissé la place aux nouvelles technologies, motorisées par des techniques Machine Learning.

Mozilla est à l’initiative de Common Voice un projet intégrant des technologies Deep Learning (Deep Speech). A la différence d’autres technologies collectant les données de ses utilisateurs, le projet Common Voice fonctionne sur un modèle opt-in : c’est vous qui décidez de donner votre voix ou votre temps à la communauté afin de faire avancer la technologie. Concrètement, vous pouvez aller sur le site de Common Voice, lire un texte ou écouter et valider sa transcription.

Les projets Deep Speech et Mozilla Common Voice

Le principe des approches Deep Learning est l’apprentissage successif : la technologie Speech-To-Text génère des propositions, les vérifie, les corrige, met à jour les paramètres et apprend. Une large quantité de données est nécessaire pour assurer l’apprentissage et la qualité du modèle d’où l’appel à la communauté.

L’apprentissage par une technologie Speech-To-Text — L'apprentissage par une technologie Speech-To-Text

La technologie Vosk Api, qui est la plus avancée parmi les technologies Open Source à l’heure actuelle, peut transcrire les phrases qu’on lui dicte en temps réel. Et ceci offline à l’aide des modèles entrainés ne nécessitant pas beaucoup de ressources. Notre démonstration utilise des modèles ne dépassant pas 50 Mo pour le français ou pour l’anglais. Les extensions sont possibles et nous montrions une approche pour transcrire des textes parlés en plusieurs langues.

Nous avons identifié plusieurs cas d’usages des technologies Speech-To-Text : la transcription de texte, l’indexation de contenu audio et vidéo dans un moteur de recherche, la documentation de podcasts, l’accessibilité des conférences et la reconnaissance de requêtes dans le contexte d’un assistant vocal.

Nous finissions notre présentation avec une démonstration des technologies Speech-To-Text Open Source dans le contexte du moteur de recherche collaboratif all.site. Le contenu disponible sur Internet mais aussi dans les Intranet des entreprises est de plus en plus parsemé de contenu multimédia. Dans le cadre des formations en ligne particulièrement, le contenu média peut dépasser la moitié des ressources disponibles. Les technologies comme Vosk Api, permettent aux explorateurs (crawlers) de all.site d’aller au-delà du contenu des fichiers texte et des métadonnées des fichiers média en explorant et indexant le contenu des vidéos et pistes audio référencés.

Copie d'écran de all.site : un résultat de recherche avec des contenus multimédia

Nous tenons à remercier les organisateurs, qui ont transmis la présentation en direct et le public qui nous a chaleureusement accueillis.

Image de Aline Paponaud et Lucian Precup sur scène à OSXP — Aline Paponaud et Lucian Precup sur scène à OSXP

Image du public de OSXP — Merci au public qui nous a chaleureusement accueilli

Vous trouverez ci-dessous l’enregistrement de la conférence disponible dans la vidéothèque d’OSXP 2021.

La vidéo : De la voix au texte, la puissance de l'écosystème Open Source

Retour d’Expérience - Fine-tuning d’un modèle VOSK

05/01/2022

all.site est un moteur de recherche collaboratif. Il fonctionne comme Bing ou Google mais il a l’avantage de pouvoir aller plus loin en indexant par exemple les contenus média et en organisant les données de systèmes comme Slack, Confluence ou l’ensemble des informations présentes dans l’intranet d’une entreprise.

Lire l'article

Retour d’Expérience - Indexation des transcriptions de fichiers média

17/12/2021

Lire l'article

Quand les requêtes sont très verbeuses

22/02/2021

Dans cet article, nous présentons une méthode simple pour réécrire les requêtes utilisateurs afin qu'un moteur de recherche basé sur des mots clés puisse mieux les comprendre. Cette méthode est très utile dans le contexte d'une recherche vocale ou une conversation avec un chatbot, contexte dans lequel les requêtes utilisateur sont généralement plus verbeuses.

Lire l'article