• Reconnaissance vocale et transcription à distance en mode collaboratif.

    Les deux premières solutions PUBLIC et ERP sont conçues pour une transcription entre personnes physiquement proches.
     

    En y ajoutant deux notions, la distance et le travail collaboratif, nous avons une troisième solution plus complète et plus modulaire.

     

    La solution CONF permet de dissocier les 4 actions suivantes :

     

    1) La prise de la parole en WEBRTC par l'intermédiaire du service https://appear.in/ qui peut être couplé soit à notre BOX

    ou bien depuis un Smartphone

    ou bien depuis un Tel fixe par le numéro 04xxxxxxx.

     

    2) La transcription du discours avec diffusion sur un canal WEB privé ou public.

     

    3) La possibilité de correction du texte par un pool de correcteurs collaboratifs distant composé d'un minimum de 4 internautes.

     

    4) Enfin le lecteur, qui peut être passif ou actif, scrute le texte finalisé sur l'écran de conférence, son SmartPhone, sa tablette, ou tout média connecté au WEB.
    Par un canal privé, une option permet de tchater pour les aphasiques.

     

    En dissociant les phases de traitement de production du texte, nous sommes capables de fournir de nouveaux outils techniques publics, qui vont faire évoluer les services liés au métier de la transcription en temps réel.

     

    Le niveau technologique à maintenir (et dépasser) se situe à une seconde entre la prise de parole et la restitution du texte sur grand écran.
    C'est notre notion du temps réel.
    Tout ce qui dépasse la seconde est exclu de nos architectures.

  • Principe

    broken image
  • Détails des 4 phases du dispositif

    Ce système est une progression, car FACE-TO-ERP ne couvre pas tous les besoins.

    broken image

    1) La capture de la parole => 2 options

     

    Via notre BOX

    Service : Speech_box

     

    A) Par un dispositif technique nommé speech_box qui se trouve impérativement sur le lieu de la conférence, sous réserve d'avoir une connexion internet filaire en RJ45.

    Ce dispositif est composé d'un microphone performant avec un câble de 5 mètres, d'un boîtier de connexion filaire en mode DHCP/JR45.

    C'est ce dispositif qui est le plus performant en terme de transcription et rapidité.

    Un seul microphone, utilisé comme un bâton de parole il permet une capture propre, ou bien récupération via le dispositif audio déjà présent dans la salle de conférence.

    Moins d'une seconde de délai entre la prise de parole et restitution du texte sur grand écran.

    Avec une seule contrainte de 2 secondes de silence pour terminer une phrase.

     

    Caractéritique technique de notre Speech_box :

    • L'entrée audio      : Jack 3.5 ou USB
    • Connexion WEB  : Uniquement part câble RJ45
      car les accès wifi sur les lieux de conférences reste un exercices aléatoire. ( le wifi peu être utiliser seulement pour une démo ou test audio )

     

    Orateur

    Via une conférence audio WEB

    Service : www.appeear.in

     

    B) La parole de l'orateur est récupérée via un simple Smartphone par l'application gratuite suivante à installer pour chaque orateur : appear.in sur Googleplay.

     

    Pour l'orateur, vous créez une conférence WEB et choisissez le numéro ainsi que le code d'accès que vous souhaitez utiliser.

     

    Exemple : Numéro : 0958696325 code d'accès : 124587

    Pour le pool de correcteurs: 
    Soit le correcteur est distant par rapport au lieu de conférence, alors, => il entre en conférence via un simple navigateur après connexion par le menu en haut
        "2 - l'interface correcteur" qui est prè-configurée sur ces informations de connexion.
    Soit le correcteur est présent à la conférence, plus besoin de appear.in par contre il doit pouvoir s'isolé ponctuellement du bruit par un casque audio, pendant le temps de vérification/correction de la phrase qui lui est affectée.

     

    Donc, ces 2 informations de connexion sont à fournir uniquement à l'orateur et à nos services pour la mise en oeuvre de la transcription automatique.

    Une période de test de 24 heures est systématiquement inclue pour vous familiariser avec nos outils.

    contact@handi-phone.com

     

    Le GSM ? : Les latences sont encore trop pénalisantes, pour l'instant seuls les deux canaux speech_box et appear.in sont disponibles, tant que les performances GSM ne sont pas au rdv.

     

    La barre à surmonter est à moins d'une seconde de latence (délai) entre la parole de l'orateur et la lecture du texte sur écran.

    Au-delà de ce délai d'une seconde, on ne parle plus de temps réel.

     

    broken image

    2) La transcription du discours

    Notre système est en mode écoute sur la conférence WEB appear.in et l'audio HD est envoyé sur l'API Speech-to-text de Google ( avec un savoir faire spécifique, qui remonte à 98% la transcription, grâce à des filtres audio et un algorithme unique de récupération des erreurs)

    Le texte obtenu peut dépasser 98% de mots corrects : reste 2%.

    Le flux textuel est simplement cumulé pour le pool de correcteurs, qui se retrouve avec 2% de mots à corriger.

    broken image

    3) La correction du texte 2% restant

    C'est la partie la plus coûteuse, puisqu'il faut payer le coût horaire des correcteurs, ou bien vous avez à votre disposition les ressources en personnel interne nécessaires pour corriger les 2% restants.

    Un pool de correcteurs étant constitué d'un minimum de 4 personnes, nomades et délocalisées sans relation directe.

    Le plus efficace étant des secrétaires qui ont l’habitude de la saisie au clavier, Free-lance ou auto-entrepreneur.

    La correction est donc répartie entre 4 personnes minimum ou bien directement par le locuteur.

    broken image

    4) Diffusion sur un canal privé ou public.

    Le texte corrigé obtenu est diffusé sur le web tous-supports en mode privé ou public, avec ou sans participation possible pour les aphasiques ce qui remplace le langage des signes (LSF) seulement pour les personnes lettrés.

    Public : lecture possible pour toute personne.

    Privée : Lecture après connexion login/pass/compte.

    Avec participation : Seulement pour les aphasiques lettrés.

  • Cas d'utilisation non exhaustif

    Fonctions en cours d'industrialisation pour 2017-2018.

    broken image

    Cas 01 Mono-locuteur sans pool de correction.

    • Locuteur et correcteur en mode autonomie.

    Vous avez planifié un forum ou une réunion de présentation et vous êtes l'unique locuteur, vous allez prendre en charge votre propre correction.

    Vous êtes donc très proche de la solution FACE-TO-ERP, mais en plus, vous souhaitez rendre accessible votre discours au plus grand nombre par le WEB, en particulier aux 5 personnes aphasiques qui ne peuvent pas se déplacer sur le lieu du forum.

     

    Handicapés auditifs. Après connexion sur votre canal privé ou public de diffusion du texte transcrit, ils lisent votre discours directement sur leur support : Smatphone, tablette ou ordinateur / télévision.

    Handicapés auditifs et aphasiques : Après connexion sur votre canal privé de diffusion,( login/pass), ils lisent votre discours et peuvent aussi écrire leurs questions ou remarques par ce même canal. On est en mode tchat pour pallier la LSF.

    broken image

    Cas 02 multi-locuteurs + pool de correcteurs.

    Locuteurs multiples et correcteurs en mode prestataire.

    Objectif : Projet en cour : offrir les outils de collaborations distant pour la transcription en temps réel.

    broken image

    Cas 03 Télévision + pool de correcteurs.

    Objectif : Diffuser en live les sous titres des chaines FR.
    Maquette : test avec filtre audio sur la chaîne TF1 

    broken image

    Cas 04 Free-lance Autoentrepreneur.

    Objectif : Concevoir des outils pour les pools de correcteurs indépendant.

    broken image

    Cas 05 B2B utilisation transverse.

    Objectif : Proposer une offre adaptée au B2B

    broken image

    Cas 06 sous-titre Vidéo Youtube avec timing

    Objectif : Généré le timming des sous titres youtube

    broken image

    Cas 07 Utilisation sur PC.

    Objectif : Comprendre l'audio d'une vidéo

    broken image

    Cas 08 sous-titre au cinéma avec timing

    Objectif : Aller au cinéma sans que la salle soit équipé.

    broken image

    Cas 09 sous-titre de votre communication téléphonique.

    Objectif : Intégrer la transcription sur l'audio entrante d'un smartphone.

    broken image

    Cas 10 Utilisation de VUFINE.

    Objectif : Supprimer l'écrans d'affichage