L’iPhone 3Gs à l’épreuve …

Beaucoup a été dit sur l’usage du vocal dans la nouvelle version du smartphone d’Apple, voici un intéressant topo de Mébarek Boudemia, un déficient visuel qui a eu l’occasion de le tester.

En premier lieu, l’interface voiceOver :

Il suffit de toucher n’importe où l’écran de l’iphone et la synthèse nous dit sur quel élément nous sommes. En faisant glisser son doigt, on se déplace d’éléments en éléments énoncé par voiceOver. Si l’élément que nous recherchons est trouvé, il suffit de tapotter deux fois rapidement pour accéder au sous-menu.

Au début je trouvais ça très bien et puis en faisant des essai et me documentant un peu aussi, j’ai découvert qu’on était pas obligé de balader son doigt partout. En fait, si on fait glisser deux doigts de haut en bas ou de bas en haut, la synthèse nous donne la liste de tous les éléments visibles à l’écran selon la direction de notre geste. Dès que l’élément voulu a été prononcé par voiceOver, il suffit de toucher l’écran pour stopper la synthèse. Cette fonction est très pratique lorsqu’on se trouve dans un écran que l’on ne connais pas bien.

Il est fréquent également que tous les éléments d’un menu ne tiennent pas sur l’écran, et donc, il faut pouvoir passer d’un écran à l’autre. De la même façon que précédemment, on glisse de bas en haut ou de haut en bas sur l’écran mais cette fois-ci avec trois doits et là synthèse nous donne la liste des éléments : par exemple : éléments 10 sur 250, 28 sur 250. Cette fonction revient à faire page précédente ou suivante.

Je dois dire que c’est bluffant dans la mesure où tout est très intuitif et que l’on ne se soucie pas de savoir où est une zone de texte, ou un bouton de menu car il suffit de poser son doigt et la lecture du bouton de menu est activée automatiquement. Pour interrompre la synthèse il suffit de poser son doigt n’importe où sur l’écran.

C’est exactement la même chose sur safari, le navigateur internet d’Apple. L’accès à internet est aisé.

Concernant le clavier de saisie pour du texte, SMS, Internet : il suffit de toucher la lettre que l’on souhaite et de tapotter deux fois rapidement pour faire avancer le curseur. La lettre est biensûr énoncée par la synthèse.

Le clavier est très simple puisque les lettres sont disposées en azerty. A mon avis il faut vien connaître son clavier azerty pour éviter de perdre trop de temps. C’est une habitude à prendre mais je trouve ça simple et je peu comprendre que le clavier de saisie puisse en décourager certains.

On procèdera de la même façon pour taper un numéro de téléphone.

VoicieOver est très réactif et la synthèse, en plus du texte, délivre des sons qui nous informent lorsqu’un menu est validé, lorsqu’on atteint le bas de l’écran, lorsqu’on fait glisser ses doigts sur l’écran. Bref, tout ce que Jaws ou Talks (NDLR : les logiciels PC les plus utilisés par les déficients visuels) nous disent de manière automatique, voiceover émet des petits sons très courts afin de ne pas charger la synthèse par des informations que l’on peut obtenir en moins d’une seconde. Ceci à l’avantage d’avoir une synthèse qui ne donne que les informations pertinantes. Pas de blabla !

Lorsqu’on veut passer un appel : deux possibilité, soit on touche (contact) deux fois rapidement et on touche le contact de la liste puis le bouton appel, soit on peut avoir recours à voiceControl qui se déclenche par un bouton physique (le seul sur L’iphone) situé en bas de l’écran et on dit simplement : appeler Jean-Marc, appeler DUPONT. Voice control nous répond : appel Jean-marc, appel DUPONT. La numérotation commence alors.

En bref, il suffit de prononcer le nom ou le prénom d’un contact pour que l’iPhone le compose pour nous. Lorsque un contact a deux numéros de téléphone, il suffit d’ajouter : appeler Jean-Marc travail.

Très pratique ce voicecontrol puisqu’on est pas obligé de réaliser des fiches audio pour chaque contact comme sur les nokia.

Lorsqu’on veut composer un numéro de téléphone : il suffit de dire « appeler : 0 6 0 0 0 0 0 0 0 0 0 0 » et voiceover le compose.

Attention, il faut dicter le numéro chiffre par chiffre, ce qui est un peu agaçant, d’où l’intérêt d’avoir un répertoir bien fourni de manière à simplement donner le nom ou le prénom.

Voicie control est également oppérant dans la fonction ipod de l’iphone et il se comporte eactement comme le Kapten de chez KAPSYS pour ceux qui connaissent. Sinon, on peut se servir de ses doigts.

Je referai un autre point sur l’iphone dans quelque temps mais pour finir, je dirai que le fait de toucher les éléments sur l’écran nous donne la même disposition que les voyants, ce qui nous permet d’aider ou d’être aidé pour indiquer l’endroit précis d’un lien sur l’écran.

Je dirai également que l’autonomie est nettement améliorée avec ce système car lorsqu’on utilise une application ou un site internet plusieurs fois, à force on sait où est placé tel bouton ou tel lien sur l’écran et cela nous permet d’y aller plus vite qu’avec Jaws ou Talks.

Pour finir ce système tactile nous permet de nous faire une image mentale de la disposition d’une application ou d’une page internet et à ce titre je pense que nous allons y gagner beaucoup en rapidité et en efficacité.

Imaginons qu’on puisse sur les PC avoir un écran tactile de 19 pouces équipé d’une telle interface, nous vivrions l’informatique autrement.

Toucher c’est quand même le propre d’un non-voyant mais par contre les non-voyants parkinsonniens s’abstenir !!!

Spinvox suscite toujours le débat

La transcription automatique de la parole est un sujet difficile qui a fait d’importants progrès ces dernières années. La dictée vocale, avec adaptation au locuteur, est remarquablement efficace, il suffit d’utiliser Dragon ou MacSpeech pour s’en convaincre. Et on a vu la propagation de ces outils dans le monde médical ces dernières années.

Lorsqu’il s’agit de transcrire sans adaptation, en multi-locuteurs, on est confronté à une dimension complémentaire de complexité. Aussi beaucoup d’experts émettaient des avis pondérés sur l’offre agressive et fortement marketée de Spinvox.

Les experts que nous avions consultés s’accordant à dire que la méthode décrite semblait impossible … et qu’il était surprenant qu’aucun éditeur ou laboratoire ne se présente comme le fournisseur de la technologie ! Ce qui nous rappelle les annonces très anticipées de feu Lernout & Hauspie …

Et voilà que quelques articles déchaînent les passions dans le monde anglo saxon !

Un premier article, paru dans Telecoms, présentait une réponse officielle de Spinvox à ses détracteurs en expliquant que les humains étaient nécessaires à la correction. Telecoms avait en effet fait état de révélations d’anciens employés, comme quoi en fait de reconnaissance vocale il s’agissait de plateaux téléphoniques en Afrique et Asie, laissant planer une ombre sur le respect de la vie privée …

La BBC annonçait, pour sa part, des difficultés financières, l’interdiction d’accès au data center pour factures impayées …

Certains employés n’étant plus payés, les langues se délient … et des messages vocaux d’appel à l’aide des transcripteurs pakistanais sont transmis à des utilisateurs.

Et maintenant la BBC publie un article démontrant que les brevets (celui de 2006 et celui de 2009) décrivent un service opéré … par des humains !

De nombreux articles vont suivre ces premières alarmes, The Register vient de publier « Spinvox : the inside story » reprenant le qualificatif de Mechanical Turk (le faux automate joueur d’échecs de Von Kempelen) lancé par James Governor sur Twitter.

Une note d’optimisme ? Si Spinvox a voulu aller plus vite que la musique, il n’en reste pas moins que la transcription automatique fonctionne, progresse, et apporte de véritables nouvelles opportunités !

Apple réinvente la tablette …

… et innove toujours !

S’il est vrai que parfois Apple a été trop en avance (on se souvient de cette jolie brique, nommée Newton, qui présageait les PDA), lorsque les designers de Cuppertino s’attellent à refondre un concept, ils sont doués.

AppleTablet

Après l’iPod et l’iPhone, voilà la tablette … ou presque, puisque le Financial Times émet des doutes quant à sa sortie prochaine. Car les discussions avec quelques grands acteurs (principalement dans la musique) viennent à peine de commencer.

Beaucoup d’autres questions sont aussi posées, notamment pour comprendre comment Apple réussira là où bien d’autres ont échoué (Toshiba a essuyé les platres il y a plus de 10 ans). Si l’ergonomie vraiment efficace de l’iPhone laisse penser que le champs des possibles est grand, on se prend à rêver que contrairement à ce dernier la reconnaissance de la parole sera une fonction majeure. Elle est, de toute façon, plus maîtrisée que la reconnaissance d’écriture sauf s’il s’agit de reconnaître les lettres comme l’a démontré Jeff Hawkins en son temps.

Et si le prix est attractif, on va vraiment se demander à quoi sert le Kindle …

IBM et Nuance main dans la main

Nuance Communications et IBM ont annoncé un accord pour dynamiser l’innovation dans les technologies vocales. Cette annonce semble une étape dans la concrétisation de l’accord de licence annoncé en janvier.

Tous les secteurs intéressent les deux acteurs, de l’automobile (où Microsoft à pris de l’avance) à la distribution en passant par la banque. Leur vision est, évidemment, d’apporter self-service et messagerie unifiée, en respectant les souhaits des consommateurs et en optimisant la chaîne de valeur des entreprises. Derrière ces voeux, on attend des services, ce que promet Paul Ricci, président de Nuance, qui voit là « un accord qui ne connaît pas de limites ».

Dialonics et le langage naturel

Dialonics a imaginé un logiciel d’intelligence artificielle capable de dialoguer et de répondre aux commandes d’un utilisateur, quelle que soit sa langue.

Un site immobilier permet ainsi de chercher un bien

Vous cherchez une maison quatre pièces, bord de mer, avec jardin. Sur le site de l’agence immobilière, équipé du nouveau logiciel Nabu Talk de Dialonics, riende plus simple. «Votre budget est de 600.000€? Nabu Talk estassez intelligentpour ne pasbloquer à 600.000 € et vous proposer aussi la maison à 605.000 €», illustre Nicolas Renard, directeur marketing. «Si vous le questionnez surlemontant de la taxe foncière, et enchaînez illico avec laquestion ?et d’habitation??, il sait faire le lien avec la question précédente sur la taxe etdonc, vous répondre sur le montant de la taxe d’habitation.»

Un vrai dialogue avec la machine

Nabu Talk est un véritable cerveau artificiel. Couplé avec d’autres technologies (reconnaissance et synthèse vocales), il apporte aux machines – commandes sur le web, serveurs vocaux, bornes interactives dans les gares et les musées, robots domestiques, ordinateurs de bord des voituresetc.-) une capacité de raisonnement qui va révolutionner nos pratiques. «Qu’il tape sur son clavier ou qu’il parle en langage naturel, l’utilisateur dialogue avec un personnage virtuel comme il le ferait avec un interlocuteur humain», explique Franck Panaget, P-DG de Dialonics. Cela change bien des choses, notamment dans le domaine des jeux vidéos où jusqu’ici, il fallait le plus souvent suspendre le jeu pour dialoguer avec d’autres joueurs en ligne, et s’en tenir à des commandes ultrasimples du type «lance» ou «tire».

Un outil pour tous les petits gestes quotidiens

Née le 7mai dernier, Dialonics est pour le moment hébergée par France-Télécom R & D dont elle est essaimée. Ses cinq dirigeants sont tous passés par France-Télécom. Deux d’entre-eux, le P-DG Franck Panaget et le directeur des opérations, Sylvain Camus, sont diplômés de l’Enssat. «Les applications de Nabu Talk sont très concrètes. Demain, on peut imaginer une interface vocale qui permette à la fois de réguler sa chaudière, baisser ses stores, déclencher l’enregistrement du programme TV de son choix… à la place des multiples télécommandes qui peuplent notre univers», indiquent Thierry Martinez, directeur technique et Vincent Louis, directeur R & D. Si les ambitions affichées restent modestes pour le premier exercice (160.000 € de chiffre d’affaires espéré), Dialonics entend croître pour atteindre assez vite les 500.000 € et recruter sous cinqans une trentaine de collaborateurs.

Révolution dans le marketing mobile

Mobile Marketer publie un article intitulé Mobile speech recognition to revolutionize mobile marketing: GigaOm

Phil Hendrix Selon Dan Butcher il en ressort que l’étude du groupe GigaOm et Immr (le rapport complet, payant, ici) que nous allons voir d’importantes modifications dans le marketing mobile grâce à la reconnaissance vocale. Fonction novatrice, simplifiant les usages, c’est la parole qui ouvre de nouveaux horizons. L’interface la plus naturelle pour des interfaces conviviales mais aussi une véritable personnalisation (on se rappelle les outils de synthèse vocale adaptables).

Alors que de nombreux acteurs y travaillent, Nuance propose ses fonctions aux opérateurs depuis quelques années, l’étude regarde aussi l’important investissement effectué par Google, les pistes suivies par Vocalia, Vlingo, Spinvox … ou Apple qui a enfin ajouté la voix à son iPhone.

Et le Dr. Phil Hendrix, d’affirmer : « Le marché des smartphones est très compétitif, la reconnaissance vocale sera la technologie de rupture »

Il insiste aussi sur le fait que les sites internet sont au format XML et qu’il est donc aisè de faire des requêtes vocales en s’appuyant sur ce standard. On en reparle bientôt avec une intéressante initiative italienne.

On regrettera que l’article finisse en insistant sur l’apport de la voix aux seniors. Non pas qu’il ne soit pas utile de leur apporter de l’information plus vocalement que visuellement, mais parce que cela cantonne les technologies dans un usage restreint. Piétons ou automobilistes nomades, n’avons nous pas aussi besoin d’écouter plus que de regarder ?

Usine virtuelle sur secondlife

L’institut « Manufacturing Engineering and Automation » du Fraunhofer mise sur Second Life et lance une usine virtuelle accompagnée d’une plate-forme d’apprentissage qui présente tous les éléments clés d’une chaîne de montage de quads

L’initiative a été développée à l’origine à destination du grand public, mais les chercheurs envisagent de proposer l’interface aux industriels pour qu’ils développent leur propre usine de développement virtuelle. Le but étant de faciliter la formation de collaborateurs à distance. « Le défi principal est de reproduire le cheminement logique de la production », explique Stefan Seitz,chercheur à l’institut Fraunhofer. En d’autres mots de faire comprendre comment une pièce produite par la machine A est transportée vers la B pour assemblage ». Les avatars ont la possibilité de choisir entre différents modèles de quads, mais aussi leur couleur, les jantes et certaines spécifications techniques comme la consommation avant de lancer la production. Ces choix faits, l’avatar suit les différentes étapes de fabrication de son quad et interagit à certains moments de la production.

Un module de reconnaissance vocale à été intégré afin de contrôler les applications par téléphone. Nous n’avons pas encore pu le tester.

Pour en savoir plus (en allemand …) Fraunhofer

Videofy studio, studio de création vidéo 3G

Déjà présent sur le marché des plateformes VoiceXML avec Open Media Platform, Tetco-Voxpilot, lance Videofy studio, une suite logicielle qui permet à la fois de créer des contenus vidéo professionnels, quel que soit le format, et de les incorporer à des systèmes interactifs diffusant de la vidéo.

Longtemps pénalisées par le coût et la complexité de la mise en œuvre, les solutions vidéo se sont peu développées. Tetco-Voxpilot autorise sans maîtrise technique, de renouveler à faibles coûts, les contenus vidéo et donc d’accroître leur attractivité.

Avec Videofy studio, Tetco-Voxpilot simplifie la création de contenus vidéo grâce au Video Composer. Il suffit de :

  • « glisser-coller » des vidéos, images, sources audio et textes qui composent votre futur vidéo
  • monter votre vidéo en définissant la chronologie des séquences
  • publier la vidéo créée.

L’utilisation de ce dispositif ne nécessite aucune connaissance en langage VoiceXML.

Video Portal Creator permet de mettre en œuvre les vidéos créées ainsi que les éléments extérieurs dynamiques uniquement par une interface graphique. Une fois cette étape franchie, il n’y a plus qu’à publier l’application sur les serveurs qui deviennent accessibles en temps réel.

« Nous avons enfin réussi à s’exonérer des contraintes techniques et financières liées à la diffusion vidéo interactive sur la téléphonie 3G » commente Tristan Dessain-Gelinet, CEO de Tetco-Voxpilot. « En simplifiant la création de vidéos, les fournisseurs de service et les opérateurs ont entre leurs mains, l’outil leur permettant de renouveler rapidement et facilement leur offre de services vidéo à un moindre coût et ainsi d’augmenter le nombre d’appels et leurs revenus ».

Les fournisseurs de services et les opérateurs des télécoms pourront proposer à leurs abonnés de nouvelles expériences par des contenus vidéos renouvelés régulièrement: diffusion de contenu vidéo professionnelles ou amateurs (vidéoblog pour les communautés), publicités dynamiques sur les sites de contenus vidéo destinés aux abonnés, création de clips vidéo mélangeant des contenus statiques et des contenus dynamiques tels que les services de cartes, de prévisions météorologiques, de flux d’informations etc.

Services vocaux sur Asterisk

Après être passé en VoiceXML, voilà que Digium annonce son premier accord important pour apporter la reconnaissance vocale sur Asterisk.

C’est Loquendo qui est le premier partenaire du spécialiste de la voix sur IP en opensource. Sa plateforme VoxNauta est donc compatible Asterisk avec ses 36 langues et 63 voix.

Cet accord prépare une base pour les applications adaptées aux besoins des standards automatiques, solutions CRM, self-service et messageries unifiées. On attend avec intérêt les premières applications.

GPS vocaux … un nouveau venu

Le Québec a récemment découvert le Trekker Breeze, order price un système d’aide à l’orientation par GPS, capsule dédié aux déficients visuels. and juil. 2009″ src= »/wp-content/uploads/public/TrekkerBreeze251x189.jpg » alt= »Trekker Breeze » /> Ce produit commercialisé depuis un an fonctionne comme un GPS traditionnel. Un système audio indique à son utilisateur où il se situe, quelle sera la prochaine intersection, en plus de donner les points d’intérêt aux alentours (commerces, restaurants…)

Son coût est cependant élevé: 895 $

Pour le découvrir : HumanWare