Google améliore sa reconnaissance vocale en silence

On se souvient de l’annuaire téléphonique gratuit 1-800-GOOG-411 qui furent les premiers pas de Google dans la reconnaissance vocale.

Pour améliorer son moteur, le géant américain compte à nouveau sur ses utilisateurs, en leur proposant de sous-titrer des films muets !

Il faut se rendre sur PeanutGalleryFilms.com avec le navigateur Chrome, choisir un film et parler clairement, en ajoutant les ponctuations.

La démonstration en images :

Google achète Neural Networks …

… et parie sur l’avenir du vocal grâce à la technologie de cette start-up canadienne, née sous l’impulsion de Geoffrey Hinton, professeur à l’université de Toronto et deux de ses élèves Alex Krizhevsky et Ilya Sutskever.

Reconnus pour leurs recherches en réseaux de neurones, ils ont démontré quelques opportunités en reconnaissance vocale comme en compréhension du langage naturel. Les deux étudiants ont aussi totalement modifié les performances de reconnaissance d’objets lors de leurs travaux …

Un nouvel élan pour la piste neuronale dans les avancées de l’intelligence artificielle !

Reconnaissance vocale sous Android

Google propose depuis longtemps sa reconnaissance vocale mais voilà qu’avec la dernière mise à jour de Google Search elle devient disponible sans connexion au réseau !

Une fonctionnalité réellement utile (car on ne peut pas dire que la 3G soit aussi universellement disponible que les pubs des opérateurs) et qui devrait donc s’étendre à un certain nombre d’autres applications, Google la rendant disponible aux développeurs, sans restriction. Le clavier Android a lui aussi évolué, il intègre un bouton permettant de dicter son texte.

L’application utter!, en version beta, utilise déjà cette nouvelle fonctionnalité et se propose de devenir votre assistant vocal.

Pour en profiter, outre un mobile Android, il faut aussi qu’il soit déjà sous Jelly Bean …

Google aurait peur de Siri ?

Souvenez-vous, il y a quelques années Google annonçait son intention d’apporter des services au mobile et accompagnait cette décision d’une nouvelle approche de l’interface homme machine en pariant sur la reconnaissance de la parole. S’en suivirent le service d’annuaire téléphonique gratuit 1-800-GOOG-411, qui permit à Google d’optimiser son moteur et sa connaissance des attentes utilisateurs.

Tout cela devait déboucher sur les premiers services vocaux en appui iPhone puis sur Android. Et certains analystes y voyaient poindre la suprématie de Google.

Mais voilà que patiemment, Apple avait parié sur la startup Siri (pour 200 millions de dollars) et force est de constater que l’inclusion de ce savoir-faire dans le dernier modèle de son smartphone, le 4S a fait beaucoup parler. Pour retrouver ce qu’était Siri en 2009, la vidéo publiée sur VocalNews ou celle de l’annonce de la version française

Tellement que voilà Eric Schmidt qui , selon le magazine Ars Technica, revient sur son affirmation devant le Sénat comme quoi Apple n’était pas concurrent : « Je m’étais clairement trompé … Apple a introduit une toute nouvelle approche dans le secteur de la recherche avec Siri, le dispositif de recherche vocal et le service d’aide embarqué à l’iPhone 4S ». Sa lettre du 21 septembre au Sénat américain est fort instructive …

D’ailleurs Dan Kaplan, de Twilio dont nous reparlerons, prévoyait récemment le déclin de Google dans un intéressant article de Techcrunch.

Succès pour les applications vocales iPhone et iPad

Selon Sharon Machlis, les applications vocales commencent à prendre le pas sur le clavier tactile de nos assistants préférés.

On connait déjà le succès de Dragon Dictation de Nuance, Google emboîte le pas avec Search et Translate, et Sharon en fait une revue détaillée. Certes tout n’est pas parfait, mais elle pense que ces appareils vont favoriser la propagation des fonctions de reconnaissance vocale.

Lire l’article sur Computer World

Google en reconnaissance vocale

Nous avons souvent parlé des travaux de Google sur la reconnaissance de la parole, et depuis quelques semaines ce sujet est souvent évoqué.

Ils viennent d’organiser à San Francisco une conférence InsideSearch qui mérite le détour, vous trouverez ICI les vidéos des meilleurs moments.

Les principes à retenir : le web et le mobile s’enrichissent mutuellement en analysant l’expérience utilisateur. Ainsi la reconnaissance (d’image comme de parole) développés pour Android va enrichir Chrome. En Europe il faudra attendre un peu avant de voir Goggles et VoiceSearch cependant … mais on les trouve dans le Labs du moteur US !

Traduction vocale instantanée chez Google

Il y a quelques anées une publicité IBM montrait des étrangers converser au téléphone, chacun dans leur langue … c’était une vision d’avenir !

Mais voilà que si IBM ne semble pas avoir beaucoup avancé sur le sujet (bien que précurseur des technologies vocales avec le docteur Jelonek), c’est Google qui annonce cela pour de bon. Il est vrai que la firme de Mountain View a déjà beaucoup fait dans les technologies vocales et la traduction. Avec une approche différente du sujet, profitant pleinement de la richesse du réseau, de la collaboration des utilisateurs.

Aussi, on peut lire dans le Sunday Times un article réaliste, et l’interview de Franz Och, en charge des services de traduction chez Google.

Un élément intéressant est l’adaptation au locuteur, point clé de la reconnaissance … or il semble que nos mobiles permettent d’envisager une personnalisation des modèles.

A suivre de près …

Après l’indexation, le sous titrage

Google avait déjà commencé à indexer automatiquement les vidéos de Youtube en utilisant son moteur de reconnaissance de la parole, voilà qu’ils vont jusqu’aux sous-titrage !

Et cela simplifie nettement le travail des internautes. Car le sous-titrage est un travail fastidieux, de création des textes, de post synchronisation avec la vidéo …

Bientôt proposé à grande échelle, cette fonction va ravir nombre d’utilisateurs. A commencer par les malentendants, mais aussi les étrangers, puisque la traduction automatique n’est pas loin. Le service de traduction de Google assurant déjà 51 langues.

Cet outil sera déployé dans les chaînes à vocation éducative. « Nous voulons nous assurer des retours, à la fois des internautes et des propriétaires de contenus, avant de généraliser ce système  » explique Ken Harrenstien, ingénieur à Mountain View.

La démo en images :

Nokia, Microsoft, Google et la reconnaissance vocale

Nokia lance la semaine prochaine un smartphone avec reconnaissance vocale embarquée, le N97 Mini. Ce sera le premier appareil avec les services de commande, recherche, écriture de SMS proposés par Vlingo. Cette offre est déjà proposée sur Nokia Ovi, le portail d’applications, et a été téléchargé par 2 millions d’utilisateurs.

Google change aussi les règles dans la recherche comme le référencement (SEO). Les solutions de reconnaissance vocale sont disponibles sur les OS majeurs (Blackberry, iPhone et Android) et s’appuient fortement sur la géolocalisation. Et devrait bientôt annoncer de nouvelles fonctionnalités pour Square …

Avec Microsoft qui annonce, pour l’Intrepid de Samsung, l’intégration de la recherche vocale avec BING, Google et son Android 2.0, que Verizon met en avant, on voit bien que le mobile commence à tirer le marché des technologies vocales.

Mobile et voix la vraie convergence

Un article de VentureBeat semble avoir beaucoup d’échos outre atlantique. Son titre est évocateur : The next big thing in mobile is … voice ?

Si l’on constate que les applications web et les SMS ont pris le pas sur la voix, que d’autres usages comme twitter connaissent une impressionnante croissance, il n’en demeure pas moins que ces applications ont une durée de vie limitée. La principale difficulté vient des claviers et de nos doigts qui n’ont pas diminués de taille … Et le vrai changement réside plus dans les appareils que dans l’usage des moyens de communication. La parole demeure un média fondamental !

Or l’article de Michael Lambert, directeur marketing de Ditech Networks, constate que les technologies vocales ont fait de réels progrès ces dernières années. Il remarque aussi que le rachat de Jott par Nuance n’est pas plus innocent que l’émergence de Google Voice, de Google Voice Search ou l’implication de Microsoft dans TellMe et dans Vlingo de Yahoo. De nombreuses start-ups arrivent, comme Jingle, Yap!, Ribbit, Digitrad … ou le très controversé Spinvox.

Et la plupart de ces initiatives se concentrent sur des usages simples, centrés sur le besoin et efficaces. De la gestion d’agenda à la recherche d’information, en passant par le contrôle de la musique ou de tout l’appareil comme VoiceOver sur les derniers iPhones.

Mais certains outils étaient encore peu ergonomiques, peu intuitifs, impliquant mal les possibilités de l’opérateur. L’avenir est-il à ce niveau, avec des développements effectués au niveau du réseau, s’affranchissant ainsi des nombreuses différences des appareils … et ouvrant l’accès à tous les terminaux et non aux seuls non smartphones.