Qu’attendez-vous de plus d’IA dans les applications Google ?

advertisment

“Si j’avais demandé aux gens ce qu’ils voulaient, ils auraient dit des chevaux plus rapides.” Ce sentiment, ainsi que des dérivés tels que “les gens ne savent pas ce qu’ils veulent tant que vous ne le leur avez pas montré”, rend difficile la prédiction de l’avenir de la technologie car il faut une innovation pour changer complètement le paradigme. C’est particulièrement le cas pour la prochaine vague de fonctionnalités d’IA pour les applications Google nouvelles et existantes.

Une fausse idée

advertisment

Google n’a pas été aveuglé par ce qui est à venir. La société a publiquement parlé de la compréhension du langage naturel (NLU) et des grands modèles de langage (LLM) lors des deux dernières conférences de développeurs d’E/S, son plus grand événement chaque année. Il y avait un modèle de langage pour les applications de dialogue en 2021 avec une démo parlant à Pluto, et LaMDA 2 l’année dernière avec la possibilité de faire une démonstration via l’application AI Test Kitchen.

Il y a aussi le modèle unifié multitâche (MUM) qui peut un jour répondre “J’ai parcouru le mont Adams et je veux maintenant faire la randonnée du mont Fuji l’automne prochain, que dois-je faire différemment pour me préparer ?” et la possibilité future de prendre une photo d’une pièce de vélo cassée dans Google Lens et d’obtenir des instructions sur la façon de la réparer.

Au-delà des détails sur sa technologie, Sundar Pichai a déclaré de manière plus révélatrice que “les capacités de conversation naturelles ont le potentiel de rendre l’information et l’informatique radicalement plus accessibles et plus faciles à utiliser”. La recherche, l’assistant et l’espace de travail ont été spécifiquement nommés comme des produits où Google espère “[incorporate] de meilleures fonctionnalités conversationnelles.

Cependant, comme le prouvent les discours récents, cela n’a pas suffi à faire en sorte que les gens se souviennent. Au lieu de cela, Google est coupable de ne pas fournir d’exemples plus spécifiques qui ont capturé la conscience du public de la façon dont ces nouvelles fonctionnalités d’IA bénéficieraient aux produits qu’ils utilisent au quotidien.

Là encore, même si des exemples plus concrets avaient été fournis en mai 2022, cela aurait été rapidement accéléré par le lancement de ChatGPT plus tard cette année-là. La démo / le produit OpenAI est disponible à l’utilisation (et au paiement) aujourd’hui, et il n’y a rien de plus tangible que l’expérience. Cela a suscité de nombreuses discussions sur la façon dont les réponses directes pourraient avoir un impact sur le modèle commercial basé sur la publicité de Google, l’idée étant que les utilisateurs n’auraient plus besoin de cliquer sur des liens s’ils obtenaient déjà la réponse sous forme de phrase générée et résumée.

Ce que Google a été aveuglé, c’est la vitesse à laquelle les concurrents ont intégré ces nouvelles avancées de l’IA dans les applications d’expédition. Compte tenu du “code rouge”, il est évident que l’entreprise ne pensait pas qu’elle aurait à déployer quoi que ce soit au-delà des démos si tôt. Les problèmes de sécurité et de précision sont quelque chose que Google a explicitement souligné avec ses aperçus existants, et les dirigeants sont très rapides pour souligner comment ce qui est sur le marché aujourd’hui “peut inventer des trucs”, ce qui nuirait à la réputation s’il se lançait jamais sur quelque chose à l’échelle de Recherche Google.

Qu’est-ce qui s’en vient

En annonçant des licenciements, une fuite du New York Times est apparue le même jour décrivant plus de 20 produits d’IA que Google prévoyait de présenter cette année, dès l’I/O 2023 en mai.

Ces annonces, vraisemblablement dirigées par un “moteur de recherche avec des fonctionnalités de chatbot”, semblent tout à fait destinées à correspondre à OpenAI bout à bout. Particulièrement révélateur est un “Image Generation Studio” qui ressemble à un concurrent DALL-E, Stable Diffusion et Midjourney, avec un créateur de fond d’écran Pixel qui en est peut-être une branche. Bien sûr, Google pataugera directement dans le contrecoup des artistes que les IA d’image génératives ont entraîné.

Outre la recherche (plus sur cela plus tard), rien de ce qui a été divulgué ne semble changer radicalement la façon dont un utilisateur moyen interagit avec les produits Google. Bien sûr, cela n’a jamais été l’approche de Google, qui a été d’infuser des produits existants – ou même seulement des parties d’entre eux – avec de petites commodités au fur et à mesure que la technologie devient disponible.

Il y a Smart Reply dans Gmail, Google Chat et Messages, tandis que Smart Compose dans Docs et Gmail n’écrit pas tout à fait l’e-mail pour vous, mais les suggestions de saisie semi-automatique sont vraiment utiles.

Sur Pixel, il y a Call Screen, Hold for Me, Direct My Call et Clear Calling où l’IA est utilisée pour améliorer les cas d’utilisation des touches d’origine d’un téléphone, tandis que la reconnaissance vocale sur l’appareil permet un excellent enregistreur et un assistant plus rapide. Bien sûr, il y a aussi la photographie informatique et maintenant Magic Eraser.

Cela ne veut pas dire que Google n’a pas utilisé l’IA pour créer des applications et des services entièrement nouveaux. Google Assistant est le résultat des progrès de la compréhension du langage naturel, tandis que la vision par ordinateur qui rend possible la recherche et la catégorisation dans Google Photos est quelque chose que nous tenons pour acquis plus de sept ans plus tard.

Plus récemment, il y a Google Lens pour rechercher visuellement en prenant une photo et en y ajoutant des questions, tandis que Live View dans Google Maps fournit des directions AR.

Ensuite, il y a la recherche et l’IA

Post-ChatGPT, les gens imaginent un moteur de recherche où vos questions sont directement répondues par une phrase qui a été entièrement générée pour vous/cette requête, ce qui est en comparaison avec l’obtention de liens ou l’affichage d’un “extrait en vedette” qui cite un site Web pertinent qui pourrait avoir la réponse.

En regardant l’industrie, j’ai l’impression d’être minoritaire dans mon manque d’enthousiasme pour les expériences de conversation et les réponses directes.

Un problème avec l’expérience que je prévois n’est pas toujours (ou même fréquemment) de vouloir lire une phrase complète pour obtenir une réponse, surtout si elle peut être trouvée en lisant simplement une ligne dans un panneau de connaissances ; qu’il s’agisse d’une date, d’une heure ou d’un autre fait simple.

En attendant, il faudra du temps pour faire confiance aux capacités de génération et de synthèse de la recherche de chatbot de n’importe quelle entreprise. Au moins, les extraits en vedette me permettent de voir immédiatement et de décider si je fais confiance à la publication/source qui produit la citation.

À bien des égards, cette phrase directe est ce que les assistants intelligents attendaient, Google Assistant se tournant aujourd’hui vers des faits (dates, adresses, etc.) qu’il connaît déjà (panneaux de connaissances/graphique) et des extraits de fonctionnalités autrement. Lorsque vous interagissez avec la voix, il est prudent de supposer que vous ne pouvez pas regarder facilement un écran et que vous voulez une réponse immédiate.

Je suis conscient que l’histoire de la technologie est jonchée de mises à jour itératives qui sont piétinées en peu de temps par de nouvelles innovations qui changent la donne, mais je n’ai pas encore l’impression que la technologie est là. Je repense aux premiers jours des assistants vocaux qui essayaient explicitement de reproduire des humains dans une boîte. Cette prochaine vague d’IA a des nuances de se rapprocher d’un humain répondant à votre question ou faisant une tâche pour vous, mais combien de temps cette nouveauté dure-t-elle ?

FTC : Nous utilisons des liens d’affiliation automatique générateurs de revenus. Suite.


Découvrez 9to5Google sur YouTube pour plus d’informations :

advertisment

Leave a Comment