Google lance son modèle d’Intelligence Artificielle le plus grand et le plus performant, Gemini

0
1383

Google a annoncé le lancement de son dernier modèle d’IA le plus puissant, Gemini, disponible en trois tailles.

Les dirigeants ont déclaré mardi que Gemini Pro avait surpassé le GPT-3.5 d’OpenAI, mais ont éludé les questions sur la façon dont il se comparait au GPT-4.

La société prévoit d’octroyer une licence Gemini aux clients via Google Cloud pour qu’ils puissent l’utiliser dans leurs propres applications. Il alimentera également les applications Google AI destinées aux consommateurs, telles que le chatbot Bard et Search Generative Experience.

Le grand modèle linguistique Gemini comprendra une suite de trois tailles différentes : Gemini Ultra, sa catégorie la plus grande et la plus performante ; Gemini Pro, qui s’adapte à un large éventail de tâches ; et Gemini Nano, qu’il utilisera pour des tâches spécifiques et des appareils mobiles.

Pour l’instant, la société prévoit d’octroyer une licence Gemini aux clients via Google Cloud pour qu’ils puissent l’utiliser dans leurs propres applications. À partir du 13 décembre, les développeurs et les entreprises clientes peuvent accéder à Gemini Pro via l’API Gemini dans Google AI Studio ou Google Cloud Vertex AI. Les développeurs Android pourront également construire avec Gemini Nano. Gemini sera également utilisé pour alimenter les produits Google tels que son chatbot Bard et Search Generative Experience, qui tente de répondre aux requêtes de recherche avec un texte de style conversationnel (SGE n’est pas encore largement disponible).

Les entreprises et les entreprises pourraient l’utiliser pour un engagement plus avancé du service client via des chatbots et des recommandations de produits, ainsi que pour identifier les tendances pour les entreprises cherchant à faire de la publicité pour leurs produits. Gemini pourrait également être utilisé pour la création de contenu si une entreprise souhaite créer des campagnes marketing ou du contenu de blog, ainsi que des applications de productivité susceptibles de résumer des réunions ou de générer du code pour les développeurs.

La société a donné des exemples, notamment en montrant que Gemini était capable de prendre une capture d’écran d’un graphique et d’analyser des centaines de pages de recherche, puis de mettre à jour le graphique. Un autre exemple consistait à analyser une photo des devoirs de mathématiques d’une personne, à identifier les réponses correctes et à signaler les réponses incorrectes.

Gemini Ultra est le premier modèle à surpasser les experts humains en matière de MMLU (compréhension massive du langage multitâche), qui utilise une combinaison de 57 matières telles que les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique pour tester à la fois les connaissances du monde et les capacités de résolution de problèmes. a déclaré la société dans un article de blog mercredi. Il est censé comprendre les nuances et le raisonnement sur des sujets complexes.

Sundar Pichai, PDG d’Alphabet Inc., lors de la conférence des développeurs Google I/O à Mountain View, Californie, États-Unis, le mercredi 10 mai 2023. Google a présenté un nouveau modèle de langage à grande échelle, utilisé pour former des outils d’intelligence artificielle tels que chatbots, connu sous le nom de PaLM 2, et a déclaré l’avoir déjà intégré à de nombreux produits phares de la société de recherche sur Internet. Photographe : David Paul Morris/Bloomberg via Getty Images

« Gemini est le résultat d’efforts collaboratifs à grande échelle menés par des équipes de Google, y compris nos collègues de Google Research », a écrit mercredi le PDG Sundar Pichai dans un article de blog. « Il a été conçu dès le départ pour être multimodal, ce qui signifie qu’il peut généraliser et comprendre, fonctionner et combiner de manière transparente différents types d’informations, notamment le texte, le code, l’audio, l’image et la vidéo. »

À partir d’aujourd’hui, le chatbot de Google, Bard, utilisera Gemini Pro pour faciliter le raisonnement, la planification, la compréhension et d’autres fonctionnalités avancées. Au début de l’année prochaine, la société lancera « Bard Advanced », qui utilisera Gemini Ultra, ont déclaré mardi les dirigeants lors d’un appel avec les journalistes. Il représente la plus grande mise à jour de Bard, son chatbot de type ChatGPT.

La mise à jour intervient huit mois après le premier lancement de Bard par le géant de la recherche et un an après qu’OpenAI a lancé ChatGPT sur GPT-3.5. En mars de cette année, la startup dirigée par Sam Altman a lancé GPT-4. Les dirigeants ont déclaré mardi que Gemini Pro a surpassé GPT-3.5 mais a éludé les questions sur sa comparaison avec GPT-4.

Lorsqu’on lui a demandé si Google envisageait de facturer l’accès à « Bard Advanced », la directrice générale de Google pour Bard, Sissie Hsiao, a déclaré que l’entreprise se concentrait sur la création d’une bonne expérience et n’avait pas encore de détails sur la monétisation.

Lorsqu’on lui a demandé lors d’une conférence de presse si Gemini avait de nouvelles capacités par rapport aux LLM de la génération actuelle, Eli Collins, vice-président des produits chez Google DeepMind, a répondu : « Je soupçonne que oui », mais qu’il travaille toujours à comprendre les nouvelles capacités de Gemini Ultra.

Google aurait reporté le lancement de Gemini parce qu’il n’était pas prêt, rappelant le déploiement difficile de ses outils d’IA par l’entreprise au début de l’année.

Plusieurs journalistes ont posé des questions sur le retard, ce à quoi Collins a répondu que les tests des modèles les plus avancés prenaient plus de temps. Collins a déclaré que Gemini est le modèle d’IA le plus testé jamais construit par l’entreprise et qu’il dispose des « évaluations de sécurité les plus complètes » de tous les modèles de Google.

Collins a déclaré que bien qu’il s’agisse de son plus grand modèle, Gemini Ultra est nettement moins cher à entretenir. « Ce n’est pas seulement plus performant, c’est plus efficace », a-t-il déclaré. « Nous avons encore besoin de calculs importants pour former Gemini, mais nous devenons beaucoup plus efficaces en termes de capacité à former ces modèles. »

Collins a déclaré que la société publierait mercredi un livre blanc technique contenant plus de détails sur le modèle, mais a déclaré qu’elle ne publierait pas le décompte du périmètre. Plus tôt cette année, CNBC a découvert que le grand modèle de langage PaLM 2 de Google, son dernier modèle d’IA à l’époque, utilisait près de cinq fois plus de données textuelles pour la formation que son prédécesseur LLM.

Mercredi également, Google a présenté son unité de traitement tensoriel de nouvelle génération pour la formation de modèles d’IA. La puce TPU v5p, que Salesforce  et la startup Lightricks ont commencé à l’utiliser, offre de meilleures performances pour le prix que le TPU v4 annoncé en 2021, a déclaré Google. Mais la société n’a pas fourni d’informations sur les performances par rapport au leader du marché Nvidia.

Lors de la conférence téléphonique sur les résultats du troisième trimestre de Google en octobre, les investisseurs ont posé davantage de questions aux dirigeants sur la manière dont l’IA allait transformer l’IA en profit réel.

En août, Google a lancé une « première expérience » appelée Search Generative Experience, ou SGE, qui permet aux utilisateurs de voir à quoi ressemblerait une expérience d’IA générative lors de l’utilisation du moteur de recherche – la recherche reste un centre de profit majeur pour l’entreprise. Le résultat est plus conversationnel, reflétant l’ère des chatbots. Cependant, il est encore considéré comme une expérience et n’a pas encore été lancé auprès du grand public.

Les investisseurs demandent un calendrier pour SGE depuis mai, lorsque la société a annoncé pour la première fois l’expérience lors de sa conférence annuelle des développeurs Google I/O. L’annonce de Gemini mercredi mentionnait à peine SGE et les dirigeants étaient vagues sur ses projets de lancement auprès du grand public, affirmant que Gemini y serait incorporé « au cours de l’année prochaine ».

« Cette nouvelle ère de modèles représente l’un des plus grands efforts scientifiques et techniques que nous ayons entrepris en tant qu’entreprise », a déclaré Pichai dans le blog de mercredi. «Je suis vraiment enthousiasmé par ce qui nous attend et par les opportunités que Gemini offrira aux gens du monde entier.»

Source : https://www.cnbc.com/2023/12/06/google-launches-its-largest-and-most-capable-ai-model-gemini.html

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.