Communiqué de presse

Applied AI Lab Newsletter #1 : Comment l’IA façonnera l’avenir – Un regard vers 2024 et au-delà.

Par 5 décembre 2023#!29jeu, 01 Fév 2024 03:35:16 +0000Z1629#29jeu, 01 Fév 2024 03:35:16 +0000Z-3+00:002929+00:00202429 01h29am-29jeu, 01 Fév 2024 03:35:16 +0000Z3+ 00:002929+00:002024292024jeu, 01 Fév 2024 03:35:16 +0000353352amjeudi=273#!29jeu, 01 Fév 2024 03:35:16 +0000Z+00:002#février 1er, 2 024#!29jeu, 01 Février 2024 03:35 : 16 +0000Z1629#/29jeu, 01 février 2024 03:35:16 +0000Z-3+00:002929+00:00202429#!29jeu, 01 février 2024 03:35:16 +0000Z+00:002#Sans commentaires

Découvrez les dernières connaissances et avancées dans le domaine de l'intelligence artificielle appliquée en vous plongeant dans la newsletter de Laboratoire d'IA appliquée Verysell. Découvrez l’avenir de l’innovation et gardez une longueur d’avance dans le domaine des technologies de pointe.

Avant-propos

2023 a été l'une des années les plus passionnantes pour assister à la percée de la technologie de l'IA et de l'IA générative en particulier, avec la popularité croissante de ChatGPT (Generative Pretrained Transformer) et LLM (Large Language Models). Cela est dû à sa capacité impressionnante à comprendre les langages humains et à prendre des décisions qui imitent remarquablement l’intelligence humaine.

L’IA générative et le grand modèle de langage en plein essor

ChatGPT a atteint le cap sans précédent d'un million d'utilisateurs en cinq jours. Depuis, les géants de la Big Tech se sont rapidement lancés dans la course, en lançant des dizaines de LLM à la fois open source et propriétaires, tels que LaMDA (Google AI), Megatron-Turing NLG (NVIDIA), PaLM (Google AI), Llama-2 ( Meta AI), Bloom (Hugging Face), Wu Dao 2.0 (Académie d'intelligence artificielle de Pékin), Jurassic-1 Jumbo (AI21 Labs) et Bard (Google AI), etc.

Parallèlement à la course aux géants de la Big Tech, l'adoption de ChatGPT et des LLM dans les entreprises se développe rapidement. Selon le rapport Master of Code Global «Statistics of ChatGPT & Generative AI in business: 2023 Report», 49% des entreprises utilisent actuellement ChatGPT, tandis que 30% ont l'intention de l'utiliser à l'avenir. Un autre rapport de Forbes suggère que 701 TP3T d'organisations explorent actuellement l'IA générative, qui inclut les LLM. Cela suggère que les LLM gagnent du terrain dans le monde de l’entreprise et que de plus en plus d’entreprises voient le potentiel de cette technologie pour révolutionner leurs activités.

Notre scientifique en chef en IA, Dr Dao Huu Hung, offre un aperçu de l'avenir passionnant de l'IA et de son impact sur les entreprises et la société.


1. IA générative multimodale

Bien que ChatGPT et la plupart des autres LLM aient démontré des performances supérieures dans la compréhension du langage humain (sous forme de texte), le texte n'est qu'un type de données modales que les êtres humains perçoivent chaque jour. Cependant, les données multimodales sont omniprésentes dans le monde réel, car les humains communiquent et interagissent souvent avec tous les types d’informations, notamment les images, l’audio et la vidéo. Les données multimodales posent également des défis importants pour les systèmes d'intelligence artificielle (IA), tels que l'hétérogénéité des données, l'alignement des données, la fusion des données, la représentation des données, la complexité des modèles, le coût de calcul et les mesures d'évaluation. La communauté de l’IA choisit donc souvent de traiter avec succès les données unimodales, avant de s’attaquer aux données plus complexes.

IA générative multimodale

Inspirée par l'énorme succès des LLM, la communauté de l'IA a créé de grands modèles multimodaux (LMM) capables d'atteindre des niveaux similaires de généralité et d'expressivité dans le domaine multimodal. Les LMM peuvent exploiter d’énormes quantités de données multimodales et effectuer diverses tâches avec une supervision minimale. L'intégration des autres modalités dans les LLM crée des LMM qui résolvent de nombreuses tâches difficiles impliquant du texte, des images, de l'audio, des vidéos, etc., telles que le sous-titrage d'images, la réponse visuelle à des questions et l'édition d'images à l'aide de commandes en langage naturel, etc.

GPT-4V et LLaVA-1.5

OpenAI a été pionnier dans le développement de GPT-4V, la version multimodale améliorée du modèle GPT-4 qui peut comprendre et générer des informations à partir d'entrées de texte et d'images. GPT-4V peut effectuer diverses tâches, telles que générer des images à partir de descriptions textuelles, répondre à des questions sur les images et éditer des images avec des commandes en langage naturel.

LLaVA-1.5
: Il s'agit d'un modèle capable de comprendre et de générer des informations à partir de texte et d'images. Il peut effectuer des tâches telles que répondre à des questions sur les images, générer des légendes pour les images et éditer des images avec des commandes en langage naturel. Alpaca-LoRA : Il s'agit d'un modèle qui peut effectuer diverses tâches en langage naturel en fournissant des instructions ou des invites en langage naturel.

Adept, quant à lui, vise une ambition plus grande : créer un modèle d’IA capable d’interagir avec tout ce qui se trouve sur votre ordinateur. « Adept construit une toute nouvelle façon de faire avancer les choses. Il prend vos objectifs, en langage simple, et les transforme en actions sur le logiciel que vous utilisez quotidiennement. Ils pensent que les modèles d’IA lisant et écrivant du texte sont toujours utiles, mais que ceux qui utilisent des ordinateurs comme des êtres humains sont encore plus précieux pour les entreprises.

Cela stimule la course entre les grandes entreprises technologiques pour proposer de grands modèles multimodaux. Il faudra quelques années pour que les LMM atteignent les mêmes niveaux que les LLM actuels.


2. Générer ou exploiter de grands modèles de fondation

Produire des applications d’IA pour de nombreuses tâches diverses n’a jamais été aussi simple et efficace qu’auparavant. Si nous souhaitons créer une application d'analyse des sentiments, par exemple, il y a plusieurs années, la mise en œuvre du POC avec des ensembles de données internes et publics peut prendre quelques mois. Il faut également quelques mois pour déployer les modèles d'analyse des sentiments dans le système de production. Désormais, les LLM facilitent le développement de telles applications en quelques jours, en formulant simplement une invite permettant aux LLM d'évaluer un texte comme positif, neutre ou négatif.

Grands modèles de fondation en IA

Dans le domaine de la vision par ordinateur, les techniques d'invite visuelle, introduites par Landing AI, exploitent également la puissance des modèles de grande vision (LVM) pour résoudre diverses tâches de vision, telles que la détection d'objets, la reconnaissance d'objets, la segmentation sémantique, etc. utilise des repères visuels, tels que des images, des icônes ou des motifs, pour reprogrammer un modèle de grande vision pré-entraîné pour une nouvelle tâche en aval. Les invites visuelles peuvent réduire le besoin d’étiquetage approfondi des données et de formation de modèles et permettre un déploiement plus rapide et plus facile des applications de vision par ordinateur.

La génération de Large Foundation Models (LFM) pré-entraînés, y compris les LLM et LVM, nécessite non seulement une expertise en IA, mais également un énorme investissement dans l'infrastructure, c'est-à-dire un lac de données et des serveurs informatiques. Par conséquent, la course à la création de LFM préformés parmi les grandes entreprises technologiques cette année se poursuivra en 2024 et dans les années à venir. Certains sont propriétaires mais beaucoup d’autres sont open source, offrant ainsi diverses alternatives aux entreprises. Pendant ce temps, les petites et moyennes entreprises (PME) et les start-ups d’IA seront les principales forces pour réaliser les publicités des LFM. Ainsi, ils se concentreront principalement sur la création d’applications LFM.


3. Concept d'agent dans l'IA générative

Concept d'agent dans l'IA générative

Le concept d'agent est une nouvelle tendance de l'IA générative qui a le potentiel de révolutionner la façon dont nous interagissons avec les ordinateurs. Les agents sont des modules logiciels qui peuvent lancer des sessions de manière autonome ou semi-autonome (dans ce cas, des modèles de langage et d'autres sessions liées au flux de travail) selon les besoins pour poursuivre un objectif. L’un des principaux avantages de l’utilisation d’agents est qu’ils peuvent automatiser de nombreuses tâches actuellement effectuées par des humains. Cela peut permettre aux humains de se concentrer sur des tâches plus stratégiques et créatives. Les agents peuvent être conçus pour être plus conviviaux et plus faciles à utiliser que les outils d'IA générative traditionnels, rendant l'IA générative plus accessible à un plus large éventail d'utilisateurs.

Voici quelques-unes des tendances du concept d’agent dans l’IA générative :

  • Utilisation accrue d’agents pour automatiser les tâches : À mesure que l’IA générative devient plus puissante et sophistiquée ; nous pouvons nous attendre à voir une plus grande utilisation d’agents pour automatiser les tâches actuellement effectuées par des humains. Par exemple, les agents peuvent être utilisés pour automatiser le processus de création et de déploiement de modèles d'IA.
  • Utilisation accrue d’agents pour rendre l’IA générative plus accessible : À mesure que les agents deviennent plus conviviaux et plus faciles à utiliser, nous pouvons nous attendre à une plus grande utilisation des agents pour rendre l’IA générative plus accessible à un plus large éventail d’utilisateurs. Cela pourrait conduire à une nouvelle vague d’innovation, car de plus en plus de personnes pourront utiliser l’IA générative pour créer de nouveaux produits et services.
  • Développement de nouveaux outils et plateformes d'IA générative basés sur des agents : À mesure que le concept d’agent devient plus populaire, nous pouvons nous attendre à voir le développement de nouveaux outils et plates-formes d’IA générative basés sur des agents. Ces outils et plates-formes permettront aux développeurs de créer et de déployer plus facilement des applications d'IA générative basées sur des agents.

Voici quelques exemples spécifiques de la façon dont le concept d’agent est utilisé aujourd’hui dans l’IA générative :

  • Outils d'IA générative basés sur des agents : Il existe actuellement un certain nombre d’outils d’IA générative basés sur des agents. Par exemple, Auto-GPT et BabyAGI sont deux outils qui permettent aux utilisateurs de créer et de déployer des applications d'IA générative basées sur des agents.
  • Plateformes d'IA générative basées sur des agents : Il existe également un certain nombre de plates-formes d'IA générative basées sur des agents qui sont actuellement disponibles. Par exemple, la plateforme AI de Google et la plateforme SageMaker d'Amazon Web Services permettent toutes deux aux utilisateurs de déployer et de gérer des applications d'IA générative basées sur des agents.
  • Applications d'IA générative basées sur des agents : Il existe un certain nombre d’applications d’IA générative basées sur des agents qui sont actuellement utilisées. Par exemple, les applications d'IA générative basées sur des agents sont utilisées pour créer de nouveaux produits et services, automatiser des tâches et rendre l'IA générative plus accessible à un plus large éventail d'utilisateurs.

Dans l’ensemble, le concept d’agent constitue une tendance nouvelle et prometteuse dans l’IA générative. Il est utilisé pour développer de nouveaux outils, plates-formes et applications qui ont un impact significatif sur diverses industries.


4. L'IA à la périphérie

L'IA à la périphérie

L'IA « de pointe » est un domaine compétitif et en croissance rapide qui implique le déploiement de modèles d'IA sur des appareils tels que des ordinateurs portables, des smartphones, des caméras, des drones, des robots et des capteurs. À mesure que les applications d’IA continuent d’évoluer, la tendance à rapprocher le traitement de l’IA de la source de données a pris un essor considérable. Il existe une concurrence entre les grandes entreprises technologiques et les fabricants de puces pour réaliser des applications d'IA avec des appareils rentables dans notre utilisation quotidienne sans recourir aux serveurs cloud, ce qui peut améliorer la vitesse, la confidentialité, la sécurité et l'efficacité énergétique.

NVIDIA a été un pionnier de l'IA de pointe avec sa plateforme Jetson puissante et polyvalente. Grâce à leurs investissements massifs dans la technologie GPU hautes performances au début de l'apprentissage profond, ils entretiennent des relations solides avec les entreprises et les fournisseurs de cloud, par exemple Amazon Web Service, Microsoft Azure, Google Cloud Platform, etc. Plus important encore, NVIDIA propose une large gamme de services. des écosystèmes logiciels et des outils tels que TensorRT et Deepstream, qui aident les développeurs à développer et à accélérer efficacement des modèles d'IA. Bien que le coût du GPU de NVIDIA soit souvent plus élevé que celui de ses concurrents, il reste courant dans la communauté de l'IA.

Il existe un certain nombre de concurrents proposant des alternatives moins chères et encore plus rapides à Jetson. Le Google Edge TPU est un ASIC conçu sur mesure et optimisé pour exécuter des modèles TensorFlow Lite en périphérie. L'Intel Movidius Myriad X est une unité de traitement de vision (VPU) conçue pour exécuter des applications d'IA en périphérie. Le MPSoC Xilinx Zynq UltraScale+ est un système sur puce (SoC) polyvalent qui contient un FPGA et un processeur ARM. Le NXP i.MX 8M Plus est un SoC qui contient un processeur ARM et une unité de traitement neuronal (NPU). Le Qualcomm Snapdragon 865 est un SoC mobile contenant un NPU. Ils se sont concentrés sur la conception du matériel, les écosystèmes logiciels et les outils permettant aux développeurs d'utiliser efficacement leur matériel. La concurrence sera rude dans les années à venir.

Apple s'est lancé dans ce domaine en concevant des puces pour ses propres produits, notamment les ordinateurs portables et les appareils mobiles. La puce M1 dispose d'un moteur neuronal à 16 cœurs capable d'effectuer jusqu'à 11 000 milliards d'opérations par seconde. Bien que la puce M2 dispose d'un moteur neuronal à 10 cœurs, elle peut exécuter 35% plus rapidement que M1. Cela le rend idéal pour exécuter des modèles d’IA pour des tâches telles que la reconnaissance d’images, le traitement du langage naturel et l’apprentissage automatique. La puce A16 Bionic d'Apple, utilisée dans les iPhone 14 et iPhone 14 Pro, est encore plus puissante que la puce M1. Il dispose d'un moteur neuronal à 16 cœurs capable d'effectuer jusqu'à 17 000 milliards d'opérations par seconde. La puce A17 de l’iPhone 15 pro peut exécuter 20% plus rapidement avec seulement un GPU à 6 cœurs.

Qualcomm devrait lancer Snapdragon Elite Gen 3 début 2024, basé sur un processus 4 nm. Son moteur IA est deux fois plus rapide que la génération précédente. Il peut exécuter jusqu’à 15 000 milliards d’opérations par seconde (TOPS) sur l’IA Benchmark. Il peut exécuter un large éventail de modèles d’IA, notamment des modèles de reconnaissance d’images, de traitement du langage naturel et d’apprentissage automatique. Il peut également exécuter plusieurs modèles d’IA simultanément. Les puces Qualcomm et Apple peuvent exécuter des modèles d'IA à faible consommation d'énergie. Ainsi, on s’attend à ce que nous assistions à une concurrence croissante dans le domaine des appareils d’IA de pointe en 2024 et au-delà.



A propos de l'auteur

Ha Nguyen

Auteur Ha Nguyên

Ha Nguyen occupe le poste de responsable marketing chez SmartDev - une société du groupe Verysell, jouant un rôle essentiel dans la coordination des diverses marques au sein du groupe. Avec une profonde passion pour la technologie et une foi inébranlable en son pouvoir de transformation, elle se consacre à tirer parti des stratégies de marketing et de marque pour maximiser l'impact des solutions axées sur la technologie offertes par le groupe Verysell.

Plus de messages par Ha Nguyên

Laisser un commentaire

fr_FR