Déficit de données pour l’Intelligence artificielle?

intelligence artificielle, IA
Un centre de données. C'est là où réside l'internet qui alimente les intelligences artificielles. Photo: iStock.com/quantic69
Partagez
Tweetez
Envoyez

Publié 10/01/2025 par Agence Science-Presse

Si 2024 a été l’année où l’on a mis le pied sur le frein de l’intelligence artificielle (IA), 2025 pourrait-elle être celle où elle commencera à être en panne de nouvelles données fiables?

Ce serait un problème bien plus lourd de conséquences pour le développement de ces intelligences artificielles génératives comme ChatGPT.

Prédictions de réponses

Parce que pour «entraîner» ces logiciels, on a pu les nourrir jusqu’ici de quantités astronomiques d’informations disponibles sur Internet, et des données en croissance continue.

C’est grâce à elles que ChatGPT et les autres applications du genre peuvent produire des textes ou des images à une vitesse phénoménale. Ces IA génératives ont la capacité de «prédire» une réponse à une question, une séquence de mots ou un pixel, à partir d’une masse de données que l’on met à leur disposition.

Mais même Internet n’est pas infini: et il y a déjà deux ans que des experts ont prédit que l’on atteindrait assez vite ses limites.

Publicité

Le «contenu de haute qualité» utilisable pour alimenter ces applications va être rattrapé en 2026, selon une évaluation sommaire qui avait été pondue en octobre 2022 par un groupe de chercheurs de la firme EpochAI.

Le même groupe a publié en 2024 une estimation plaçant cette limite en 2028. Mais la différence repose sur la définition que l’on donne à «contenu de haute qualité».

Entraîner les IA avec des contenus générés par d’autres IA?

Dans leur dernière estimation, la taille des bases de données utilisées pour entraîner l’IA croît de 100% par année, alors que la taille du contenu «utilisable» sur Internet ne croît que de 10% par année — d’où un «goulot d’étranglement» imminent.

L’une des solutions les plus troublantes serait de continuer à «entraîner» les IA génératives, mais avec des contenus conçus… par d’autres IA génératives.

Or, si l’on est déjà en manque de solutions pour limiter la production de fausses informations par ces IA, on entre dans un territoire encore plus flou si les IA doivent s’alimenter à des contenus créés par des IA.

Publicité

On a peut-être même déjà commencé à entrer dans ce goulot d’étranglement, commentait en décembre, dans la revue Nature, le chercheur Shayne Longpre qui, au Massachusetts Institute of Technology, pilote un projet d’évaluation de la qualité des données utilisées pour alimenter les IA.

Droits d’auteur

Parallèlement, certains propriétaires de ces données disponibles sur Internet — comme les éditeurs de journaux — ont commencé à réclamer des compagnies d’IA qu’elles leur versent des redevances pour l’utilisation de leurs contenus — considérant que ces contenus sont censés rapporter des revenus exponentiels aux compagnies d’informatique.

Le New York Times a été le premier, en décembre 2023, à poursuivre la compagnie OpenAI et son partenaire Microsoft. En avril 2024, huit journaux américains ont déposé une poursuite commune.

Les auteurs de l’évaluation de 2022 prenaient d’ailleurs soin de distinguer le contenu «de qualité», ce qui incluait des livres, des reportages journalistiques, des recherches scientifiques et du code informatique — ces contenus ayant en commun qu’ils sont économiquement coûteux à produire, au contraire d’un texte généré par l’IA.

Contenus médiocres

Il existe aussi des productions de moins bonne qualité, allant des vidéos YouTube à des textes de toute sorte circulant sur des forums Facebook, des messages WhatsApp, etc.

Publicité

La quantité totale de cette autre partie de l’information est difficile à mesurer. Mais les concepteurs d’une intelligence artificielle sur qui le public est censé compter pour obtenir de l’information fiable pourraient hésiter à la laisser être submergée par des contenus de moindre qualité.

Auteur

Partagez
Tweetez
Envoyez
Publicité

Pour la meilleur expérience sur ce site, veuillez activer Javascript dans votre navigateur