IA et conseils médicaux: il y a du chemin à faire

conseils médicaux, intelligence artificielle
L'intelligence artificielle donne de meilleurs conseils médicaux à des patients virtuels qu'à du «vrai monde». Photo: iStock.com/artisteer
Partagez
Tweetez
Envoyez

Publié 22/02/2026 par Agence Science-Presse

Un test mené avec trois applications d’intelligence artificielle pour mesurer la fiabilité de leurs conseils médicaux révèle qu’elles s’en sortent mieux dans les expériences théoriques… que lorsqu’elles interagissent avec de vrais patients.

Un des problèmes étant que les patients ignorent souvent quelles informations ils devraient fournir au robot.

Pour cette étude, parue le 9 février dans Nature Medicine, des chercheurs en santé du Royaume-Uni et en intelligence artificielle des États-Unis ont voulu comparer non pas le simple pourcentage d’erreurs, mais ce qui se produit lorsque de vraies personnes posent leurs questions.

Docteur Google

La recherche est née d’un vieux constat: s’il y a longtemps que des patients effectuent leurs recherches sur Internet avant d’aller voir leur médecin, l’explosion des applications d’IA risque d’amplifier ce phénomène.

Pour ce qui est des gestes à poser, les IA testées sont arrivées dans la majorité des cas aux mêmes conclusions que les participants qui s’étaient contentés d’une recherche Google: c’est-à-dire soit se soigner à la maison, ou prendre rendez-vous avec son médecin, ou se rendre tout de suite à l’hôpital.

Publicité

Mais lorsqu’il s’agissait de diagnostiquer sur la base des symptômes fournis, un écart surgissait: l’IA qui s’en était bien sortie dans les «tests de référence» — c’est-à-dire les tests menés par les médecins avant l’étude proprement dite, pour avoir une base de comparaison — s’en sortait beaucoup moins bien lorsqu’elle était interrogée par un vrai patient.

Moins de la moitié des participants ont correctement identifié la marche à suivre, et à peine le tiers ont identifié correctement le problème médical.

Experts VS vrais patients

L’étude a impliqué 1300 participants, les uns demandant des conseils à l’un des trois larges modèles de langage (GPT-4o, Llama 3, Command R+), et les autres n’utilisant que Google.

Or, cet écart entre les réponses données dans les tests de référence et les réponses données aux patients est inquiétant, écrivent les chercheurs, parce que les évaluations de ces applications portent souvent sur des tests réalisés dans un cadre qu’on peut qualifier de théorique: ils sont réalisés par des experts, et non par du «vrai monde».

Et encore, ajoutent les chercheurs, même cette étude n’est pas parfaite, puisque les 1300 participants se sont fait remettre des scénarios fictifs, en les laissant ensuite interagir librement avec les applications.

Publicité

Le résultat pourrait être différent s’il s’était agi de leur propre santé. Reste que, pour l’instant, aucune des trois applications n’est «prête pour un déploiement dans les soins directs aux patients», concluent les chercheurs sans surprise.

Auteur

Partagez
Tweetez
Envoyez
Publicité

Pour la meilleur expérience sur ce site, veuillez activer Javascript dans votre navigateur