Une nouvelle étude met en doute la fiabilité de ChatGPT

Temps de lecture : 2 minutes environ

·

Publié le 20 juillet 2023

·

Par Cyril Cyril

L'inconsistance dans la précision des réponses délivrées par les versions actuelles de ChatGPT met en lumière un enjeu majeur dans le domaine de l'intelligence artificielle. Une étude récente réalisée par les universités Stanford et Berkeley soulève des questions pertinentes, d'autant plus qu'elle révèle un déclin notable dans la qualité des générations de textes entre mars et juin dernier.

Une nouvelle étude met en doute la fiabilité de ChatGPT

Évaluation comparative des réponses ChatGPT

Dans le cadre de leurs travaux, les chercheurs ont évalué les réponses fournies par ChatGPT-4 et ChatGPT-3.5, tant sur leur véracité que leur pertinence. Quatre types de questions, ou prompts, ont été présentés aux versions AI : résoudre des équations mathématiques, répondre à des questions liées à des sujets sensibles, générer des codes de programmation et répondre à des problèmes nécessitant un raisonnement visuel.

Fluctuation de la qualité de réponse

Il semblerait que, dans chaque cas, la qualité des résultats a subi des fluctuations, quelques fois extrêmes. Par exemple, la faculté de ChatGPT-4 à identifier correctement les nombres premiers a connu une chute drastique, passant de 97,6% à seulement 2,4% de réponses exactes. De son côté, ChatGPT-3.5 a vu une amélioration marquée, passant de 7,4% à 86,8% d'exactitude dans les réponses.

Opacité du code et baisses notables

L'une des observations les plus frappantes de cette étude concerne l'opacité du code des intelligences artificielles utilisées. Effectivement, le manque de transparence empêche d'obtenir une compréhension claire de l'évolution du comportement de ces modèles AI.

ChatGPT-4 : une réticence à répondre aux questions sensibles

ChatGPT-4 a également montré une réticence accru à répondre à des questions sensibles, son taux de réponse passant de 21% à 5%. À cela s'ajoute une diminution significative dans la génération de code, avec une augmentation des erreurs dans les codes proposés par ces deux IA. Une baisse de 42 points a été enregistré pour ChatGPT-4 (de 52% de codes fonctionnels en mars à 10% en juin) et de 20 points pour ChatPDT-3.5 (de 22% à 2%).

Surveillance soutenue des IA requise

Cette étude met en lumière les fluctuations non négligeables dans le rendement des versions les plus utilisées de ChatGPT sur une courte période. Il semble donc essentiel que la communauté scientifique continue de surveiller de près ces intelligences artificielles afin de garantir leur efficacité et leur fiabilité.

Cyril

Article écrit avec passion par Cyril

Au cœur de Maeko, je navigue dans l'océan infini de l'IA générative. Cyril à la barre, je hisse les voiles vers ChatGPT et d'autres horizons numériques. Lorsque je jette l'ancre, c'est dans un bon livre de science-fiction, mon refuge.

Plus d'articles à lire

Newsletter

Recevez les prochains articles par email

1 email / semaine maximum, aucun spam

ou abonnez-vous sur Google Actualités

Partager :