Accueil » Blog » Génération de code à l’aide de grands modèles de langage : 62 % du code généré contient des erreurs d’API

Génération de code à l’aide de grands modèles de langage : 62 % du code généré contient des erreurs d’API

Des Erreurs Qui auraient des conséquences inattendues si le code était introduit dans un logiciel réel

Récemment, les grands modèles de langage (LLM) ont montré une capacité extraordinaire à comprendre le langage naturel et à générer du code de programmation. Les ingénieurs logiciels ont l’habitude de consulter les LLM lorsqu’ils sont confrontés à des questions de codage. Bien que des efforts aient été faits pour éviter les erreurs de syntaxe et aligner le code sur la sémantique prévue, la fiabilité et la robustesse de la génération de code à partir des LLM n’ont pas encore fait l’objet d’une étude approfondie.

La mauvaise utilisation des API dans le code généré pourrait conduire à des problèmes graves, tels que les fuites de ressources, les plantages de programme. Les utilisateurs des services de génération de code LLM sont en fait les développeurs qui sont les plus vulnérables à ce code qui semble correct. Ce sont toujours des développeurs novices qui ne sont pas familiers avec les API que les LLM génèrent du code pour eux. Par conséquent, ils peuvent difficilement détecter les abus dans le code généré par les LLM, ce qui facilite davantage l’application de codes incorrects dans les logiciels du monde réel. Les repères et les ensembles de données d’évaluation de code existants se concentrent sur l’élaboration de petites tâches telles que les questions de programmation dans les entretiens de codage, ce qui s’écarte toutefois du problème des développeurs qui demanderaient au LLM une aide au codage dans le monde réel.

https://www.youtube.com/embed/5JpPo-NOq9s?wmode=transparent&fs=1
Pour combler cette lacune, Li Zhong et Zilong Wang proposent dans leur travail un ensemble de données RobustAPI pour évaluer la fiabilité et la robustesse du code généré par les LLM. Ils ont recueilli 1208 questions de codage de StackOverflow sur 24 API Java représentatives. Ils ont résumé les schémas d’utilisation abusive courants de ces API et les évaluons sur des LLM courants et populaires. Les résultats de l’évaluation montrent que même pour GPT-4, 62% du code généré contient des abus d’API, ce qui entraînerait des conséquences inattendues si le code était introduit dans un logiciel réel.

Vous pourrez trouver les détails de leur étude dans le lien source.

Source : “A Study on Robustness and Reliability of Large Language Model Code Generation”

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *