Une revue systématique publiée dans Frontiers of Engineering Management (2025) a cartographié la double nature des grands modèles de langage (LLM), les identifiant comme des outils puissants pour l'innovation qui introduisent simultanément des risques significatifs en matière de sécurité et d'éthique. La recherche, menée par une équipe de l'Université Jiao Tong de Shanghai et de l'Université normale de Chine orientale, a analysé 73 articles clés parmi plus de 10 000 documents pour fournir une évaluation complète des menaces allant des cyberattaques aux biais sociaux. Les résultats de l'étude, disponibles via https://doi.org/10.1007/s42524-025-4082-6, soulignent que l'adoption rapide des LLM comme GPT, BERT et T5 dans l'éducation, la santé et la gouvernance numérique nécessite une attention urgente à la fois aux défenses techniques et à la supervision éthique.
La revue catégorise les menaces liées aux LLM en deux domaines principaux : les risques basés sur l'utilisation abusive et les attaques malveillantes ciblant les modèles eux-mêmes. L'utilisation abusive comprend la génération d'e-mails de phishing très fluides, la création automatisée de scripts malveillants, l'usurpation d'identité et la production à grande échelle de fausses informations. Les attaques malveillantes se produisent à la fois au niveau des données/modèles—comme l'inversion, l'empoisonnement et l'extraction de modèles—et au niveau de l'interaction utilisateur via des techniques comme l'injection de prompts et le jailbreaking. Ces méthodes peuvent potentiellement accéder aux données d'entraînement privées, contourner les filtres de sécurité ou contraindre les modèles à produire du contenu nuisible, posant des menaces directes à la sécurité des données et à la confiance du public.
En réponse à ces menaces évolutives, l'étude évalue les stratégies de défense actuelles, qui incluent trois approches techniques principales. Le traitement des paramètres vise à réduire l'exposition aux attaques en supprimant les paramètres redondants du modèle. Le prétraitement des entrées implique de paraphraser les prompts utilisateurs ou de détecter les déclencheurs adverses sans nécessiter de réentraînement du modèle. L'entraînement adversarial, incluant les cadres de red-teaming, simule des attaques pour améliorer la robustesse du modèle. La recherche met également en lumière les technologies de détection comme le tatouage sémantique et les outils tels que CheckGPT, qui peuvent identifier le texte généré par un modèle avec des taux de précision allant jusqu'à 98–99 %. Cependant, les auteurs notent que les défenses retardent fréquemment par rapport au rythme d'évolution des techniques d'attaque, indiquant un besoin pressant de solutions évolutives, rentables et adaptatives multilingues.
Au-delà des garanties techniques, l'étude souligne que la gouvernance éthique est tout aussi critique. Les chercheurs soutiennent que des risques comme l'hallucination des modèles, les biais sociaux intégrés, les fuites de confidentialité et la diffusion de désinformation représentent des défis au niveau sociétal, pas seulement des problèmes d'ingénierie. Pour favoriser la confiance dans les systèmes basés sur les LLM, le développement futur doit intégrer des principes de transparence, de traçabilité vérifiable du contenu et de supervision interdisciplinaire. La mise en œuvre de cadres d'examen éthique, de mécanismes d'audit des jeux de données et d'éducation à la sensibilisation du public est jugée essentielle pour prévenir les abus et protéger les populations vulnérables.
Les implications de cette recherche s'étendent à de multiples secteurs. Des systèmes de défense efficaces pourraient aider à protéger les institutions financières contre les schémas de phishing sophistiqués, réduire la propagation de la désinformation médicale et préserver l'intégrité scientifique. Des techniques comme la traçabilité basée sur le tatouage et le red-teaming pourraient évoluer vers des normes industrielles pour le déploiement responsable des modèles. L'étude conclut que le développement sécurisé et éthique des LLM façonnera fondamentalement l'adoption sociétale de l'intelligence artificielle. Les chercheurs plaident pour des travaux futurs axés sur la gouvernance responsable de l'IA, des cadres réglementaires unifiés, des jeux de données d'entraînement plus sûrs et des rapports de transparence des modèles améliorés. Avec un effort coordonné, les LLM ont le potentiel de mûrir en outils fiables qui soutiennent l'éducation, la santé numérique et les écosystèmes d'innovation tout en minimisant les risques associés à la cybercriminalité et à la désinformation sociale.


