Des outils d'IA accélèrent l'extraction de données expérimentales d'articles scientifiques pour une base de données sur les matériaux

Les scientifiques des matériaux qui développent de nouveaux matériaux fonctionnels pour des technologies comme les smartphones et les automobiles font face à d'importants défis pour prédire les propriétés des matériaux, car les modèles théoriques seuls ne peuvent fournir des prédictions fiables en raison des relations complexes entre la composition, les méthodes de synthèse et les propriétés résultantes. Une équipe dirigée par le Dr Yukari Katsura à l'Institut national japonais de la science des matériaux a développé deux outils d'intelligence artificielle qui accélèrent la construction de Starrydata, une base de données sur les propriétés des matériaux construite à partir de données collectées d'articles scientifiques, leur travail ayant récemment été publié dans la revue Science and Technology of Advanced Materials: Methods.

La recherche aborde un goulot d'étranglement critique en science des matériaux : des millions d'articles scientifiques contiennent des données expérimentales précieuses collectées par des chercheurs précédents, mais une grande partie de cette information reste inexploitée car l'extraction manuelle est chronophage. Le projet Starrydata, lancé par le Dr Katsura en 2015, reposait initialement sur une collecte manuelle de données soutenue par le système web Starrydata2. Les nouveaux outils d'IA rationalisent considérablement ce processus en exploitant des modèles de langage de grande taille comme ChatGPT pour extraire des informations sur les figures, tableaux et échantillons des PDF d'articles dans divers domaines de la science des matériaux.

Le premier outil, Starrydata Auto-Suggestion for Sample Information, est déjà intégré au système web Starrydata2 et fonctionne en lisant le texte des articles et en suggérant des entrées candidates pour les champs de données préconçus pour chaque domaine des matériaux. Lorsque les utilisateurs collent du texte du résumé ou de la section des méthodes expérimentales d'un article, le système l'envoie à GPT d'OpenAI via API et affiche automatiquement les entrées candidates en anglais sous chaque champ de saisie. Cet outil aide à standardiser la saisie des données tout en réduisant le temps que les chercheurs passent à extraire manuellement les informations.

Le deuxième outil, Starrydata Auto-Summary GPT, déconstruit les PDF entiers d'articles en accès libre téléchargés par les utilisateurs et résume automatiquement toutes les descriptions de figures, tableaux et échantillons sous forme de données structurées au format JSON. Générées en utilisant la fonctionnalité GPT personnalisée de ChatGPT, les données résultantes peuvent être visualisées sous forme de tableaux faciles à lire dans les navigateurs web. Bien que ces données ne soient pas actuellement incorporées directement dans la base de données Starrydata, elles accélèrent considérablement le travail des collecteurs de données pour localiser rapidement les informations cibles et les saisir systématiquement. L'équipe note que la lecture des points de données à partir d'images de graphiques reste difficile pour les LLM, donc cette tâche est effectuée par les collecteurs de données à l'aide d'un outil semi-automatisé développé indépendamment.

Le Dr Katsura a expliqué l'importance de cette approche : "Un article est une structure logique assemblée pour transmettre les affirmations de l'auteur, mais en le déconstruisant et en le ramenant à la forme de données expérimentales, d'autres chercheurs peuvent également l'utiliser pour leurs propres recherches." L'équipe vise un avenir où les données expérimentales de tous les domaines de la science des matériaux pourront être partagées numériquement et visualisées d'un point de vue global, permettant aux chercheurs de trouver l'inspiration grâce à des aperçus complets des données et de réaliser des prédictions de propriétés basées sur des tendances empiriques en utilisant l'apprentissage automatique.

Actuellement, Starrydata a progressé dans la construction de bases de données pour des domaines spécifiques de la science des matériaux comme les matériaux thermodélectriques qui convertissent la chaleur et l'électricité, et les aimants. En tant qu'ensemble de données ouvert utilisable pour le développement de nouveaux matériaux, il commence à être utilisé par des chercheurs de premier plan dans le monde entier. La recherche de l'équipe vise à sensibiliser davantage au potentiel des données expérimentales à grande échelle et à établir la collecte de données d'articles comme une forme reconnue de recherche au sein de la communauté scientifique. Les outils ciblent actuellement les articles en accès libre en raison des restrictions des éditeurs sur l'utilisation de l'intelligence artificielle avec les PDF d'articles, avec plus de détails disponibles dans leur article publié à https://doi.org/10.1080/27660400.2025.2590811.

Les implications de cette recherche vont au-delà de la science des matériaux, démontrant comment l'IA peut transformer la gestion des données scientifiques à travers les disciplines. En automatisant l'extraction de données expérimentales enfouies, les chercheurs peuvent construire des bases de données plus complètes qui accélèrent la découverte et l'innovation. Cette approche pourrait éventuellement être appliquée à d'autres domaines scientifiques où des données précieuses restent enfermées dans des articles publiés, révolutionnant potentiellement la façon dont les connaissances scientifiques sont organisées, accessibles et utilisées pour les futures avancées. La revue où cette recherche apparaît, Science and Technology of Advanced Materials: Methods, se concentre sur les méthodes et outils émergents pour améliorer le développement des matériaux, avec plus d'informations disponibles à https://www.tandfonline.com/STAM-M.

Des outils d'IA accélèrent l'extraction de données expérimentales d'articles scientifiques pour une base de données sur les matériaux

L'équipe de rédaction de Burstable.news