L'Institut national de la science des matériaux (NIMS) a développé Research Data Express (RDE), un système de gestion des données conçu pour automatiser le traitement des données expérimentales et créer des ensembles de données prêts pour l'IA dans la recherche sur les matériaux. Publié dans Science and Technology of Advanced Materials: Methods, ce système répond à des défis majeurs dans un domaine où la recherche génère d'énormes quantités de données qui existent souvent dans des formats spécifiques aux fabricants avec une terminologie incohérente, rendant l'agrégation, la comparaison et la réutilisation difficiles.
La recherche traditionnelle sur les matériaux oblige les chercheurs à consacrer un temps considérable à des tâches fastidieuses telles que la conversion de format, l'attribution de métadonnées et l'extraction de caractéristiques. Ces étapes supplémentaires découragent fréquemment le partage des données, entravant ainsi les progrès du travail basé sur les données. Le problème est devenu de plus en plus aigu alors que le domaine s'appuie davantage sur la découverte de matériaux pilotée par l'IA, qui exige des ensembles de données standardisés de haute qualité. RDE interprète automatiquement les données expérimentales à partir de fichiers bruts et de mesures saisies manuellement, puis restructure et stocke ces informations dans un format avec une lisibilité améliorée.
« RDE réduit considérablement la charge du traitement de données de routine pour les chercheurs et améliore la découvrabilité, l'interopérabilité, la réutilisabilité (les principes FAIR) et la traçabilité des données », explique Jun Fujima, auteur correspondant et chercheur à la Plateforme de données sur les matériaux du NIMS. « Nous espérons que cela favorisera la recherche collaborative sur les matériaux basée sur les données. » L'innovation principale du système est son approche « Modèle d'ensemble de données », qui définit et dirige la manière dont les données provenant de différents types d'expériences doivent être traitées, plutôt que de simplement définir des formats de données.
Par exemple, lorsque les chercheurs téléchargent des feuilles de calcul de mesures par rayons X provenant de différentes sources, le Modèle d'ensemble de données peut être configuré pour les interpréter. Le système effectue ensuite automatiquement des analyses avancées et crée des visualisations pour fournir des aperçus immédiats. Plusieurs modèles peuvent être préparés pour différents thèmes de recherche sur les matériaux, permettant une flexibilité maximale dans la gestion des données. Les chercheurs individuels peuvent également préparer facilement des modèles personnalisés lorsque cela est nécessaire. De nombreux modèles ont déjà été préparés et partagés entre les utilisateurs via le système.
« L'approche unique de RDE permet aux chercheurs de définir librement des structures de données adaptées à leurs instruments, tout en permettant au système d'effectuer automatiquement une structuration massive des données et l'extraction de métadonnées », déclare Fujima. Depuis son lancement en janvier 2023, RDE a démontré une évolutivité significative avec une adoption généralisée dans la communauté japonaise de recherche sur les matériaux. Le système compte actuellement plus de 5 000 utilisateurs, avec plus de 1 900 Modèles d'ensemble de données pour diverses méthodes expérimentales implémentées, plus de 16 000 ensembles de données créés et plus de trois millions de fichiers de données accumulés.
RDE sert d'infrastructure de données pour des initiatives nationales majeures, y compris l'initiative de Plateforme DX pour la recherche sur les matériaux promue par le ministère japonais de l'Éducation, de la Culture, des Sports, des Sciences et de la Technologie. Pour encourager une utilisation plus large au sein de la communauté de recherche, l'équipe du NIMS a publié une boîte à outils logicielle open-source appelée RDEToolKit. L'article de recherche détaillant le système est disponible à l'adresse https://doi.org/10.1080/27660400.2025.2597702, et des informations supplémentaires sur la revue peuvent être trouvées à l'adresse https://www.tandfonline.com/STAM-M.
Le développement de RDE représente une avancée significative dans l'infrastructure de la science des matériaux, pouvant potentiellement accélérer les processus de découverte en réduisant les charges de traitement des données et en facilitant la collaboration. En créant des ensembles de données standardisés prêts pour l'IA, le système résout un goulot d'étranglement critique dans la transition du domaine vers des méthodologies de recherche basées sur les données. Ce développement d'infrastructure pourrait avoir des implications considérables pour l'innovation en matériaux dans divers secteurs, notamment l'électronique, l'énergie, les transports et la santé, où les nouvelles découvertes de matériaux conduisent souvent à des percées technologiques.


