DQM : une librairie open source pour révolutionner l’évaluation de la qualité des données d’IA dans l’industrie
Dans le cadre du programme Confiance.ai, SystemX, en collaboration avec Atos et le CEA, a développé la librairie open source DQM (Data Quality Metrics). Conçue en langage Python, cette solution permet d’évaluer la qualité des données utilisées dans le développement et l’évaluation des modèles d’intelligence artificielle (IA), en particulier dans des environnements industriels complexes.
La qualité des données est indispensable pour assurer la fiabilité des modèles d’intelligence artificielle. La librairie DQM apporte une réponse concrète à cette problématique en proposant des attributs de qualité pertinents et interprétables qui permettent d’évaluer des aspects critiques tels que la représentativité et la couverture des données dans des domaines opérationnels donnés.
Deux catégories de métriques ont été développées par les équipes de l’institut :
- Les métriques inhérentes aux données (ex : représentativité, diversité) pour évaluer leur qualité avant la mise en place d’un modèle IA ;
- Les métriques dépendantes du système (ex : couverture du couple « données-modèle”), qui mesurent l’impact des données sur les performances du système, une fois intégrées dans un modèle.
DQM a été développée comme un package Python « standalone » (indépendant d’autres outils), ce qui facilite son utilisation indépendante ou son intégration dans d’autres outils, notamment DebiAI[1]. La librairie a été intégrée aux méthodologies de bout-en-bout de grands groupes industriels tels que Naval Group et Valeo, renforçant ainsi leur capacité à évaluer les données avec précision.
[1] Outil open source de data profiling, développé par l’IRT SystemX, conçu pour optimiser la qualité des datasets et la performance des modèles d’IA
Le potentiel de la librairie DQM est prometteur. Les expérimentations menées ont démontré son efficacité pour apporter une compréhension fine des données utilisées dans le processus d’apprentissage automatique. Intégrée dans la European Trustworthy Foundation créée par la communauté Confiance.ai, la librairie suscite un vif intérêt et ouvre la voie à de nouvelles applications dans divers secteurs industriels. Par ailleurs, un papier scientifique a été publié dans ATRACC, détaillant l’apport scientifique de la librairie.
Faouzi Adjed, ingénieur-chercheur et architecte Data IA, IRT SystemX