人工智能核心的深度学习模型遵循着“Garbage In,Garbage Out”的普遍规律,即使拥有了最强大的计算平台、最优秀的算法专家和模型,如果没有足够的高质量训练和测试数据集,很难获得真正适用于商业场景的AI解决方案。
随着AI算法模型的开源与计算平台的成本快速下降,越来越多的行业客户识到:实现AI成功转型的关键第一步是如何实现“数据优先”,通过构建大规模、高标准、高质量数据集资产,确立AI技术的领先性。
在Gartner2022年发布的人工智能技术成熟度曲线中,“以数据为中心的人工智能”(Data-Centric AI)”被列为人工智能技术和应用的四大创新类别之一,主要聚焦通过对训练数据集的改进提升模型的准确性和鲁棒性,其中数据的设计、改进和质量评估是关键。
- 人工智能数据集标准化工作介绍
中国信息通信研究院依托人工智能关键技术和应用评测工信部重点实验室AI数据集工作组,围绕“可信AI数据空间”计划,开展人工智能数据集标准体系建设。面向用于模型训练的数据,建立AI数据集治理标准体系,规范数据治理全流程,形成优质高质量的数据产品和完备的AI数据治理管理体系,更好服务于模型的开发与应用,推动人工智能工程化应用。
图1 人工智能数据集标准体系
- 马达智数参与人工智能数据集系列标准之一:《人工智能数据集-质量管理能力评估方法》
本项评估面向人工智能数据集质量管理能力要求,重点关注流程管理、质量评估、组织制度三个方面,对数据服务需求企业和数据提供企业赋能。
该标准共分为三部分,分别为流程管理、质量评估、组织规范。考察数据集全生命周期的质量管理体系水平,共计11个能力项、100余项指标,通过能力达成度综合划分为5个评估等级。
图2 人工智能数据集质量管理能力分级定义
- 马达智数参与人工智能数据集系列标准之二:《面向人工智能的数据交付服务能力成熟度模型》
本标准为人工智能技术数据服务行业中从事数据生产及服务的数据服务商、企事业单位等组织,提供了成熟、有序的数据交付及服务的综合性参考框架。本项评估重点关注方案制定、项目管理、交付能力、服务能力等方面。
对于人工智能数据供应方,通过一致、系统、规范的模型方法,提供数据交付和服务能力的评价与指导,帮助企业组织改善数据交付服务过程,提高数据交付及服务的质量,能够有效增强数据服务商的交付与服务能力水平。
对于人工智能数据需求方,提供一套衡量行之有效的供应方数据交付和服务能力水平的标准依据,提高对人工智能基础数据服务商服务质量的要求,实现数据要素服务市场的规范化与可评测化,推动数据要素产业链健康发展。
数据交付服务能力成熟度评估能力域主要包括方案制定、项目管理、交付能力、服务能力四方面。数据交付服务能力成熟度模型由成熟度评估等级和能力域构成,其中能力域由能力项构成,共计11个能力项、80余项指标。
图3 面向人工智能的数据交付服务能力分级定义
- 标准化的数据,让AI更简单
马达智数致力于成为全球领先的AI基础数据服务商,为全球人工智能产业链提供专业化、敏捷式、安全的数据产品与服务。基于对上百家行业客户的成功AI数据服务经验,马达智数提炼出了商业化AI数据集评判的“4D准则”:
- 数量:在算法研发阶段,保证大规模的数量
- 质量:在场景化优化阶段,使数据噪声最小化
- 过程可管理:能够实时管控进度,动态调整需求
- 定制深度:基于对算法、数据以及场景的深入理解
马达智数已经建立了规范化的数据内部和外部安全管理机制,并且成功通过ISO/IEC 27001信息安全管理体系认证,能够为全球范围内的AI客户提供更安全、更专业的AI数据服务及产品,为AI行业的健康可持续发展构建更好的数据基础。
【参考文献】
关于马达智数
maadaa.ai
马达智数面向人工智能产业链,提供文字、语音、图片、视频、音频等全类型的专业化数据服务。从人工智能数据采集,到数据处理和数据标注,以及数据管理。马达智数帮助行业人工智能产品研发客户高效地获取、加工和管理数据,并开展模型训练,助力企业快速、低成本地实现人工智能技术导入。