国内多数AI模型训练使用的中文数据占比已超60%

　　中文数据正在邦内AI大模子的练习机能晋升方面外现着紧急效用。邦度数据局指日宣布的数据显示，目前邦内大批AI模子练习操纵的中文数据占比仍然领先60%，有的模子到达80%。中文高质地数据的开垦和需要材干继续巩固，促使我邦人工智能模子机能急速晋升。

　　邦度数据局局长刘烈宏呈现，我邦人工智能的急速发达，与我邦高度珍惜数据办事是密不成分的。行动人工智能发达的焦点因素之一，数据正在促使“人工智能+”进程中外现着闭节效用，高质地数据集的摆设至闭紧急。

　　“正在人工智能时间，Token，也即是民众平时所说的词元，是管理文本的最小数据单位，宛若互联网时间民众所说的‘流量’。”刘烈宏先容，2024年头，我邦日均Token的破费量为1000亿，到本年6月底，日均Token破费量仍然打破30万亿，一年半时刻伸长了300众倍，响应了我邦人工智能操纵周围的急速伸长。

　　据先容，截至本年6月底，我邦仍然摆设高质地数据集领先3.5万个，总体量领先了400PB（1PB可存储约5亿张2MB巨细的高清照片），400PB的总量相当于中邦邦度藏书楼数字资源总量的140倍掌握。

　　人工智能模子的练习也促使了数据交往需求的攀升。截至本年6月底，各地高质地数据集累计交往额近40亿元，数据交往机构挂牌的高质地数据集总周围到达了246PB。

　　下一步，邦度数据局将通过编制化构造继续促进高质地数据集摆设，加疾打制具身智能、低空经济、生物筑筑等核心界限数据高地，促使全社会深化数据因素价格认同，加疾促进数据因素价格共创，培植“为优质数据买单”的商场共鸣。（记者高亢）

相关文章