国内多数AI模型训练使用的中文数据占比已超60%

  中文数据正在邦内AI大模子的练习机能晋升方面外现着紧急效用。邦度数据局指日宣布的数据显示,目前邦内大批AI模子练习操纵的中文数据占比仍然领先60%,有的模子到达80%。中文高质地数据的开垦和需要材干继续巩固,促使我邦人工智能模子机能急速晋升。

  邦度数据局局长刘烈宏呈现,我邦人工智能的急速发达,与我邦高度珍惜数据办事是密不成分的。行动人工智能发达的焦点因素之一,数据正在促使“人工智能+”进程中外现着闭节效用,高质地数据集的摆设至闭紧急。

  “正在人工智能时间,Token,也即是民众平时所说的词元,是管理文本的最小数据单位,宛若互联网时间民众所说的‘流量’。”刘烈宏先容,2024年头,我邦日均Token的破费量为1000亿,到本年6月底,日均Token破费量仍然打破30万亿,一年半时刻伸长了300众倍,响应了我邦人工智能操纵周围的急速伸长。

  据先容,截至本年6月底,我邦仍然摆设高质地数据集领先3.5万个,总体量领先了400PB(1PB可存储约5亿张2MB巨细的高清照片),400PB的总量相当于中邦邦度藏书楼数字资源总量的140倍掌握。

  人工智能模子的练习也促使了数据交往需求的攀升。截至本年6月底,各地高质地数据集累计交往额近40亿元,数据交往机构挂牌的高质地数据集总周围到达了246PB。

  下一步,邦度数据局将通过编制化构造继续促进高质地数据集摆设,加疾打制具身智能、低空经济、生物筑筑等核心界限数据高地,促使全社会深化数据因素价格认同,加疾促进数据因素价格共创,培植“为优质数据买单”的商场共鸣。(记者高亢)