高质量数据集典型案例 面向灾害天气场景的强对流天气人工智能应用训练数据集

  强对流天色突发性强、发达速、致灾性强,其凿凿预告是全邦公认困难,古板预告设施正在搜捕强对流天色局地性和瞬时性方面存正在部分性。“风清”等预告模子解说人工智能正在天色预告周围具有较好潜力,但中小标准强对流天色预告场景,缺乏高质地、有标注的数据集。本案例基于众源、长序列、高时空阔别率的众维变量数据,自立研发了数据洗刷、标签标注和特色因子提取算法,整编研发了与强对流天色标准般配的分钟和公里标准数据集,标注样本量超157万个,修建了杰出轮回的“产学研用”配合生态,有用撑持强对流天色监测及预告模子行使和迅速发达。

  一是数据筑基,筑成了高质地、有标注、可直接用于模子的强对流天色人工智能磨练数据集。聚焦中小标准强对流天色智能行使场景,整编了中邦区域10年时序长度、超33.2万个事宜的强对流天色史册个例库。研制了8年时序长度、超出157万个样本的短时强降水、雷暴大风和冰雹3种人工智能磨练数据集,收效通过了中邦景象局高价格产物准入,入选了中邦景象局“十三五”科技收效,有用撑持上海“雨师”等强对流天色预告模子落地行使。

  二是破解中小标准天色标注困难,自立研发了强对流天色标签标注、特色提取手艺及主动化东西。研发了基于众源数据交叉验证的数据洗刷、基于呆板研习的智能标注及融入专家学问的特色提取手艺及主动化东西,数据管束和标注闭节主动化率超85%,处分了数据量大、人工标注难等痛点题目,担保数据集陆续迭代更新。

  三是赋能行使,创造了“场景驱动—数据研发—模子研发—演示行使”的协同联动机制。依托项目配合、立异团队及职业组等形式,创造了“预告场景驱动—数据研发—模子研发—演示行使—反应订正”的众周围协同发达形式,数据集有用赋能局地强对流天色智能预告及人工影响天色防雹功课等榜样行使场景,撑持预告评分晋升近10%。

  一是修建了杰出轮回的“产学研用”磨练数据集研产生态。聚焦预告行使场景,自立研发并供给联合的强对流天色磨练数据集,与上海景象局、上海人工智能实践室等结合研发强对流天色预告算法,撑持“雨师”等演示行使。获批邦度自然科学基金项目、发现专利并发布论文,“数据撑持—模子研发—演示行使”众向赋能,实行手艺自立、算法共研、人才共育的良性轮回。

  二是加添了邦内强对流天色人工智能行使磨练数据集空缺。通过专家体会和AI标注联络的形式,酿成了蕴涵强对流天色产生强度或落区标签及天色进程生消演变众标准外征因子的数据集,可直接用于强对流天色智能预告模子磨练,撑持局地强对流天色预告评分晋升近10%,打制智能行使赋能演示。返回搜狐,查看更众