国家科创园区最新动态

全面了解不一样的科创园区

科创动态

天津滨海高新区5个数据集入选天津市首批行业高质量数据集

  • 科创云图
  • 2024-06-28 14:16:52
  • (529)
  近日,天津市数据局在2024世界智能产业博览会上发布天津市第一批行业高质量数据集,天津滨海高新区申报的5个数据集全部入选。
 
  首批共发布37家单位的80个行业数据集,天津滨海高新区5家企业申报的5个数据集全部入选,包括:慧医谷中医药科技(天津)股份有限公司的中医舌脉诊标注数据集、先进计算与关键软件(信创)海河实验室的儿科下颚智齿牙胚分割数据集(NKUT)、天津恒达文博科技股份有限公司的恒达文博文旅·科普基础数据集、天地伟业技术有限公司的人车结构化数据集、中广新型媒体研究院有限公司的多模态情感数据集(EMD_1)。
 
  高质量数据集是人工智能模型训练、推理和验证的关键基础,是按照特定标准,依次开展数据采集、数据清洗、数据归类和数据标注等智能化处理,并具备更新和维护机制的数据集合。本次天津滨海高新区入选的5个数据集主要集中在医疗健康、文化旅游、交通运输与城市治理等领域,包含图形图像、文本、音频、视频、3D模型等多种模态。其中,恒达文博文旅·科普基础数据集为国内首次公开发布,数据集规模超300TB,已支撑训练了基于ChatGLM等先进架构的大语言模型,并应用于图像识别、古文字识别、文物病害识别等专用模型。
 
  为贯彻落实《“数据要素×”三年行动计划(2024-2026年)》,天津市数据局开展数据集征集工作。天津滨海高新区网信办按照天津市数据局、滨海新区数据局相关工作要求,第一时间发动各行业主管部门、联系重点企业,通过多种渠道形式通知、动员、指导区内企事业单位积极参加了本次申报。下一步,天津滨海高新区将进一步对接服务相关行业领域企事业单位,摸底区内各行业数据集资源,挖掘打造更多应用场景,促进相关企业、科研机构等围绕高质量数据集开展产业合作,加快数据要素深度赋能区域经济发展。

(责任编辑:陈楠)