1月13日,国家发展改革委、国家数据局、财政部、人力资源社会保障部联合发布。
提出到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%,培育一批具有影响力的科技型数据标注企业,打造一批产学研用联动的创新载体,建设一批成效明显、特色鲜明的数据标注基地,形成相对完善的数据标注产业生态,构建创新要素聚集、产业链上下游联动、区域协同发展的新格局。
包括总体要求、主要任务、保障措施三个部分。主要任务围绕深化需求牵引、增强创新驱动、繁荣产业生态、优化产业支撑四个方面提出相关政策举措。
赛智产业研究院副院长邓道正接受
释放企业数据标注需求
提出,深化需求牵引,释放公共数据标注需求。深化人工智能在政务服务、城市治理、乡村振兴等领域应用,编制公共数据标注目录,依法依规有序推动公共数据标注与开发利用。支持公共数据赋能实体经济发展,在现代农业、智能制造、信息服务等重点领域发掘公共数据标注需求。支持跨部门、跨地区、跨层级公共数据融合应用,鼓励政府部门和企业协同开展政务大模型所需数据的标注和训练。推动数据标注服务纳入政府采购范畴。
挖掘企业数据标注需求。支持数据要素赋能产业转型升级,深挖企业生产管理全流程数据标注需求。实施“国有企业数据效能提升行动”,加大企业数据开发利用,释放企业数据标注需求。加强交通、医疗、金融、科学、制造、农业等重点行业领域数据标注,建设行业高质量数据集,支撑人工智能在行业领域的应用赋能。围绕医疗健康、人力资源、数字贸易、自动驾驶、低空经济等场景,以业务创新拉动数据标注需求。
邓道正告诉“如在自然语言处理领域,需要对不同语言、语法结构、意图、情感等数据进行高质量标注,以用于训练机器学习模型,使其能够理解和生成人类语言,从而实现机器翻译、语音识别等各种应用;在自动驾驶领域,需要对交通信号识别、车道线检测、行人检测等领域数据进行精准标注,以便自动驾驶汽车能够准确理解和预测道路上的各种情况,避免交通事故。”邓道正说。
加快制定相关行业数据标注标准
还提出,健全数据标注标准。围绕数据标注关键环节,结合文本、图像、、语音等多模态数据标注需求,建立数据标注标准体系框架,制定数据标注技术、质量、能力等国家标准。聚焦重点行业领域,加快制定相关行业数据标注标准,促进协同创新。
邓道正告诉数据标注标准方面,由于缺乏较为统一的行业标准与规范,导致在标注时因为标注员的专业水平、理解差异及疲劳作业等,使得标注结果难以保证一致性,数据质量较低,不能满足AI企业的需求。
邓道正认为,专业人才方面,由于数据标注行业对人才的需求量大,但符合要求的专业人才却相对稀缺,尤其是医疗、工业、科学研究等对专业知识要求较高的领域更是人才短缺,制约了行业的健康发展。
数据安全方面,由于在数据标注过程中,会接触到大量的敏感信息,包括用户信息、个人偏好等,如何保护这些敏感信息的安全,也是数据标注行业面临的一大挑战。