数据标注是将原始数据进行加工处理,比如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。
数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信息结构化、数字化,充分发挥数据信息的价值。
大模型时代下的数据标注
量子位智库认为,数据标注正迎来重新洗牌的关键时刻,有四大关键趋势:
⑴?数据标注要求从客观到主观,很难建立统?标准
大模型的开发范式决定了大模型数据标注对自然语言要求要求很高,包括排序、改写、多轮对话、评估等操作,难以依靠客观的评价体系,比如准确率、效率等。
(2)高学历多领域人才成刚需,缺口或达百万
本科以上多领域多专业开始成为标注人才的硬指标,标注角色也随着大模型全生命周期更为细分,比如AI训练师、模型精调师、指令工程师等。
(3)产业链重构,大模型公司/AI企业涌入
大模型Know-how涉及到数据处理流程的设计,大模型公司/AI企业开始自建数据标注团队和数据处理管线,甚?对外输出服务,产业链重新洗牌。
(4)国内百亿级市场规模,合成数据增速最高
量子位智库预计,国内AI基础数据服务市场规模将达百亿规模,约占全球市场10%份额。其中合成数据作为衍?出来的新赛道,存在巨?市场空间,增速超40%。
AIGC数据标注四大变化
(1)需求变化:与行业场景强相关,高质量数据需求长期且持续
大模型时代的到来,正加速推动人工智能开发从以模型为中心朝着以数据为中心的方向转变。高质量数据服务需求贯穿大模型全生命周期。
(2)处理流程侧变化:标准从客观到主观,高学历多领域成人才硬指标
数据标注从劳动密集朝着知识密集型转变。
(3)业务变化:合成数据成新衍生赛道,潜在市场空间巨大
所谓合成数据,即是用AI生成数据而非真实产生,能够替代真实数据来训练、测试和验证?模型。目前主要在自动驾驶、机器人、生物医药等领域应用。英伟达Meta亚马逊等全球科技巨头均有相关布局(投资、收购等)。OpenAI CEO SamAltman曾放言:未来所有数据都将变成合成数据。
量子位智库预计,合成数据将成为未来增速最快赛道,年增长率可达45%。
(4)供应链变化:重新洗牌,大模型公司/AI企业涌入
大模型公司/AI企业自建数据处理管线,对外输出?模型数据解决方案,传统产业链重新洗牌。部分厂商还具备云服务能力,同数据服务打包输出,更易建立起客户之间的口碑和信任,具备竞争优势。
部分报告内容