您当前的位置 :浙江在线 > 浙江新闻 > 浙江纵横 正文

在金东区文化产业园当数据标注师

精准框选,教AI“读懂”真实世界

字体:
—2026—
06/23
06:49:14
2026-06-23 06:49:14 来源:浙江在线-浙江日报 记者 叶梦婷

在嘉创云智办公区,60多名数据标注师正在电脑前忙碌。 共享联盟·金东 陈怡滢 摄

记者进行“入职”考试。共享联盟·金东 陈怡滢 摄

  浙江在线6月23日讯(记者 叶梦婷)从金华市区出发,沿着浙中科创走廊一路向东,车行约半小时,便到达了金东区互联网数据标注服务文化产业园。这里毗邻金华科技城、金漪湖科创策源地等科创资源集聚区,是金义新区打造的数字经济标杆项目。

  近年来,金义新区系统性布局数据标注产业,目前已集聚了海天瑞声、冉辰数据、嘉创云智、鹿课数字等6家中下游关联企业,入驻数据标注工程师超300人,一个“数据标注—模型训练—应用落地”的闭环正在加速成型。今年,金义新区更跻身省级高端数据标注基地试点名单。

  数据标注是人工智能的“基石”——自动驾驶识别红绿灯、AI视频生成,背后都是数据标注师一笔笔框出来、一条条选出来的。可数据标注到底怎么做,对大模型训练有什么用,又如何赋能本地产业?带着这些疑问,近日,我来到金东区互联网数据标注服务文化产业园,当了一天数据标注师。

  两小时采集15秒视频

  “想当数据标注师?先过考试关,合格才能‘入职’。”早上8时,刚走进金华市嘉创云智科技有限公司,副主管于晖就给我打开了一套入职试题。

  第一大类试题就和最热门的AI相关。第一题需要我在三段“小浣熊吃冰淇淋”视频中,找出没用AI而用相机实拍的那一段。我以前也用AI生成并剪辑过视频,原本以为能轻松搞定,上手才发现没那么简单。

  三段视频中,第一段视频“一眼AI”,冰淇淋和小浣熊的嘴巴交接处生硬,小浣熊吃冰淇淋的动作也不流畅。可第二段和第三段视频,我反复看了三遍,还是真假难辨。纠结再三,我选了“C”,结果于晖说,正确答案是“B”。

  “你所知道的审核或标注有哪些?”做到第三大类试题,开始涉及数据标注专业知识。幸好我之前突击学习过,照本宣科,边回忆边敲击键盘:文本标注、图像标注、音频标注、视频标注。正当我准备做下一题,于晖拦住我。“只能回答到这种程度,说明你对数据标注还不是很理解。”他掰着手指给我数,比如文本标注中的情感标注,需要识别文本表达的正负面或中性情感;音频标注包含了玻璃破碎等特定事件的检测……

  于晖滔滔不绝说了七八种细分类型。原来,数据标注不仅是框选类目标物,选择、文字描述、分级、采集,都是标注的一种形式。

  1个小时,75分。及格线是60分,我顺利“通关”。于晖带我来到数据标注师办公区,让我加入多模态视频采集项目组。

  于晖帮我调出工作后台并介绍:多模态视频采集,通俗地说就是在海量视频中寻找符合特定要求的视频素材,并把项目需要的片段剪辑出来。于晖打开一份运动类视频采集清单,上面列着打斗类、舞蹈类等5大类。“光是满足大类还不行,还有很多细化要求。”于晖指着清单中的具体要求给我解释:画面分辨率需要在1920×1080以上,清晰无字幕遮盖;涉及多人动作,动作重复率不能太高……

  看起来似乎不难,但一番实战后我发现,要找出一段符合特定要求的视频,难度挺大。于晖帮我打开甲方提供的影视资源库,里面有成千上万的视频素材,看得我眼花缭乱,不知道从哪下手。于晖安慰说:“别急,采集工作急不来的,慢工出细活。”两个小时,我几乎都在看视频,但只找到了两个自认为符合要求的片段。结果,其中一个因为定格画面虚焦被于晖当场否决,只有一个15秒的视频过关。

  挑最优解告诉AI方向

  “别丧气,作为新手你这么短时间能采集一个已经很不错了。”于晖说,项目组每人日均采集量也就6条左右,经过互检、甲方检验等层层“清洗删减”,最终通过率不到20%。

  看着屏幕上自己上传的那个片段,我忍不住发问:“这些采集上来的视频片段,到底是怎么教AI学视频生成的?”

  于晖给我打开了另外一个项目组的工作后台。“来,给你看看我们的工作怎么影响AI。”

  工作台页面上方是一段约15秒的动漫视频,一男一女两个角色,正在被张着血盆大口的狼群追赶。工作台下方则是某大模型根据上方动漫视频生成的4段新视频。

  “这个项目是用真人替换动漫人物。”于晖解释说,前期已经通过学习大量采集视频,让大模型学会了识别人物、运动、物体交互的基本逻辑。现在这个阶段,是通过数据标注师的选择,教AI判断哪种生成效果最好,那它今后就会朝这个方向升级。

  于晖说着,点开了下方第一段新视频,视频把男女角色都换成了真人脸,但狼群还是动漫中的样子。真人和卡通动物同框,画风割裂得像两个次元拼在一起;第二段新视频男女角色的脸都没有换成功,狼群倒是成功换成真实感很强的狼群;第三段视频什么都没换成功,基本还是动漫原视频;第四个视频,前面9秒堪称完美,男女角色和狼群都成功替换,但到了第10秒,女性角色像变脸一样,又从真人“唰”地切换回动漫脸了。

  于晖说,这种情况下,数据标注师就要下载第四个视频,剪辑出前9秒,重新上传平台。“我们的选择就是在告诉AI,前9秒是对的,照着这个方向继续学。”于晖说。想到AI是根据我们的选择和标注学习怎么生成视频,我不由感到有些自豪。

  在这家公司,60多名年轻的数据标注师正在电脑前忙碌。嘉创云智自去年4月落地金义新区,目前有AI生成视频的文本表述准确性、情商测评、多模态视频采集等六个项目同时推进,业务范围涉及市场上大部分AI大模型。

  很多人一听数据标注师,就觉得和AI沾边很厉害。实际上,这份工作远比想象中枯燥——长期伏案盯屏幕、重复操作。“很多年轻人坐不住。”嘉创云智负责人周瀚感叹道,一些相对高端的数据标注和模型训练,需要较广的知识面或者对应的专业能力,人才短缺。“比如多模态视频采集项目组,我们其实需要20多个人,但现在只有5人满足要求。”周瀚说。

  帮外贸产品做获客视频

  数据标注如何赋能企业?当天下午,我来到位于产业园另一幢楼的金华鹿课数字科技有限公司。在这里,AI应用研发工程师孙宁川正和企业主邱良荣商量,如何让外贸销售AI应用主动搜集客户信息并进行邮件沟通。

  邱良荣公司生产的植物组织培养凝胶原本主要内销,去年开始拓展海外市场。“最开始我用免费AI生成,要花大量时间输入资料,再手动一个个上传到国外社交平台。”邱良荣说,他干了一阵子发现,花的时间不少,效果还不稳定。今年初,他找到鹿课数字,共同用AI“手搓”了一款外贸销售AI应用,可以稳定产出获客视频产品并一键分发。

  外贸销售AI应用的页面很简洁,上面显示有选择产品、选择发布平台和内容设置三个步骤。“里面已经录入了我们公司的三款产品信息,你点一点就能选,发布平台也已经默认,你要操作的就是输入想要生成的视频文案和视频长度,剩下就交给AI。”

  我想起邱良荣在聊天时提到植物组织培养凝胶可以用于培育植物朱顶红,于是选择了一个名为高纯琼脂粉的产品,并在对话框中输入:帮我生成一个高纯琼脂粉应用于朱顶红培育的视频,视频要尽显高端和科技感。写完之后点击“AI生成内容”,不到3分钟,一段6秒AI短视频自动生成了:高纯琼脂粉的粉末形态——细白如雪;加水后变成透明的凝胶状;朱顶红的幼苗在凝胶中生根;最后是一株盛开的朱顶红,花朵饱满、色彩鲜艳。画面干净,转场自然,节奏恰到好处。

  “如果不是你自己用AI生成,会不会以为是专业团队拍的?”孙宁川问我。我赞同地点头。孙宁川说,这个AI应用调用的大模型中就有嘉创云智训练的,其中一些高质量视频的片段,就是公司数据标注的成果。

  孙宁川说,鹿课数字目前已为全国近百家企业、职业院校开发了AI应用,涉及外贸选品、漫剧制作等多个领域。“2月份平台上线以来,我在各平台发布了300多条品牌宣传和获客视频,新增了300多位潜在客户,其中十多位客户已进入样品试验阶段,基本达成合作意向。”邱良荣说。

  目前金义新区已经引进了有怡科技、轻舟智航等与数据标注上下游相关企业,2025年人工智能产业营收19.1亿元。按照规划,到2027年,该区将引育数据标注龙头企业3至5家、集聚专业人才6000人以上。


版权和免责申明

凡注有"浙江在线"或电头为"浙江在线"的稿件,均为浙江在线独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"浙江在线",并保留"浙江在线"的电头。

标签:AI责任编辑:蒋旭辉
融媒产品
浙江宣传
小新说
群众工作室
90早新闻
精品专题
更多资讯