人工智能时代,他们负责 “人工”,于是诞生了这个高科技领域里的低科技行业。

中国,民权县 —— 周俊凯(音)的公司坐落在东沙河边上,这条古老的河流将民权县分为旧区和新区。民权县 位于中国河南省,城镇人口31万多。也就是在这里,19岁的周俊凯在今年夏天和26岁的表哥一起创建了属于他自己的数据标注公司。 

俊鹏科技公司租了一座带庭院的农村老房做办公场地。不同于中国随处可见的公寓楼,这种老房子的场地很大,有两三层楼高。房子后面,一个男人正在一小块地里耙枯叶,周俊凯告诉我们,这块地依然要种庄稼。 

屋子里头唯一有供暖的房间就是办公室。在这里,十几个年轻人正坐在闪闪发光的巨大显示器前工作。11月的民权县空气污染指数居高不下,太阳被挡在了厚重的雾霾背后,纵然有成排的显示器和荧光灯,办公室里依然显得很昏暗。

1546844155516108.jpeg周俊凯(右)和他的表哥陈瑞(音)站在办公室门口。照片由作者提供

这些年轻人就是所谓的 “数据标注员”,他们每天在电脑前坐上八个小时,点击各种照片,在上面框出背景、前景以及一些特定目标,具体要看他们人工智能领域的客户的要求。一些员工负责标注医学扫描图像,一些员工负责标注各种景观和树木的照片,还有一些员工负责为无人驾驶车处理路况图片。把这些标注好的数据交给人工智能算法,能让它学会如何 “看东西”。人工智能产业依赖于这种廉价的人工作业,因为很多算法和所谓的 “机器学习” 都是靠人工训练来完成的。 

人工智能需要大量的数据来学习和识别模式,这其中包括图片、音频、文本等等,因为它们对媒体的解读和人类是不一样的。为了教会算法如何精确识别一个苹果是苹果,就需要提供数千张甚至到数百万张的苹果图片。另外,人工智能很容易被愚弄。在其中一个实验中,安全研究者发现对一张校车图片进行扭曲处理后,虽然人一眼就能看出来,但是 人工智能系统却无法判定其为一辆校车。 

资金正源源不断流入中国的人工智能领域,河南省是再好不过的例子。在几年前,河南省还是靠富士康(负责生产苹果产品)和各类电子产品工厂闻名全国,而现在,这里的城镇已经冒出了大量的办公室,坐在里面的都是为了让电脑变聪明而费力从事输入工作的员工。 

根据 ABI 研究机构的报告,2017年,风险资本家往中国的人工智能初创企业投入了50亿美元,标志着 中国首次在该领域的融资超过美国。中国政府高度重视人工智能领域的发展,17年夏天,他们宣布了一项宏图壮志:将在2030年打造出1500亿美元规模 的人工智能产业。 

人工智能也是 “中国制造2025计划” 十大领域中的一环。“中国制造2025” 是政府主导推行的一个经济总体规划,力求推动这个国家从大规模生产、低端经济向高科技、高价值、高端经济发展。中国现在有着全球估值最高的人工智能公司 —— 商汤科技。这家公司专注人脸识别和图像识别技术,并为中国各地方政府提供监控技术服务。根据研究机构 CB Insights 的报告,商汤科技估值约45亿美元。 

千禧年初,中国出现了大量的生产制造工厂,推动了中国的经济发展,而现在,另一个劳动密集型产业 —— 数据标注公司在中国蓬勃兴起。这些公司为算法提供并处理海量的数据。除了 部分知名公司 设在中国的主要大城市之外,大部分数据标注公司都散落在小型城市、县城以及农村地区。 

周俊凯之所以想到创办自己的数据标注公司,是因为他在距离民权县以西几小时车程的平顶山市见到了许多这样的公司。这对表兄弟把两家多年的存款(约30万人民币)凑在一起买了几十台电脑,租了一个办公场地。就他们所知,他们是民权县唯一的一家数据标注公司。 

周俊凯毕业于一所职业院校,在校期间学的是汽修专业。毕业后他也曾找过其他工作,但是就业的机会非常有限。

1546845445115222.jpeg19岁的周俊凯来自民权县郊外的一个村子,他说从职业院校毕业后工作并不好找。照片由作者提供

“如果你不知道将来要做什么,那你可以去大城市当白领,每天上班下班挤公交,” 他说,“至于其他行业,如果你想当第一,就需要大量的知识、经验和教育。但这些我们都没有。” 

他告诉我们,要找一个汽修工的工作很难。他在一家工厂里上了一段时间班,但很快就辞职了。工厂里的工作太辛苦,每天都要工作14个小时。 

“我觉得我受不了了,” 他说。但是 “这一行给人感觉很有市场潜力。” 

韩金浩(音)告诉我们,现在越来越多人正在涌入数据标注行业。一年前,韩金浩在河南省会郑州市创立了自己的数据标注公司。他的公司叫点我科技,公司里有一百多名数据标注师。 

“虽然数据标注是一个很低端的工作,入行门槛相对较低,但它依然属于人工智能领域,” 他说。“所以我们觉得,从这里开始,我们可以慢慢地,一步一个脚印向更加高端的业务迈进。” 

韩金浩创建了一个类似 Craigslist 的平台。根据他的计算,在这个平台上注册的数据标注公司超过了6000家。一些规模相对较小的数据标注公司都会在这里找外包工作或者招聘新人。 

18岁的赵梦瑶(音)是这一行的新人,她从十月份开始在周俊凯的公司上班。在我参观他们的办公室时,赵梦瑶正面对着一张停车场照片,沿着白线给一个停车位描边。这张照片有点扭曲,线条都是弯的,好像是用鱼眼镜头拍摄出的画面,但赵梦瑶握着鼠标操作非常熟练。20分钟后,赵梦瑶已经开始了下一张照片的处理,那是另一张从不同的角度拍摄的停车场照片。

1546845620439414.jpeg一位年轻女员工正在研究如何给汽车照片做标注。数据标注员需要按照客户的具体要求标注图片。照片由作者提供

在她旁边,一名年轻的男性员工正在给一位歌手的橙色裙子描边。毛蓬蓬的裙子轮廓很复杂,他一个像素接着一个像素地框图。完成之后,他又开始框一个打高尔夫球的男人。

赵梦瑶之前一份工作是在婚纱摄影工作室当化妆师,但是因为工作太累,她最终选择了辞职。做化妆师的时候,有时她早上四点就要起床,为客户当天的拍摄做准备,晚上七点才能回家。

但是现在,她说她早上八点才开工,下午六点就可以下班,中间还有一个半小时的休息时间。午休的时候,赵梦瑶和她的同事会在工作的电脑上一边打游戏,一边闲聊。 

“我觉得这工作挺好的,我有很多自由时间。” 她说。 

赵梦瑶说这里的待遇也不错。每标注一套20张照片可以拿到约20元人民币的薪酬。她每天可以完成四到八套照片,也就是80到160张照片。我问她知不知道这些照片会流向哪里,她说她也不知道。 

我采访的七个数据标注员月薪在2000元至4000元不等,这跟 中国居民人均可支配收入,或者说险后税后收入差不多。2017年,这个数是2164元。“在郑州,像这个薪资待遇水平的工作有很多。” 25岁的点我科技员工王玉双(音)说。

1546846099307256.jpeg点我科技是一家位于郑州的数据标注公司,公司的大部分员工都是二十出头。照片由作者提供

教会人工智能学会照片识别的标准方式是使用 ImageNet 的图片。ImageNet 是由斯坦福大学教授李飞飞和她的团队打造的数据库,里面收录了超过1400万张图片。这个数据库依赖亚马逊的众包平台 Mechanical Turk 进行数据标注。Mechanical Turk 会以几美分的薪酬将标注照片这种劳动密集型任务外包给普通网民完成。

但是随着全世界从无人驾驶到医学诊断等各行各业都在比赛使用人工智能,ImageNet 和 Mechanical Turk 已经无法满足日益旺盛的需求了。

数据标注公司 “觉醒向量”(Awakening Vector)的创始人杨洋在电话上告诉我,比如说一家提供精准诊断的医疗公司要想让人工智能学会在一张 CT 片上区分肿瘤和眼球,就需要非常详尽的数据。如果不学习的话,人工智能是看不出眼球和肿瘤的区别的。它需要数据给他指出一张图片上的肿瘤是什么样子,并且需要大量的图片进行学习,这就需要通过人工对照片进行数据标注。

但是杨洋指出,大部分人工智能初创企业只有数量有限的全职员工,这些通常都是数据科学家。

“数据标注是一项很辛苦的工作,” 杨洋说。“你不能指望拿这么高工资的人去做这种劳动密集型工作,所以这种工作你只能外包出去。” 

另外,隐私和质量控制也是个问题,比如医疗图片就需要保密。但是负责 Mechanical Turk 上的数据标注工作的,是任何想赚钱的平台注册用户,而不是拿着专职薪水,从周一工作到周五的正式员工。

数据标注工作外包,催生了大量数据标注公司在中国各地如雨后春笋般涌现。杨洋的公司坐落于中国新疆维吾尔族自治区,中国最大的搜索引擎百度和跨国制药公司诺华都是他的客户。韩金浩的公司主要为做无人驾驶车的初创企业等中国公司提供服务,他在河南省内以及邻省山东的许多小城市都设有分部。

根据传统观念,科学技术越发达,从事低技术含量工作的人就越吃亏。大部分学术研究也支持这个观点。但这并不意味着先进技术会取代所有的工作。

波士顿大学技术与政策研究项目执行主任詹姆斯·贝森(James Bessen)告诉我,历史研究证明自动化将催生就业潮。他指出纺织业就是一个很好的例子。

本森说,19世纪初期,大部分人只有一套衣服,因为布料很贵。但是随着技术的发展,一些工作被自动化,织布的成本被降低,对布料的需求也开始增加。衣服需求量增大,工作机会就越多。虽然纺织业曾被认为是 “低技术行业”,但随着纺织业规模急剧扩大,吸收越来越多工人,这些工人都必须学会操作复杂的机器。虽然很多工作被外包给了发展中国家,但是工作数量并没有净损失。只有当需求饱和时,岗位数量才会开始减少。 

目前,中国的劳动力成本比美国更低,而且也有充足的劳动力。 

这项工作不仅仅局限于图片标注。许多公司还在雇人做声音识别、视频标注甚至是原始数据。周俊凯和他的团队就在收集儿童的语音录音以及河南方言录音。

对于一些员工来说,在一个新兴行业工作有着巨大的荣誉感。王玉双说:“我们做的是非常基础的工作,但是我们是这一行的重要组成部分,我们在帮助机器人学习和识别各种数据。”

如果有一天算法已经学会了独立识别,那么人工智能领域里面数以万计的低端技术工作者是否会失业呢?

韩金浩对此似乎并不担心。“如果真的到了这一步,人类可能都已经灭绝了。你真的觉得我们会让这些没有生命的东西控制人类?我们只会教导它们如何为我们服务。我可不会让它聪明到有一天我要变成机器的奴隶。“

Translated by: 英语老师陈建国

编辑: 胡琛浩(Arvin Hu)

© 异视异色(北京)文化传播有限公司
版权所有,未经授权不得以任何形式转载及使用,违者必究。