文章详情

首页 > 文章专栏 > 文章详情

数据标注 | 新媒体考研必背理论

新媒体 | 2020-07-31 08:32

什么是数据标注(data labeling)


数据标注(data labeling)是通过数据加工人员借助一些标记工具,对人工智能学习数据进行加工的一种行为。通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。标记的基本形式有:标注画框、3D画框、文本转录、图像打点、目标物体轮廓线等。




深度学习的关键在于大量的数据训练,数据训练之前,必须对这些数据进行明确的标注。例如,机器需要识别汽车,就必须提供大量有关汽车的数据来进行学习,数据量足够大时,机器就可以识别出任何角度的汽车。


数据标注:有关数字劳工与外包行业


虽然说数据标注更贴近计算机科学、信息技术等领域,但是这一社会行为、社会工作出现所带来的社会现象更值得我们深思。在人工智能的发展过程中,“有多少人工,才能有多少智能”。具体来讲,机器学习需要进行大量数据收集、整理、标注的“喂养”工作。而这些被人工处理过的数据会被应用到自动驾驶、AI安防、智能身份认证等新兴应用领域,由此数据标注员的工种应运而生。

事实上,目前的人工智能还属于“弱智”阶段,AI行业依赖于大量廉价的人类劳动,算法和“机器学习”在很多情况下都是由真人训练。2018年《纽约时报》曾报道:“数据标注正在成为中国最新的劳动密集型行业”,广泛分布在中国的河南、河北、贵州等人口大省。网上甚至出现“你在故宫修文物,我在贵州做标注”的段子,数据标注成为贵阳这个“大数据之城”的名片之一。

而数据标注这个具象微观的工种,同时也是人工智能和移动互联网下外包行业发展的一个缩影。正如卡斯特所认为的那样,信息技术革命给人们劳动带来的变化不是职业位置的减少,而是工作方式的变化。技术确实深刻地转化了工作的性质以及生产的组织。公司与组织的再结构化乃由信息技术所促成,并且受到全球性竞争的刺激,出现了工作的根本转变:劳动过程劳动的个体化。


数据标注就是卡斯特的预言在当今时代最好的表征。


正如公众号“甲子光年”在《“数据折叠”:今天,那些人工智能背后“标数据的人”正在回家》所描述的那样:

两代人的命运在此重叠。

农民工一砖一瓦垒起了实体城市的高楼;数据标注者一框一线搭建起了算法的智能。前者是城市的边缘者,高楼起来了,他们仍是边缘者;后者是科技世界的边缘者,机器变聪明了,他们还是边缘者。

中国有五千多万的农民工以建筑为生,到了五六十岁还在工地上忙碌。

数字标注也将成为新生代农民工的聚集地。


同样地,人类学学者项飚也在《全球猎身》中提到,接受外包的劳动者往往饱受低薪、高强度工作压力、不稳定的雇佣关系、僵化的管理体制、冷漠的工作环境以及无处不在的电子监控等问题的“折磨”。随着技术的进步,那些“低技能”的工作者将会失业。当人工智能发展越来越高级,这些为AI打工的人又该何去何从呢?

除此之外,站在企业和社会角度,数据标注在隐私和质量控制问题也面临着隐患。比如一些医学图像需要保密,而大量外包和弹性雇佣制度下的零工无法保证数据不被外流,数据保密非常困难。对于有标注需求的公司来说,倘若在众包环节众包公司处理不当,很有可能AI公司辛苦获取的数据就成了他人的嫁衣。

以上,是关于数据标注这一新的社会行为的一些浅谈,除了信息社会下的劳动形式,数字劳工的权益保障,外包行业的出现,乃至大的行业格局变化,有很多还值得我们去思考的。希望本文能起到抛砖引玉的效果,供大家得到一些启发与思考。

  • 近年真题

名词解释:数据标注(2020北大-653传播学综合)


参考文献

曼纽尔·卡斯特《网络社会的崛起》

项飚《全球猎身》

甲子光年:《“数据折叠”:今天,那些人工智能背后“标数据的人”正在回家》

免责声明:本站所提供的图片部分来源于网络,版权属于原作者或网站,由本站编辑整理,仅供个人研究、交流学习使用,不涉及商业盈利目的。如涉及版权问题,请联系本站管理员予以更改或删除,万分感谢。

推荐文章

发表
在线咨询
联系电话
13051377756
13269018081
微信咨询