一个AI“神童”背后的数据标注江湖

2021-10-23 星期六

*本文为「三联生活周刊」原创内容



9月17日,来自中科大新创校友基金会的一篇打假文章,将一名叫“刘端阳”的数据标注公司创始人卷入舆论漩涡。在这起“学历造假”事件背后,是数据标注行业在中国的复杂现实。这个在人工智能概念包装下的劳动密集型产业,在近五年的时间里,搭载上地方政策产业升级、扶贫等政策便车,迅速发展了起来


记者 | 李秀莉

编辑 | 陈晓

被证伪的身份


2021年9月4日,星期六的下午,中科大新创基金会收到一名99级中科大少年班校友询问:是否听过一位叫“刘端阳”的科大少年班校友?该校友提到,此人最近在苏州的校友圈子里活跃,自称科大少年班98级学员。
作为中国科学技术大学的独立民间校友机构,中科大新创基金会的主要作用之一是“贯穿校友网络,组织校友活动”。因此,基金会往往和校友们保持密切的互动关系。校友们遇到和学校相关的事情,都愿意先来问一问基金会。按理说,每年从中科大少年班走出去的校友并不多,只有几十人,大部分人彼此之间都认识或听说过。但对于这个“刘端阳”,基金会工作人员表示没印象。
不过,这不是校友们第一次来询问刘端阳的名字。最早在2019年,一位做投资的中科大校友就曾向该基金会打听过这个人。当时基金会的负责人不清楚对方是否在做投资前的背景调查还是单纯好奇,所以没太在意,“一般来说冒充科大包括少年班的学生,社会上一直都有,我那次没有花什么精力(去查)”。这位不愿透露姓名的中科大新创基金会负责人对本刊记者说。

《少年班》剧照

直到两年后的这天下午,当他再次听到这个名字,并随后翻阅了关于刘端阳的公开报道,发现刘端阳的名字在很多场合都与“中科大少年班”“清华大学硕士”“斯坦福大学博士”几个亮眼的标签结合在一起。“大连那边有个大连莫比嗨客,是在大连高新区的大连软件园里,大连软件园在2018年就有过报道,写他是中国科大少年班的学生。我们就沿着这个线索找下去。”上述负责人说。
这则发表于2018年12月3日的报道《创客连线刘端阳:一切源于笃定的热爱,源于对高远未来的追求》中写道:“12岁考入中国科学技术大学少年班,先后就读于东北大学、清华大学、美国斯坦福大学,惊艳的学业履历,让刘端阳在业内拥有‘神童’的美誉。”文章如此描述他的AI学习背景:“不论是在清华读研,研究利用机器学习做社交网络数据挖掘技术,还是选择到美国斯坦福主修利用机器学习做跨语言文本处理的研究,抑或是去金山软件总部实习,在美国谷歌总部 X ~ Lab实验室做工程师,都是源于被AI深深吸引,因此一直在寻求对AI、群体智能和机器学习更深层次的理解。”
该文同时介绍了刘端阳的身份——莫比嗨客创始人。公开资料显示,这家由刘端阳创办于2016年11月的公司全称为“深圳莫比嗨客树莓派智能机器人有限公司”,注册资本666.694万元人民币,刘端阳为法人和实际控股人。公司主营业务分为两块,其一是在线任务群体智能平台,基于众包的理念、博弈的流程和群体智能的算法,为泛AI公司、大数据公司提供数据标定(标定=采集+清洗+标注)、人工智能解决方案、群体翻译等服务。此后几年,公司经历扩张,在2016年12月,成立大连莫比嗨客智能科技有限公司;2017年8月,成立盘锦莫比嗨客智能科技有限公司;2019年在苏州和洛阳也成立了公司。

《华尔街之狼》剧照

根据这篇文章提供的相关信息,基金会扩大范围,调阅学籍系统里第一期少年班至今所有学员以及中国科学技术大学“文革”后入学的所有本科生,均未发现刘端阳的名字。随后,他们调阅校友名录、联络中科大档案馆和询问相关教师,均证实并无此人。再向清华大学去函询问,得到确认,“刘端阳之清华大学就读经历涉嫌造假”。此外,刘端阳还自称为斯坦福大学Christopher Manning教授的学生。Christopher Manning是全球顶级的人工智能研究机构之一斯坦福人工智能实验室(SAIL)主任、人工智能领域的资深专家。但基金会工作人员查阅了Christopher Manning的网页,在其博士生名单中,也无刘端阳或其常用英文名Charles Liu。该教授后来来函回复基金会,自己并没有叫Duanyang Liu或Charles Liu的博士生。并提到,在几年前,有中国的投资者曾向其求证过同样的问题。根据照片比对,应为同一人。
一边被证伪的同时,更多的证据指向刘端阳实际曾就读于合肥工业大学和东北大学。至今可以查到的一项公开资料显示,2012年,东北大学在美国大学生数学建模竞赛(MCM/ICM)中获得一等奖,刘端阳是获奖的14支队伍中的一员。合肥工业大学的同学还对媒体表示,曾在两年前看到关于刘端阳相关报道中的简历介绍后,尝试过在网上发帖指出他对学历信息的选择性隐瞒,但当时并未获得关注。“所以有可能是这个事情这么久了,他有了一定的自信,觉得没人拿他有办法。”上述负责人对本刊记者分析。
近些年来,学历造假事件尤其利用国内外信息不对称而制造的学历造假并不少见,但刘端阳的造假引起舆论关注,或许在于他进入的是一个时下非常火热、具有未来性的人工智能行业,并得到了非常高的收益。他创办的莫比嗨客公司在这个行业里有一定知名度,并获得了体制内外资本的青睐。2018年7月,莫比嗨客曾获梅花创投A轮融资,2020年3月,获得中航南山股权投资,并凭借“数据标注”业务与辽宁大连高新区、山东青岛西海岸新区、山西吕梁经开区、重庆云阳县、江苏盐城盐南高新区等多个城市与高新科技园区落地合作项目。

抓住数据标注的风口


在上述“大连软件园”公众号发布的报道里,刘端阳以第一口吻的叙述提到了他的创业过程,他称自己回国后的第一次创业做的是个人大数据征信,但后来发现国内巨头阿里、腾讯等都在做这个,创业自然失败了。之后,转向了AI这一创业方向。“人工智能是国家战略,也会是未来重要的发展方向。国内AI的发展前景不可预估,这正是一个摆在我面前的巨大机会,我需要抓住它,这正是我成立莫比嗨客的初衷。”
刘端阳所提到的“数据标定”(又称“数据标注”),是人工智能发展中的重要一环。胡希塔曾在中国科大自动化系获得学士学位,也是一家数据标注公司的创始人。他告诉本刊记者,数据标注的出现与深度神经网络算法的大规模商用密切相关。深度神经网络算法可以简单理解为实现人工智能的一种方式,它最重要的特征就是“训练”,“训练需要有训练用的数据。这个数据一般是成对的。比如要让计算机在一张图片上识别猫或者狗,输入这张图片,在这个图片上给猫或狗画一个框,这就是一对数据”。一开始,计算机无法自动识别出图片上的猫狗,人类就在数以百万计的照片上将猫狗标注出来,再将标注后的照片输送给计算机,这个过程就是通过深度神经网络算法进行的训练过程。而在上百万张图片上标注出猫狗的过程需要人工来完成,这个过程就是数据标注。

数据标注,一个在人工智能概念包装下的劳动密集型产业(视觉中国供图)

“数据标注这个行业出现的时间并不长。”胡希塔说,上个世纪五六十年代,深度神经网络算法出现,但在很长一段时间里,仅作为研究和教学使用。直到2012年深度学习在图像和语音方面的商业价值被验证后,人工智能真正具备了走出实验室步入市场的能力。根据艾瑞咨询在2020年发布的《中国AI基础数据服务行业发展报告》,2016年,AlphaGo的胜利再次引爆行业,成功唤起了中国市场的兴趣,人工智能的商业化在中国得到了长足发展。我们今天所熟知的人脸识别、自动驾驶、智能安防等技术都是人工智能的商业化应用。
伴随着人工智能的商业化发展,支撑算法训练的数据标注产业应运而生。在国内,数据标注企业一共有三种发展模式,第一种,互联网公司自营,例如百度的数据标注公司,主要服务于内部。第二种,线上众包平台。这类平台类似于一级承包商,拿到数据标注的项目后再将其转包给数据工厂或个人。第三种,数据工厂,主要提供进行数据标注的人力资源。根据艾瑞咨询的统计,预计2025年中国AI基础数据服务行业市场规模将突破100亿元,年化增长率为21.8%。但庞大的产值前景下,真正的科技含量却并不高。三种模式中,目前有自己的标注工具的数据标注公司在国内不到10家。
数据工厂门槛相对最低,需要的是无差别人力对无数个图片标注点的反复确认,以达到机器可以准确辨认与学习的精度。一般来说,必须保证“喂”给机器的标注数据达到90%以上精度,95%以上的准确率则是理想情况;如果还要往上提高,从95%提到97%,所需的成本就不再是一两倍了,可能是10倍或100倍。所以这是AI产业中劳动力最密集的一环,数据工厂被称为“AI富士康”。千机数据创始人刘洋锋是2016年看到这个风口后,在老家河南郏县成立了数据工厂,从一开始的10个人发展到最高峰时期同时有六七百个数据标注员的规模。他告诉本刊记者,国内做数据工厂的门槛低,“只不过规模大小不同而已,5个人也可以叫数据工厂,1000个人也可以叫数据工厂”。因为数量多,竞争激烈,这两年“死一批又起来一批”,发展参差不齐。
《看不见的现实——数据工人》剧照
刘端阳的莫比嗨客同样创立于这一风口上。他在公开场合解释自己公司的功能,更像是平台和数据工厂的集合。在2017年9月的一档央媒节目中,刘端阳以创业者身份解释莫比嗨客的商业模式:“人工智能公司需要使用文本、图像、音频和视频等数据对其进行‘训练’,去识别数据背后的模式,并渴望在极短时间内完成,但现实中可能做不到。假如有1亿张图片,12个人同时进行操作,他们需要1个月时间,现在有了‘莫比嗨客’群体在线智能平台,时间可以压缩到1天,甚至1秒。大家要问我的‘千里马’是怎么工作的,我从斯坦福大学休学回国后,就一直在打磨它,直到2016年和大家见面。莫比嗨客有四大交易:一是数据标定,二是个性化人工智能解决方案,三是数据竞赛,四是群体翻译。每个交易都是一个任务,每个任务的金额从几千到几百万元不等,商业模式就是从中抽取6%的佣金。”
但在实际运营中,莫比嗨客更像是一个纯“中间商”。一位要求匿名的数据标注行业的专业人士告诉本刊记者,有迹象表明,莫比嗨客的平台应该处于非运营状态。“看平台是否运营,一个维度是说工具上的升级,你是不是支持任务类型足够多。另外一个维度就是平台本身它是需要运营专员,第三个维度,就是你要有不断的订单去支持这个平台。”本刊记者在10月17日登录莫比嗨客官网,在“任务广场”点击“进行中”的任务状态,显示“暂无数据”。最新的一条显示已完成的任务发布于2019年10月14日。任务类型为“问卷调查”。
与此同时,平台没有自己的标注工具。“标注行业里的平台型公司本身分一个层次。比较高级一点的,有自己的平台和研发工具,然后让自己的标注人员以及外面的标注人员来用平台工具去做标注。而比较偏低级一点的就是纯外包,就是像莫比嗨客这样的。接到数据标注的活,直接让外部供应商去承包,莫比嗨客赚取中间的差价。”一位曾在莫比嗨客工作过的员工王真真对本刊记者说,缺乏标注工具以及稳定的数据标注基地,莫比嗨客的模式在数据标注行业几乎没有竞争优势,整体利润空间并不大。

地方的争夺


即便没有技术优势,但刘端阳在中国的人工智能行业里仍然找到了自己的机会:转向更低端的数据工厂业务,并寻求与地方政府的合作。王真真告诉本刊记者,当时自己选择莫比嗨客有两个原因,第一,创始人刘端阳有比较闪亮的学历背景;第二,这家公司和政府合作的发展路径。
从2018年前后,数据标注产业的劳动密集型产业属性,开始被一些三、四线城市的地方政府看到机会。“早些年政府的想法是需要名校毕业生回到三、四线城市来发展,但是最后意识到,有能力走到211或者985、海归的一些年轻人,他们可能更愿意在一线城市发展,不太会回到三、四线城市。但是对于普通本科、职业类院校的孩子,他们在一线城市没有很大竞争力,回到三、四线城市是更现实的选择。而在三、四线城市,数据标注对于政府来讲,就是一个需要大量廉价劳动力的产业。”在产业升级和解决就业的政策导向下,三、四线城市的地方政府开始争夺这种人工智能时代的“富士康”工厂。
2020年3月,刘端阳和青岛地方政府开始合作,一位参与了该项目落成仪式的相关人员告诉本刊记者,当时,在一家挂着京东标志的大楼里,刘端阳拿到了中间的一层,可容纳几百人的规模,场面很轰动。刘端阳在青岛和清科控股集团有限公司合作成立了青岛青科数据科技有限公司,做数据标注。清科控股为青岛西海岸新区国有资产管理局下属子公司。当时双方协定,清科控股占51%股权,莫比嗨客占49%,前者组建数据标注班子,后者提供技术支持和拿业务。
在盐城,莫比嗨客则得到了当地政府更大的信任,他们使用的是“完全引进”的合作方式。盐城的合作一共包括三方:由梅花创投成长基金把莫比嗨客引入盐城后,在当地募资,并成立一个基金来专门投大数据相关的产业,政府也参与投资。2020年10月9日,盐城市盐南高新区举行莫比嗨客数据标注项目、新梅专项基金项目签约活动,盐南文明办发文称“此次莫比嗨客将我区作为全国产业布局的重要节点,快速导入国内业务,将盐城项目打造成为国内人工智能产业发展的新高地”。
2020年是刘端阳事业发展比较顺利的一年。数据标注产业成为受三、四线地方政府欢迎的项目。山西太原、长治、运城、临汾等地都有数据标注产业的落地,河南、新疆等中西部地区也都有数据标注工厂的布局。刘端阳的合作版图里也增加了山西吕梁。2020年6月,吕梁经开区信投公司与深圳莫比嗨客公司合作成立吕梁数霖科技有限公司。前者占股67%,后者占股33%。但这次合作,还多了个“扶贫”的任务,提出了一项数据标注“星火计划”。目标是通过“1个讲师培训基地+13个县(市区)数据标注中心+N个乡村标注驿站”模式,在全市87个易地扶贫搬迁集中安置点开展数据标注培训,建立覆盖全市13个县(市区)的数据标注中心;并向下延伸,逐步在村级活动场所建立标注驿站,5年培训5万名数据标注员,吸纳更多贫困劳动力在家门口就业,形成10亿元的稳定劳务收入。把吕梁建成全国乃至全球的数据标注洼地。
2020年9月,国务院扶贫办发文《创新催生新动能 数字产业助扶贫》,肯定了吕梁的扶贫成果,称吕梁“把发展大数据产业与巩固脱贫攻坚成果结合起来,依托吕梁经济技术开发区数霖科技有限公司,吸收大中专毕业生和贫困劳动力开展数据标注工作,共享数字经济发展红利,为数字产业带动贫困劳动力就业增收蹚出了一条新路”。在2021年2月23日吕梁市第三届人民代表大会第八次会议上,代市长张广勇发表《政府工作报告》讲话,提出“扩大数据标注产业规模,建设全国有影响力的数据标注品牌基地”。

谎言的代价


吕梁数霖科技有限公司在华为山西(吕梁)大数据中心的一栋大楼里,大开间,占地300多平方米,共上百个工位。10月15日,当本刊记者走入吕梁数霖科技有限公司时,看到电梯口正对的墙上写着“莫比嗨客MbhAi山西AI数据服务与应用示范基地”几个大字。但这天,办公室里只有稀稀落落的年轻人坐在电脑桌前做数据标注,负责公司商务的车啸告诉本刊记者,公司目前全职的数据标注员一共81位,但平时大家多居家办公,不来公司。数据标注员的年龄大多在20多岁,以大中专学历为主。
刘端阳自身的“高学历”在公司运营和发展中可能起到了重要作用。另据一位莫比嗨客的工作人员告诉本刊,在一些公开的场合里,对刘端阳的介绍也是科大少年班、斯坦福等。刘端阳见过不少地方领导,“顶着金光闪闪的学历招牌,大家一定是各种高规格的接待,各种夸赞有加”。但朝夕相处中,同事们也从一些蛛丝马迹中发现了异样,比如刘端阳聊海外的校园生活,没有概念。在一些需要英语的海外业务上,据说刘端阳都以各种理由没有参加。但刘端阳的口才很好,总能自圆其说。大家也只是停留在怀疑的层面。
插图 | 老牛
但是,莫比嗨客没有自己的标注工具,平台上的很多运营数据也都不真实。“在这个行业里如果你没有平台和工具,只能做二道贩子,是很难在这个行业里走到最后的。”上述匿名的数据标注专业人士评价道。
与刘端阳合作的地方政府发现了同样的问题。当清科控股发现莫比嗨客并没有自己的工具和管理不善等运营问题时,双方发生了激烈冲突。“当地政府和当地的合作企业非常不爽,后来直接把莫比嗨客所有的股份清退,他们自己来做运营。”天眼查资料显示,2021年1月,青岛青科数据科技有限公司的董事长由刘端阳变更为冯玉旭。9月,基金会发布打假文章后,一位自称是青岛青科数据科技有限公司法定代表人的人给上述负责人打电话,称刘端阳已经不再是该公司法定代表人和实际控制人,双方没有关系了。
在吕梁,莫比嗨客和数霖科技之间的关系也已经发生了变化。负责商务工作的车啸告诉本刊记者,当时双方决定合作时,莫比嗨客承诺给数霖每年带来300万元的业务量。但后来的合作中,莫比嗨客并没有做到这一点,“而且他们给我们的价格太低了,完全不够我们的人力成本”。
车啸是吕梁人,本来在北京做编程,孩子出生后回到老家,一度找不到对口的岗位。直到去年看到人社局的招聘公告,就来数霖做了数据标注员,每个月的工资在2000~4500元之间浮动,多劳多得。因为莫比嗨客没有带来承诺中的业务量,公司决定自己开拓市场,建立了商务团队,车啸开始专门负责这一块业务。一开始不知道怎么拉业务,他就在QQ上加群,发现有数据标注需求的公司就主动问有什么项目,后来给数据公司发邮件,多方打听等,才慢慢地拉到了大厂的项目。
江苏盐城的合作也不得不转换方向,不再以数据标注为主,而是转向了“AI培训师”。“AI训练师”的字眼并非第一次出现在关于刘端阳的报道里。2020年8月21日,《吕梁日报》发布报道,文章中提到,刘端阳向时任中国科协领导介绍自己参与设计的新职业AI数据训练师。这是他找到的和地方政府建立联系的新方向。“数据标注虽然作为最底层的一个级别,可有一些复杂的工作是需要高级人才来做的。当有技术背景的孩子想要进阶的时候,是可以通过培训和学习去进阶的。当年阿里提出这个东西,有着完整的资料,非常的细致,它像是一个内部的培训计划,你达到了一个什么样的等级,可以去从事什么样的工作。因为人工智能我觉得它真的很缺乏底层基础生产类的人才,所以我觉得阿里当时提这个东西是完全没有问题的。”王真真对本刊记者说。
但是回到莫比嗨客,刘端阳的这个想法可能并不现实,一些专业出身的数据标注人士告诉本刊,AI训练师作为一个全新的、几乎还未被探索过的领域,可能需要非常庞大的、完善的体系才能做出来。莫比嗨客作为缺乏技术支撑的一家数据标注公司,能做成的可能性比较小。
《大空头》剧照
苏州是刘端阳事业版图中的“中控室”。他在苏州的公司是一个十来人的项目经理团队。莫比嗨客的全国分公司接到的业务会给到苏州,再由苏州做统一分配,决定给哪些供应商。2018年9月10日,由苏州工业园区科技和信息化局公示的苏州工业园区第十二届科技领军人才(未落户项目)名单中,刘端阳手持领军人才项目。这项“苏州工业园区科技领军人才政策(2018~2021)”重点支持生物医药、人工智能、纳米技术等战略性新兴产业。金鸡湖科技领军人才创新创业工程根据科技创新创业项目所处的不同发展阶段,将入围的领军人才项目分为创业领军人才(重大领军、领军、成长、孵化)项目和创新领军人才项目,分别给予创业启动、产业化奖励、金融配套、人才安居等多项资金资助,并提供办公用房、公租房等配套优惠。创新领军人才原则上应是硕士及以上学历。在《2018年年度苏州工业园区创新发展大会暨金鸡湖人才表彰大会光荣册》里,刘端阳的简介为“清华大学硕士”,“曾于海外留学并工作。2015年归国”。
“学历造假”事件发生后,苏州工业园追回了对刘端阳及其公司的政策福利。但按照既定的扩张速度,今年,莫比嗨客还将与湖北襄阳东津新区、青海海南州、四川成都双流区、山西大同高新区、重庆两江新区、辽宁沈阳浑南新区、河北保定徐水经开区、山东淄博淄川区、四川眉山高新区、贵州黔西南州高新区、黑龙江大庆高新区、陕西延安新区等多地政府展开合作。最新的落地城市为青海海南州。今年7月23日,微信公众号“莫比嗨客服务中心”发布文章宣布与青海海南藏族自治州人民政府正式签约。签约后,双方将共同致力于打造新一代藏语信息流平台,在藏语藏药知识图谱、数据处理与服务和产教融合人才培养等方面深度合作,为全球1000万藏民提供信息服务。
(本文源三联数字刊2021年43期,应采访对象要求,文中王真真为化名。实习记者彭丽、贺伟彧对本文亦有贡献)





排版:阿田 /审核:王海燕


本文为原创内容,版权归「三联生活周刊」所有。欢迎文末分享、点赞、在看三连!转载请联系后台。

大家都在看









▼ 点击阅读原文,一键下单本期新刊。

原文地址:点击