• 工作总结
  • 工作计划
  • 心得体会
  • 领导讲话
  • 发言稿
  • 演讲稿
  • 述职报告
  • 入党申请
  • 党建材料
  • 党课下载
  • 脱贫攻坚
  • 对照材料
  • 主题教育
  • 事迹材料
  • 谈话记录
  • 扫黑除恶
  • 实施方案
  • 自查整改
  • 调查报告
  • 公文范文
  • 思想汇报
  • 当前位置: 雅意学习网 > 文档大全 > 公文范文 > 正文

    数据工厂去代工化的战略路径——以数据标注行业为例

    时间:2023-06-17 13:15:03 来源:雅意学习网 本文已影响 雅意学习网手机站

    范黎波,于心悦

    (对外经济贸易大学,北京 100105)

    提起信息技术(IT)服务行业,就不得不提起20 世纪中国的一大遗憾。20 世纪80 年代,印度以国际化为主要发展方立足于国际市场,在全世界范围整合资源和能力,推动其软件与服务外包产业发展,并通过不懈的努力和先发优势,在软件服务的外包热潮中取得了领先地位。2003—2005 年,印度服务外包出口分别为104 亿美元、146 亿美元和196亿美元,而同期中国只有4.7 亿美元、6.3 亿美元和9.2亿美元[1]。目前,印度已经在软件接包、软件服务代工领域取得了巨大成功,并成为了全球第二大软件出口国。印度IT 服务行业的兴起,离不开政府的大力支持及其国内软件企业的特殊贡献。早在1974年,塔塔咨询服务公司就提供软件外包业务,在欧美国家做得“风生水起”。塔塔咨询服务的创始人将大量的海外订单转回国内交给各类中小企业完成,并在印度各大城市建立了10 多家软件培训中心,大量招募软件人才进行培训[2]。塔塔咨询服务公司如今已成为印度最大的单一软件服务出口商,同时也是亚洲最大的独立软件和服务业企业,是世界领先的软件企业之一。中国与印度的不同路径选择使两国软件行业发展产生巨大差异。21 世纪初,印度主打软件的设计并将其作为重点产业来发展,通过理解客户的需求来生产定制化产品;
    而中国将软件作为产品来发展,根据客户已经做好的解决方案进行复制工作,同时将重点发展领域集中在了制造行业,忽略了IT 行业的未来前景。早期的路径选择使得中国在IT 行业与印度产生了较大的差距。

    深度学习作为人工智能(AI)的重要技术之一,目前在图像、语音、文本处理等领域获得了显著进展[3]。利用深度学习技能,机器人已经可以掌握围棋算法并能够战胜围棋界的世界冠军。人工智能是依托于机器对环境的理解和判断来实施相应的行动以获得收益的计算机程序,然而,在此之前,计算机首先要获得人类的理解和判断能力。数据标注就是帮助计算机进行学习的过程,但计算机无法通过包含众多内容且界限模糊的图片进行学习,需要提前对图片进行处理并标注,以使其了解应该识别图片中的哪些特征。数据标注工作就为计算机的学习进行预先处理,通过对大量数据、图片等进行标注,提高算法模型的有效性,最终使计算机完成深度学习。

    随着第三次人工智能热潮席卷全球,大型科技公司、银行和其他机构对数据的需求不断增加,以实现利用人工智能来改善其产品和服务;
    同时,各行各业也通过对数据的挖掘提升对消费者的了解。数据营销追求最大化利用已收集的数据,通过人工智能、大数据等技术高效挖掘消费者需求,并结合适当的广告进行精准投放,以实现高转化效果。在本次数据革命中,中国应吸取有关教训,加强对数据领域的重视并开发出领先的数据分析、数据处理工具,拥有长线思维并取得市场领先地位[4]。

    现有相关文献主要研究了企业应该如何通过数据处理、数据分析进行转型,但对数据加工企业缺少深入研究,因此,本研究聚焦于数据加工企业,并以数据标注行业为重点研究对象,归纳数据标注行业所面临的市场现状,揭示出在此过程中企业面临的困境及其需要升级转型的原因。选择数据标注行业为重点研究对象的原因在于,一方面,数据标注是数据领域中的基础工作,具备一定的普适性,同时也是全球利用数据进行智能革命最重要的工具,影响范围广泛;
    另一方面是因为数据标注行业相比于数据挖掘、数据采集、数据分析等其他数据领域起步较晚,市场尚存在众多不确定性因素并具备一定的可塑性,研究数据标注行业是对中国经验的总结与提炼,可以为世界其他国家与地区提供借鉴与参考。

    2.1 研究方法与数据来源

    利用CiteSpace 软件对代工企业相关研究进行了梳理与分析。首先以“代工企业”为关键词在中国知网(CNKI)数据库进行文献搜索,检索来源选择CSSCI,得到2000 年至2021 年12 月的文章674 篇。由于在文献中有可能存在对代工企业的叫法不一致,为了避免文献的疏漏与缺失,在筛选文献的过程中对“代加工”“original equipment manufacturer”等词进行检索,以确保文献的完整性;
    同时,在Web of Science 上选择核心数据库进行检索,以补充相关英文文献。此外,为进一步保证文献的准确与完整,通过EBSCO 等数据库进行补充检索有关研究。最后,通过对所检索得到的文献的相关性进行人工筛选与确定,将发表时间筛确定为2000—2022 年,最终得到英文文献41 篇、中文文献62 篇,即样本文献共103 篇。进一步对样本文献进行精读,整理与分析针对代工企业的研究,以此构建研究框架与研究体系。

    2.2 可视化分析

    2.2.1 发文时段

    如图1 所示,最早出现的为英文文献,时间为2004 年;
    中文文献则最早出现在2006 年。英文文献发表日期较为平均且发展相对缓慢;
    中文文献在2011 年之前经历了相对低缓的发展期,于2012 年达到了发表数量最大,并于2014 年之后进入了平稳期。总体来说,中文文献虽发文时间较晚,但整体发文量更多。

    图1 样本文献发文时间分布

    2.2.2 计量分析

    为得到代工企业研究的重点范围与研究方向,统计了英文组文献聚类关键词及聚类结果,如表1所示。其中,聚类关键词包括渠道结构、知识、选择、创新、不对称的成本信息以及定价策略;
    聚类模块值大于0.3,聚类平均轮廓值大于0.6,表明代工企业研究的关键词网络结构紧密、聚类结果显著。从关键词共现及聚类结果来看,国外有关于代工企业的研究多聚焦于代工企业的销售渠道构建、知识获取、合作对象选择、创新、不对称信息及定价策略等。由于各国技术、劳动力优势各不相同,代工企业多位于亚洲地区,位于欧美国家较少,因此欧美学者对代工企业的研究相比于亚洲学者相对较少,且研究方向多集中于对代工企业较为系统的内部战略管理研究。

    表1 样本英文文献关键词及聚类分析结果

    从发表样本文献的期刊来看,首先,中文文献发表期刊分布较为均匀,无明显头部期刊;
    其次,多数发表在影响因子较低期刊,表明研究质量有待进一步加强;
    最后,中文期刊数量明显多于英文期刊数量,表明中文期刊对于代工企业的接纳度、引领度以及对该领域的研究兴趣均高于英文期刊。此外,从中文文献对代工企业主要的研究方向可知(见表2),中国的有关研究多聚焦于代工企业的升级转型,且研究方法多为探索性研究及案例研究,所选择的代工企业主要分布在轻工纺织行业及重工制造行业。

    表2 样本中文文献主要发表期刊和研究方向 单位:篇

    表2(续)

    总体来说,中文文献从2010 年起多侧重于研究代工企业的品牌升级与转型以获取生存及盈利空间,而英文文献从渠道选择、创新、定价策略等角度出发研究代工企业的发展方向,两组文献均缺乏对科技代工企业的系统性研究。其中仅有1 篇文献“科技代工企业转型升级的自我更新与资源整合——以S 集团为例”对科技代工企业的转型升级进行了案例研究,并总结出对科技代工企业升级转型的相关建议与作用机制。随着数字化经济的不断发展,对科技代工企业的研究将成为未来新的研究热点。

    2.3 “代工企业”概念起源与产业结构改变

    “代工”(OEM)概念最早在中国台湾于20 世纪80 年代末提出。全球的半导体产业通过代工方式由最初的单一设计制造拆分为设计、制造、封装与测试的四业分离,提高了半导体的制造与生产效率,由1993 年的770 亿美元产值升至2008 年的2 650 亿美元;
    而全球代工业也由1995 年的42.8 亿美元提升至2007 年的221.0 亿美元[5],并主要集中在中国、泰国、越南等东南亚地区。在参与全球化的过程中,中国根据自身的劳动力优势和充足的自然资源,以承包的方式参与国际分工,并逐渐获得技术溢出和资本积累。在参与国际分工初期,中国通过劳动力优势在纺织、食品等劳动密集型产业中不断获得资本累积并稳步提高国内生产总值[6],同时通过代工出口方式取得了对外贸易的连续顺差,逐步确立了中国在全球的经济地位。然而,随着国内原材料及劳动力成本的不断上升,中国的代工利润率呈不断下降的趋势[7]。此外,由于代工企业自身调节能力不足,无法应对突然改变的市场需求,造成了代工企业与其所处市场的隔阂与疏离[8]。代工企业由于本身的高替代性以及对委托方的高度依赖,导致其内部创新发展动力不足。因此,中国代工企业面临着利润空间被进一步压缩及技术更新速度较慢的双重压力,亟须推动代工企业的升级转型,摆脱处于价值链底端的被动地位。

    2008 年的世界金融危机后,欧美市场的需求普遍降低,导致全球代工行业的订单持续下降[9],同时部分代工企业由于高能耗、高污染而难以在中国继续生存,许多委托方将机会看向了劳动力成本更低廉的东南亚国家,因订单转移、利润空间不断被压缩,部分实体代工企业纷纷破产倒闭,此时,中国巨大的人工智能市场以及企业对数据的需求使得数据代工行业迅速崛起,并朝着专业化、细分化、场景化的方向发展。

    3.1 数据工厂的参与主体

    近年来,数据标注行业逐渐兴起,根据2020 年iResearch 的统计资料,数据标注行业在中国的市场规模已超过36 亿元,并预计将以21.8%的增长率持续增长,到2025 年,中国数据标注行业的市场规模有望突破100 亿元[3]。即便如此,数据标注行业仍属于新兴产业,市场需求量较大、准入门槛偏低,目前属于野蛮生长的状态;
    且由于其属于劳动密集型产业,受到人工成本上涨、同质化竞争等因素的影响,行业正面临着巨大的挑战。数据标注行业主要对接大量AI 实验室以及初创型AI 公司,这类企业由于规模有限,在产品研发过程中面对成本方面和管理效率的挑战。因此,对于初创型企业和研究实验室来说,寻求数据标注企业为其提供处理后的数据进而进行机器学习,是其提高研发效率和节约成本的最佳方式。

    数据标注行业目前主要有3 种市场结构。第一种是转包结构,即数据供应商在接到客户项目后将项目拆分并转包给外部标注团队执行。转包模式可以利用拥有丰富流程管理经验的中间商承担沟通角色,并帮助解决数据标注中出现的问题,使数据质量相对稳定。第二种结构为众包模式,即需求方直接在众包平台上发布任务,并由个人或标注团队接单执行。众包结构的好处是灵活性更强,可以雇佣大量兼职人员完成工作任务并且降低企业的运营成本;
    然而,其缺点也同样显著,即流动性更强的兼职人员无法保证数据的隐私性与安全性,他们的专业背景和工作能力也无法有统一的数据处理标准,分散的地理位置也降低了沟通效率,如果委托机构临时需要修改或调整、核对标注任务,流动性较强的兼职人员则无法及时满足需求。为了弥补众包模式结构的缺陷,近年来许多众包平台开始制定相应的制度,例如对接收众包任务的团队和兼职人员进行考核,并采取末位淘汰制度以提升平台整体的标注质量和竞争力。目前,中国以百度众测、京东众智为首的众包平台发展迅速。最后一种结构为自建团队的模式,即数据供应商直接组建全职标注团队,并在接受委托任务后派出合适的工作团队和项目经理跟进执行。在自建团队的模式中,数据标注的效率和质量都得到了保障,内部人员稳定,同时,自建团队的数据服务商往往支持驻场、第三方部署等业务方案,极大地保证了数据的安全性;
    然而,自建团队对数据服务商的资源、能力、规模以及现金流都有更高的要求,对比众包模式和转包模式价格更高。2021 年中国主要数据标注企业及众包平台排名如表3 所示。

    表3 2021 年中国主要数据标注企业及众包平台排名

    3.2 国外先进企业发展现状

    由于发达国家的劳务费用很高,很多科技企业依赖亚马逊土耳其机器人(Amazon Mechanical Turk,MTurk)等众包平台来获得标注后的数据。MTurk 是美国亚马逊公司开发的数据标注众包平台,通过将需要处理的数据外包给以印度为主的东南亚国家来降低成本。然而,这样的方式无法保证标注任务的准确性,也无法保证数据的安全性。近年来,美国也成立了很多数据标注企业,其中以Scale AI 发展得尤为迅猛。Scale AI 成立于2016 年,通过近6 年的发展已成为该行业中的龙头企业,为客户公司提供大量的数据标注服务。Scale AI 主要通过提高数据标注效率的方式抢占市场,其研发的软件已经能够通过算法自动甄别物体,并通过初始数据快速筛查出有效数据,提高了数据标注效率和准确性。Scale AI 强劲的市场表现使其市值在2016— 2021 年的5年时间中超过了73 亿美元[10],并获得了多家投资公司的投资意向。目前,这家年轻的公司已经与众多科技公司达成合作,未来将继续致力于为机器学习提供更高效率的数据标注服务。另外,澳大利亚人工智能巨头澳鹏科技公司同样发展强劲。该公司成立于1996 年,通过长期的发展,其客户已遍布全球。澳鹏科技公司拥有专业的数据科学家团队,通过AI算法辅助提高了标注的效率并降低成本。不仅如此,澳鹏科技公司在多年的发展中进行了大量的收购活动以扩大全球服务覆盖的范围和规模;
    同时,尤为重视公司运营的合规性,于2019 年发布众包资源道德规范,并与世界经济论坛等领先组织合作,致力于提高人们对数据标注工作的合规性与道德认识。

    纵观数据标注行业国外先进企业的发展轨迹,不难看出海外地区的数据标注领域趋向于更高的市场集中度,科技公司在寻求数据标注企业进行合作时,更倾向于寻找大型、综合型服务商来为其提供高质量的数据服务;
    同时,海外的数据标注市场正在趋向成熟,类似澳鹏科技公司这样的大规模企业正在逐渐收购中小型标注企业以提高自己的议价能力,并通过寻求投资等方式持续加大研发投入,以提高自身的技术能力和标注效率。

    3.3 数据工厂发展的潜在问题

    经过近些年来的发展,数据标注已经成为人工智能领域的劳动密集型产业,并处于人工智能高科技产业链的最低端,行业内的竞争比拼的是人力和价格。中国数据标注行业企业数量庞大,大多为中小型企业,因规模较小、资金有限等原因,只能依靠微薄的利润获取生路,缺乏扩大规模的能力;
    同时,众多企业缺少相关的优秀人才对公司内部进行管理和创新。数据标注的准确性能够为企业带来竞争优势,也决定了人工智能算法的有效性,因此,随着数据标注行业的不断成熟,未来发展趋势将会是从量的层面转而追求数据质量、安全性以及隐私性,这将给数据标注行业带来前所未有的挑战,作坊式企业将很难与自建团队并具有一定规模的大企业竞争;
    同时,随着技术发展,数据标注行业未来必定会由劳动密集型产业转为技术密集型产业,当下大部分数据标注企业将会面临市场的淘汰。因此,数据标注行业的转型与升级具有重要意义。

    3.3.1 技术无法满足行业发展需求

    近些年来,对深度学习、大数据和云计算等技术的研究逐渐兴起,各种数据信息也以指数级的速度随之增长,相关技术的多元化应用也基于大量数据进行研发并提高了多个行业的生产及运营效率。然而,大数据体量庞大、数据类型复杂的特征向数据标注行业提出了巨大的挑战。另外,目前由于数据标注人员的专业背景较弱,无法满足不同领域或某些专业性较高行业的数据标注需求。目前数据标注任务主要分为描点标注、区域标注、标框标注等几类,不同的行业应用对数据标注的任务存在一定的差异性。人工智能技术的不断成熟将使得一些行业对所用数据有更高的需求,然而,由于现有标注任务细化程度较低,很难达到相应的技术标准。例如,无人驾驶汽车是数据标注的一个典型应用行业,主要的标注任务为图像标注中的指示牌标注和行人标注,其中指示牌标注用于识别交通规则,行人标注用于分析道路路况以保证安全驾驶,既不可以错标也不可以漏标;
    然而随着技术的进步,大家希望能够进一步提升无人驾驶的安全性,不仅能够识别出路况,还能够依据前方车辆的行驶轨迹判断出危险驾驶车辆并主动避开,为此,数据标注需要更加细化其标注内容,提高专业性,通过对算法模型进行补充和完善来满足更高的应用需求。

    3.3.2 效率较低且质量参差不齐

    机器学习对数据的需求量巨大,然而目前大部分的数据标注任务仍然需要通过人工标注的方式来完成,即“有多少人工,就有多少智能”。目前的数据标注工作普遍是以委托方的需求为基础,由数据标注团队根据客户的需求并借助其提供的工具或其他标注工具来完成画框、标记等工作,但由于标注员能力的参差不齐及标注工具功能的不完善,数据服务供应商在标注效率上有所欠缺。据统计,在对数据精确度要求较高的数据标注工作中,一个图像需要花费大约20 min,而完成整体数据集的标注工作则需要约53 000 h,低效的数据标注工作很难满足人工智能对数据的需求[11]。不仅如此,数据标注工作的准确性也很容易受到影响。由于数据标注具有重复性、高强度以及目前质量审核流程不健全等特点,会导致标注任务的合格率低、标注不完整等问题,从而影响对数据后续应用的准确性。目前大多数众包公司会采用人工标注和半人工标注两种方案,因为标注人员由于缺乏专业知识使其难以应对于其而言完全陌生的专业标注任务。同时,对于数据标注工作的结果缺乏统一的判断标准,使得部分标注人员通过投机的手段来获得奖励而不考虑数据标注的质量。近年来,尽管如百度众测、京东众智等企业已尝试制定特殊的机制来提高标注质量,但是尚未系统地解决这个问题;
    同时,完全的人工标注方案需要标注人员进行高强度作业,极易出现疲劳标注、主观标注等问题。在半人工标注中,不同的编码技术及特征识别技术也会使得数据标注的结果产生误差、差异化较大等问题。

    3.3.3 工作方式缺乏安全性、合规性

    在数据标注过程中涉及很多敏感的数据,比如人脸、语音等内容,因此数据安全成为了人工智能企业选择数据标注服务商重点考虑的因素之一。然而,一些数据标注企业出于成本方面的考虑,也会将这些敏感的数据分发、转包给其他服务商或者个人,导致数据泄露风险大幅提升。随着经济的发展和人们隐私意识的提高,大部分企业、政府等机构开始重视数据的安全性,但是仍然存在部分企业及组织为了降低其数据处理成本,将包含用户私人社交内容的图片及数据层层转包给其他国家的标注团队的现象。据路透社报道,美国聊天软件脸书曾将部分数据标注工作转包给了印度的威普罗公司(Wipro),威普罗公司的数据标注团队有260 余人,对用户的私人图片及内容按照5 种类别进行标注[11]。脸书在数据安全方面的处理引起了大量用户的担忧和不满。

    此外,一些数据标注公司为规避风险出现数据处理违规行为。部分企业在数据处理过程中,将涉及公民隐私的数据拆成不同部分,每段均无法识别到个人,到了需求端再自行整合起来并形成对个人的完整数据。这类技术规避行为虽然在一定程度上保障了数据的安全性,但事实上仍然涉嫌泄露私人信息,并给企业带来违规运营的风险。

    3.3.4 代工成本日益上涨,已无法再享受劳动力红利

    随着时代的进步与人们生活水平的提高,劳动密集型产业已逐渐与我国经济社会发展形势呈现出不匹配的现象。1982 年,中国劳动人口占总人口比重为58.8%,并在2010 年达到70.1%的峰值,劳动力一直处于充裕且溢出的状态[12]。但在2010 年以后,由于计划生育导致的出生率下降问题逐渐显露,劳动人口无法得到有效补充。另一方面,中国现有的劳动力人口平均年龄逐渐提升,使得劳动力人口比重持续下降。上述情况将给中国的劳动密集型产业带来负面影响:首先,劳动力人口供小于求,并由于养老负担的加重导致劳动成本直线上升;
    其次,劳动力人口平均年龄不断上升会显著影响生产率。因此,劳动密集型产业转型升级为技术密集型产业已是大势所趋,中国企业必须大力开展技术升级、提升核心竞争力并维持经济社会稳定发展[13]。而数据代加工属于劳动密集型产业,通过大量的人工投入以获得微薄的利润,数据标注员每天需要重复地拉框、标点,将数据进行处理和标注来为AI 企业的算法提供大量的数据。因此,开发一款能够实现自动化数据标注的工具既能够解放人力,减少因劳动力成本上涨对企业造成的不利影响,又是行业发展的必然结果。

    3.4 行业集中度上升将是未来趋势,经营环境面临挑战

    在有关微观经济学和产业组织理论的研究中,不同学者对市场结构如何影响企业的创新及生存能力持有不同的观点。第一种观点以熊彼特的创造性破坏理论为基础,认为企业的创新及存续能力与行业的集中度有关;
    第二种观点认为较高的行业集中度利于企业创新和可持续发展;
    第三种观点则认为行业集中度、企业创新两者之间存在一种倒“U”型关系,即企业的创新会随着行业集中度的提高而提高,呈现正相关的促进作用,但随着行业集中度提高到某个峰值之后,行业集中度将会对企业创新能力起到负相关的抑制作用[14]。无论是哪种观点,都可以看到数据标注行业集中度上升将会是未来趋势。原因在于,首先,行业集中度提高会使得行业内的企业规模扩大,易于积累资源和资本,从而促进创新技术的研发;
    其次,行业集中度较低会使得行业内的企业数量众多,出现为了争夺市场份额而无序竞争的现象,因此提高行业集中度能够使行业竞争规范化、资源配置合理化[15],良好的行业秩序有利于创新行为出现,使得企业有更充足的资源进行研发活动。

    目前,数据标注行业的集中度属于适中状态。这一方面是由于京东众测、澳鹏科技公司等企业在行业发展初期便进入了市场,抢先积累了客户资源;
    另一方面是目前大部分科技公司对数据的准确性要求尚不高、行业壁垒还不显著,给资金与研发实力相对薄弱的中小企业留有一定的发展空间。然而,未来随着上游科技企业技术的不断成熟,数据标注行业将需要承担内容更细化、专业性更强的标注任务,这就需要标注公司不断开发专业化数据处理工具以满足客户需求并维持及扩大其市场份额。因此,充足的资金与研发能力在未来将成为数据标注行业的壁垒,一批中小型企业将面临业务收缩,并购将成为行业内部趋势,进而提升了行业集中度。

    4.1 竞争优势相关理论概述

    在大数据经济中,数据标注企业如何获得竞争优势成为了时代新课题。目前,主要有两种主流观点来概述企业如何获得竞争优势——关注企业自身资源能力的资源基础观和聚焦制度情形的制度理论。在资源基础观理论中,Penrose[16]34-35关注组织自身的成长并用创造性的视角将组织看作资源的集合体,提出组织对异质性资源的高效获得和科学配置有助于提高自身绩效,并进一步形成不同于其他企业的竞争优势,从而保障自身的持续成长。资源基础观理论首次探究了资源异质性的领域,并确立了其对于形成组织竞争优势的重要意义。Wernerfelt[17]基于Penrose[16]35提出的观点,强调组织在制定战略时会更多地关注其自身所拥有的资源,同时指出组织获得高额利润的重点在于其内部的异质性资源和对知识及能力的构建。这一“资源—知识—能力”的视角为后续的研究提供了更大的空间,并为组织内部资源的分配和发展战略提供了参考。类似地,Barney[18]进一步提出对组织内部所拥有的资源、知识与能力的分析有助于组织作出战略选择。Barney等[19]认为,组织对资源的获取依赖于其是否掌握了充分的信息,并指出组织获得竞争优势的关键在于其拥有的资源是否具备价值性、稀缺性、不可模仿性和不可替代性,因为这类资源既有助于决策者计划和实行组织战略,也有助于组织通过异质性资源、事先竞争现实等方式构建位置壁垒,以成为市场领先者并达成企业的战略目标。

    在有关制度理论的探究中,主要代表人物为侧重经济学领域的North[20]和侧重社会学领域的Scott[21]460-484。在经济学视角中,North[20]认为制度是维护社会秩序的规则,用来约束和管理组织间的人际关系。相似地,Scott[21]460-484强调制度为约束、禁止等行动提供了可依据的参考。Scott[21]460-484认为制度是一种长久的社会结构,并由象征性要素和资源组成。两个以不同侧重点为基础的制度维度均强调了“合法性”在企业获得竞争优势中的重要性。“合法性”作为新兴的学术概念,范围不限于法律,还涵盖商业伦理规则。某种意义上讲,规则的疏密与企业可能面临的未来风险成正比。企业合法性主要包括3 个维度,分别为规制合法性、规范合法性和认知合法性。其中,规制合法性主要指遵守国家、政府以及组织所指定的规章制度;
    规范合法性是以道德和社会共同价值观为基础;
    而认知合法性是指人们在认识并理解所在组织时的思考维度。具有合法性的组织遵从道德,原因在于合法性可以促进组织扮演必要的社会角色并承担必要的道德义务。对于一个组织来说,建立完善的合规体系可以帮助其减少损失并实现长久的可持续发展。

    4.2 企业升级转型相关理论概述

    全球价值链理论和微笑曲线理论都提出代加工行业的附加价值很低,具有极高的可替代性,处于价值链的底端部分[22];
    同时,大部分代工行业仍属于劳动密集型产业,资源消耗较高而价值增值却很低。随着中国劳动力人口进入拐点,人口红利逐渐消失,面临人工成本上涨、劳动力人口不足等问题,许多欧美代工订单向东南亚转移。因此,中国的代工厂进行转型与升级迫在眉睫。

    Gereffi[23]认为企业转型升级是一个必不可少的过程,在这个过程中,企业能够完善自身能力、优化资源配置效率、拓宽经营市场,从而重新定位自身的业务内容。Humphrey 等[24]认为企业的转型升级是从劳动密集型产业到资本或技术密集型产业进行转变的重要过程。杨桂菊等[22]以价值链理论为基础,通过对3 家中国本土企业进行研究,指出中国大部分代工企业在转型升级过程中均不会摒弃原有的代加工业务,而会通过代加工的方式为自创品牌提供运营资金,最终实现转型升级。汪建成等[25]通过对中国的格兰仕企业的案例研究指出,格兰仕的自主创新是通过技术引进的方式完成的,并总结了其技术能力构建路径。也有其他研究对技术能力与品牌战略两方面在代工企业的转型升级过程中起到的作用进行了探讨。为了构建技术能力,代工企业可以通过在代工过程中得到的来自先进企业的技术溢出进行学习与吸收,并将其融入自身的生存运营中,最终实现转型升级。如陶锋等[26]注意到了代工企业在代工过程中得到的技术溢出和学习行为,发现学习倾向、厂商间信任等因素对代工企业的学习行为有显著影响,并提出中国的代工企业应该遵循引进消化、吸收、再创新的学习模式。在品牌战略方面,学术界拥有较为统一的观点,即品牌战略是代工企业转型升级中所需要考虑的重要因素之一。如徐印州等[27]以中国家电行业为研究对象,指出代工企业转型升级的关键性因素是良好的品牌意识。

    4.3 相关研究述评

    通过以上文献回顾可以看出,首先,企业可以通过具备异质性资源并对其进行整合来获得竞争优势,并通过竞争优势逐渐吸引客户人群并占据主导地位,这也导致特殊的资源及技术成为企业争相追捧的对象[28]。其次,企业在经营过程中必须考虑制度问题所带来的合规性及合法性,一旦进入市场,企业既需要思考所生产产品或服务的规范性,又需要思考企业业务所带来的社会价值[29]。现有相关文献对数据标注企业的研究较少,主要集中在对数据标注技术的研究,较少考虑该行业的优势来源及合规性,而数据标注行业的转型与升级恰恰是其获得竞争优势及合规性的重要条件;
    在对代工企业转型升级的研究中,对于制造业企业的研究占据了绝大部分,数据代工工厂因其兴起时间较晚、与制造行业的代工工厂相比有一定的异质性,相关研究较少,尤其是对代工企业通过战略及技术路径完成转型升级的过程与机制研究较少。代工行业属于劳动密集型产业,缺少相关的知识与技术;
    在现实中,很多代工企业通过优秀的生产制造能力来获得生存的必要砝码并逐步完成企业的转型升级。因此,本研究立足于已有相关研究成果,对数据代工工厂进行重点研究,并根据其与传统代工工厂的相似性和异质性探索其转型与升级路径。

    4.4 转型升级实践背景

    推动数字化经济加速发展、把握新机遇是中国《“十四五”数字经济发展规划》的重点内容。近年来,中国通过促进信息技术的发展与应用,极大地提高了生产效率,人们的生活方式也随之发生了深刻的变革。截至2020 年4 月,中国数字经济的核心产业已占国内生产总值的7.8%[30],为中国经济发展提供了有力的保障。与此同时,中国在发展数据经济中仍然面临着一些困难和挑战,主要表现为:第一,缺乏一定的技术创新能力,在个别关键领域中技术更新与改进速度较慢[31];
    第二,对数据资源的利用不够充分,仍然存在较大的挖掘与利用空间;
    第三,对数字经济的治理仍然需要进一步提高与完善。习近平总书记指出,数字经济的发展速度与影响程度将成为改变国际市场竞争格局的重要力量[30]。因此,进一步推动数字经济的发展及产业的转型以加强对数字资源的利用,成为了中国未来发展的愿景。

    国家《“十四五”数字经济发展规划》指出,中国到2025 年将全面迈向数字经济的扩展期,并完成数字经济核心产业比重达到国内生产总值10%的目标;
    同时,中国将持续推动产业数字化转型,加快建设相关支撑服务体系以提高实体经济的增长速度,到2035 年,将迈向数字经济的繁荣成熟期,成为数据经济发展的领导者。不难看出,数字经济发展已成为中国乃至全球发展的重中之重,而数据工厂作为推动数字经济发展的基础保障,将会对中国未来的经济发展起到重要的作用,因此,提高该行业的技术水平与生产效率会为中国推进数字化转型与治理提供有力支撑。

    20 世纪90 年代初,华为技术有限公司(以下简称“华为”)与鸿海精密工业股份有限公司(以下简称“富士康”)几乎同时在深圳创业,两家企业的发展轨迹堪称现代版的“牧羊人和砍柴人的故事”。由于中国的人口红利,富士康在中国获得了快速的发展,从沿海到内陆不断投资建厂,并成为苹果、三星等企业手机产品的最大供应商;
    然而,随着中国劳动力成本的提升,富士康在中国的订单慢慢缩减,业务也逐渐开始向东南亚地区转移以寻求更低的人力资本。反观华为,其通过薪酬、发展机会等吸引和激励有知识的大学生,培养了一支知识型人才队伍。截至2022 年4 月,富士康有120 万名员工[32],未更早地从劳动密集型的代工厂升级为技术密集型企业,长期因“血汗工厂”污名缠身;
    而华为仅有19 万名员工[33],走上了技术密集型发展之路,坚持“深淘滩、浅做堤”的互利共赢战略。上述两家企业不同的路径选择使得两家企业人均产出悬殊。因此,基于传统制造企业的发展历程并结合高质量发展和更高水平开放经济体的角度,本研究提出数据工厂从代加工转型为原始设计制造商(ODM)/原始品牌制造商(OBM)的发展逻辑,并从技术和战略两个维度提出转型升级路径(见图2)。

    图2 数据标注行业转型升级路径

    5.1 技术路径

    5.1.1 细化数据标注任务,提升数据标注效率

    通过近些年的发展,人工智能技术在不同领域均得到了广泛应用,部分行业对数据标注的要求也逐渐提高,原有的标注方法难以满足行业需求。以智能安防为例,更多的企业希望有关产品从原有的被动防御功能转为具有主动警示的功效,由此,对数据标注任务的要求也不断提高。例如,当一个面色紧张或手举尖刀的人走进银行时,安防系统应马上启动预警系统,通知工作人员以保护其他客户的财产及人身安全。对数据标注任务的新需求将包括危险物品标注、表情标注、行为标注等。新的数据标注任务有利于进一步提高人工智能算法模型的准确性,帮助安防系统学习与识别异常行为,并提高该行业的人工智能应用程度。类似地,由于技术的发展,其他行业也将会对数据标注任务提出更细化的需求。因此,开发新的技术工具实现标注任务细化、进一步促进机器深度学习能力将成为未来数据标注的发展方向。同时,为了提升数据标注工作效率,数据标注企业应逐渐由现有的人工标注模式转为“人工标注+智能辅助”,并最终实现“机器标注+人工辅助”的模式。通过智能模型对所需要标注的数据进行提前处理,然后用人工标注方法对数据进行校正与核验,有利于降低劳动成本并提高标注效率。目前,一些数据标注企业已经尝试开发相应的智能辅助工具。开发以人工标注为主、智能标注为辅的半自动化标注工具并逐步减少人工标注的比例,最终实现以机器标注为主、人工标注为辅的模式将会成为未来的发展趋势,然而,截至2021 年6 月,中国数据标注企业的机器标注比例仍然只达到30%[11]。

    5.1.2 制定行业规范,提升数据标注工作的质量、安全性和合规性

    目前,数据标注行业各企业对图像标注的要求与方法都各不相同,标注结果文件各异,严重影响数据的后续统一使用;
    同时,大部分公开数据集并非基于场景进行标注,会对后续的算法训练造成一定的影响。因此,应对标注流程和标注结果形式进一步规范,以提升标注数据的通用性。近期,中国汽车工程学会已正式发布《智能网联汽车场景数据图像标注要求与方法》,旨在为行业提供场景数据图像标注的基本规范,促进场景数据图像标注的标准化,提升场景数据的通用性和易用性,推动汽车行业快速发展。数据标注中的其他场景数据也应该制定统一标准,以推动行业生态的合规性及通用性,进而满足未来可能的跨界需求。

    另外,数据标注企业可以通过数据分割、数据治理、数据安全传输和区块链等技术来提高数据标注的安全性和隐私性。数据治理是通过对数据处理的整个流程进行识别、监控、分析等一系列管理活动来提高组织的管理水平,并确保数据在一个安全的环境下进行使用[34]。数据分割是通过将数据标注任务拆分为多个部分,并指派给相互陌生的团队来保证数据的安全性[35],可以有效避免隐私数据被整体打包并泄露,对数据进行了多重保护。数据安全传输是指通过研发一个安全性较高的数据传输框架来对数据进行加密、压缩的传输方式,有效避免传输过程中存在的被盗、暴露和复制等安全性问题[36]。运用区块链技术可以通过采用强加密算法和分布式技术来提高数据安全性,通过采用区块链技术,标注人员可以直接与需求企业进行对接,避免了数据标注任务的层层转包,提高了数据的安全性,也能防止个人用户批量搜集数据,最大限度地保障数据的安全。

    5.2 战略路径

    5.2.1 扩大企业规模

    Fazzari 等[37]认为,资本市场的不完善会导致不同规模的企业在寻求外部资金时具有可获得性差异和成本差异。由于成立时间较短、未有完善的管理能力以及资本实力,与大企业相比,小企业通常面临较高的外部融资成本以及较大的内部资金压力,因此,中小企业很难在市场集中度日益上升、竞争强度较大、对技术研发要求较高的行业中存活[38]。目前,处于尾部的中小型企业仍是市场中的主要供应力量,然而随着未来数据处理体系逐渐成熟,客户需求更加多元化,一批中小型厂商将会面临业务收缩、研发能力无法满足需求等情况;
    同时,由于数据标注企业所面临的客户数量较多,对数据处理的质量和要求具备一定的多样性,中小企业难免会出现管理能力有限、对接能力不足等问题。因此,扩大企业规模将成为市场趋势。头部企业可以通过收购来丰富自主数据采集系统从而完成更具多样性的任务,而中小型企业也需要通过兼并等方式提高自身竞争力,提高自己的议价能力,避免资金与研发实力成为企业发展的壁垒。目前,国内较为典型的数据标注企业并购事件为企业倍赛BasicFinder 收购北京欣博友数据科技有限公司以提升自身数据收集及处理能力。综上,通过兼并与重组等方式扩大企业规模将是数据标注行业中企业未来存续并得以转型升级的第一步。通过扩大规模,企业得以在行业中继续生存,并为未来的技术创新积累资本实力。

    5.2.2 开发自主品牌,成为原始品牌制造商

    数据标注企业应积累创新研发能力和资本实力,通过投资等方式与上游企业进行合作。借鉴Beverelli等[39]的研究思路,数据标注企业凭借自身的数据处理能力与实力,拓宽经营市场,向价值链上游行业进行扩张。数据标注企业将不仅仅以代加工为主,而是依靠自身优势与其他上游公司进行合作,建立自主品牌,由此为企业带来更大的优势。第一个优势是企业通过与上游企业合作,正式进入人工智能价值链上游领域,而不再仅仅是做基础性、技术含量较低的工作[40]。通过建立自有品牌,企业将能够彻底地完成产业升级与转型[41]。第二个优势是通过自立自主品牌,企业将能够提升自身的知名度及声誉,为自己原有的数据标注代加工行业提升市场认可度、竞争力和议价能力。通过提高数据处理能力与其他企业进行合作并建立自主品牌的方式,提高数据处理能力与数据处理质量,以吸引更多的潜在客户。在此基础上,企业需要具有充足的资金与研发能力加快数据标注智能化,成为行业领先者并带动该行业走向智能化的转型升级,进而降低人工成本、提升工作效率[42]。数据标注的智能化也意味着该行业不再是劳动密集型产业,由此避免中国数据标注企业与东南亚等人工成本更低的地区进行价格竞争,实现行业发展由量转向质的转型革命。

    5.3 培养企业创新能力并持续提高研发投入

    企业家自身的创新意识培养有利于塑造其机会感知能力。强化创新意识可以有效促进数据代加工工厂发掘潜在机会、实现转型升级。贯彻创新理念对数据代加工工厂整合有限资源、实施战略性创业行为具有极强的促进作用。对于一家企业的转型工作来说,至关重要的就是要推动其发展方向向着技术创新型进行转变,并且形成创新发展的内在动力,逐渐形成技术创新的核心竞争力,进而能够帮助企业从容应对运营中的各种障碍[43]。具体来说,企业进行技术创新可以通过以下过程:首先,通过整合与配置所拥有的资源提高原始创新能力。企业的原始创新能力能够帮助其不断进行创新,形成竞争优势,并在行业中处于领先地位[44]。其次,企业在此基础上不断学习国外的先进技术,并根据所学习内容找到适用于自身发展创新的关键,完成将先进经验用于自身的知识转化,并结合自身实际进行再次创新。

    中国正处在由经济增长到经济高质量发展的关键时期,在全球发展的浪潮中保持领先地位的关键不仅在于经济发展的速度和规模,还在于经济发展的质量和技术研发能力。而研发投入被视为创新能力的关键因素,在推动中国经济发展的道路上发挥了重要的作用。为保证企业的长远发展,数据代工工厂应持续加大研发投入,加快数据标注智能化以成为行业领先者,并带动该行业走向智能化的转型升级,降低人工成本、提升工作效率;
    通过先进技术的研发,有利于提升数据标注企业在市场占据的份额,吸引大量投资者对企业进行资金支持,助力中国数据标注企业进军国际市场。

    本研究分析了数据标注行业如何基于目前存在的问题与挑战进行转型升级的技术与战略路径,展现了数据标注行业转型升级的过程、逻辑与实施细节。研究发现,目前我国数据标注行业面临的主要问题包括:第一,数据标注需要更加细化标注内容以提高专业性,而行业技术尚无法满足行业发展需求;
    第二,人工标注方式使得标注效率较低且质量无法保证;
    第三,尚未有统一的行业规范,部分数据标注企业存在安全及合规风险;
    第四,由于劳动力人口比重持续下降而代工成本日益上涨,行业的利润空间正在逐渐被压缩。同时,随着数据标注任务所需要的专业性不断提升,充足的资金要求与研发能力将会提高该行业的进入壁垒,而行业集中度将会不断提高,部分数据标注企业将会面临经营挑战。对此,从技术与战略两方面为数据标注行业提出转型升级的路径选择。从技术路径出发,数据标注企业应通过开发新的技术工具、促进机器深度学习能力提高以实现标注任务细化、提升数据标注效率的目标;
    从战略路径出发,数据标注企业首先应扩大规模以保证自身生存并为未来的技术创新积累资本实力,其次通过建立自主品牌提高市场认可度以吸引更多的潜在客户,最后持续培养创新能力并提高研发投入以形成核心竞争力,实现由量转向质的转型革命。

    目前,百度公司已在山西转型综合改革示范区建立了山西数据标注基地,为产业链各环节提供数据保障并支持山西人工智能产业发展,截至2022 年1 月,该示范区AI 训练师作业人员已达到4 300 余人[45],成为国内拥有从业人员最多和产值规模最大的单体数据标注产业基地;
    另外,新疆皮山县也已建立数字经济产业园,并拥有上千名员工[45]。然而,目前从事简单、机械、重复劳动的人工数据标注岗位很有可能会被未来的机器标注所替代,因此,对数据标注行业的探索与研究将有助该行业对新技术的研发,并为大量员工提供学习的机会以提升其自身素质、避免被时代淘汰。数据标注行业的转型与升级有助于中国行业内企业保持国际领先地位,并保证这些产业园的持续发展;
    同时,数据标注行业的代工性质及所从事工作的机械性与重复性在数据领域的众多工作中具有典型性与普适性,因此,对数据领域中的其他行业的转型升级也可提供一定的启示借鉴。人工智能技术的进一步成熟和大规模应用必将对大量工作岗位形成替代,甚至包括当前一些薪资待遇较好的岗位,如数据分析师、数据挖掘等,因此,能否通过产业升级、提高知识含量来提高生产率和附加值决定着中国未来的经济发展前景,对其他行业的企业也有着重大意义[46]。

    随着人工智能的进步与数字经济的快速发展,数据标注等行业在经济社会中的影响力越来越大,并逐渐成为了热门行业,数据代加工工厂由注重量转向注重质、由劳动密集型产业转向技术密集型产业,有利于行业内企业形成核心竞争优势,是扩展其价值链活动范围的重要途径。只有通过累积资本与不断创新,真正实现转型升级,才能保证企业不会因缺乏先进的技术以及严峻的经济环境所淘汰,维持自身的长期健康发展。

    猜你喜欢 代工转型企业 企业当代水产(2022年5期)2022-06-05企业当代水产(2022年3期)2022-04-26企业当代水产(2022年2期)2022-04-26转型发展开新局 乘风破浪向未来中国核电(2021年3期)2021-08-13敢为人先的企业——超惠投不动产云南画报(2020年9期)2020-10-27航天器在轨管理模式转型与实践航天工业管理(2020年4期)2020-06-16OEM的危机与转机中外玩具制造(2020年5期)2020-05-09代工生产或将“松绑”汽车观察(2018年12期)2018-12-26聚焦转型发展 实现“四个转变”人大建设(2018年5期)2018-08-16转型童话世界(2018年13期)2018-05-10

    推荐访问:数据 代工 为例

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章