百度数据众包平台

百度联合清华，全球首个十亿像素数据集来了！

2021-04-15 百度数据众包

近日，百度智能云数据众包与清华大学开展项目合作，推进全球首个十亿像素级视频数据集 PANDA 的建设工作，用以支持未来在公共安全、智慧城市、虚拟现实等领域的各项研究及应用。

本次项目共完成7200余帧亿级像素图片，共计超过106万张切图的数据标注工作，包括物体间关系近2万组、交互行为近20万个、移动物体轨迹点近30万组，以及数十亿 3D 点云数据的语义分割及实例标注，极大地丰富了 PANDA 现有数据集，并为清华大学后续举办的 GigaVision（十亿像素级机器视觉）主题挑战赛提供数据支持。

清华大学 GigaVision 挑战赛
PANDA 数据集视频演示

近年来，行人检测、轨迹跟踪、动作识别、异常检测、属性识别等计算机视觉分析，已广泛运用到无人驾驶、智能安防、智慧城市等多个领域。AI 算法应用的背后，离不开大批量、高质量的标注数据。百度数据众包作为国内最大的 AI 数据服务提供商，具备数据“采、标、存、管、训”一体化的服务能力，专注于为人工智能的发展与应用赋能。

据了解，PANDA 是全球首个十亿像素级视频数据平台，它突破了人眼视觉分辨率的极限，赋予视觉计算更高质、更真实、更全面的源数据，填补了国际上“宽视场、多对象、高分辨率”数据平台的空白，为新一代智能处理技术研究提供了不可或缺的数据基础。（主流图像及视频数据集对比）

清华大学电子工程系副教授、PANDA 数据集项目负责人方璐介绍，此前清华大学团队曾围绕 PANDA 数据集，在计算机视觉顶级国际会议 ECCV 2020上，组织了 GigaVision 2020挑战赛并引起广泛关注。目前，团队正在筹办 ACMMM 2021会议的 GigaVision 主题挑战赛，以及全球人工智能技术创新大赛的相关赛道。

研究现实世界中大规模人群的复杂行为及交互方式，对于人工智能系统更好地理解人的行为与意图，进而提升智能决策能力有着重要意义。PANDA 数据平台的构建，使得对于大场景、多对象、复杂关系的建模与分析成为可能。未来，百度将持续与清华大学合作，以技术赋能，推进 PANDA 数据平台的建设与发展。

百度作为国内人工智能领军企业，也是中国唯一在智能交互、智能基础设施和产业智能化领域，都形成了优势的 AI 平台型公司。依托百度多年 AI 数据经验，百度数据众包专注以数据智能对外赋能，致力于提供优质数据服务，携手政府、企业、高校等更多合作伙伴，共同推进新一代人工智能的高质量发展。

分享至：

百度与山西政府再合作：打造数据交易平台释放数据要素价值

2021-04-07 百度数据众包

“上线半年，累计交易额超5000万元！”近日，山西省内首个数据交易平台，交出了一份漂亮的“成绩单”。

据“山西省人民政府”微信公众号发布消息，由百度智能云数据众包与山西政府合作共建的“山西数据交易平台”，自2020年7月上线以来，经过半年多的试运营，目前平台已引入数据服务供应商超1100家；经过数据脱敏，上线AI数据集169个，接入API数据接口147个，总数据量超1.3亿条，涵盖语音识别、文字识别、人脸识别、自动驾驶、自然语言处理等多种数据场景；平台自上线以来，累计完成交易额超5000万元。

据了解，山西数据交易平台是山西省内首个数据交易平台，以AI数据为特色，以建设成为全国最大AI数据交易中心为目标，以构建数据融合生态，培育山西数据要素流通市场为使命，面向山西乃至全国的数据供求方，提供集数据采集、清洗、标注、交易、应用等为一体的全栈式数据服务。

依托百度AI、大数据、安全计算等产品技术与生态资源能力，该平台已在交易服务、功能创新、资源建设、交易合规方面形成四大核心能力。

在交易服务方面，平台构建了涵盖业务咨询、方案定制、资源协调、项目管控、售后服务等全流程的服务能力；在功能创新方面，平台内嵌AI数据可视化管理、智能驾驶标注数据自动清洗等特色功能；在资源建设方面，平台引入多行业、多场景AI数据资源，并整合政务、企业、社会等多类型数据资源；在交易合规方面，平台结合现行法律法规及行业规范，制订实施数据安全等级管理、交易流程安全管理等策略，保障数据交易安全合规。

未来，平台还将积极探索融合区块链、多方安全计算(MPC)、可信执行环境(TEE)等前沿技术，提供完善的数据登记、数据安全、数据融合等解决方案，打造“使用即交易”全新模式。

据悉，这是山西政府与百度的再度合作。

2017年7月，山西省政府与百度公司签署《战略合作框架协议》，根据协议内容，双方将依托山西现有政策资源和产业基础，充分发挥百度公司人工智能、大数据、云计算等技术优势，开展全方位、深层次战略合作，为山西经济发展、产业升级、城市管理和科技创新提供支撑。

围绕数字山西战略，按照“政府引导、市场主导”的原则，山西转型综合改革示范区(简称“山西综改区”)与百度智能云数据众包多次展开合作，以数据标注产业为切入口，着力构建集数据采集、清洗、标注、交易、应用为一体的基础数据服务体系。2018年9月，双方首次合作，共建“百度(山西)人工智能基础数据产业基地”，目前已发展成为国内人员和产值规模第一的单体数据标注基地。

依托于基地的数据服务能力，山西数据交易平台后续将进一步整合数据服务产业资源，引入数据生态企业，打通数据服务产业链，盘活上下游，促进区域大数据产业新生态的形成与发展。

未来，百度也将持续深化政企合作，将百度与山西的合作模式，拓展到全国更多区域，与各地政府通力协作，加快数据要素市场建设，释放数据价值与红利，助推区域数字经济转型与产业智能化发展。

分享至：

第七届中国国际大数据大会：百度智能云助力培育区域产业生态

2021-04-01 百度数据众包

当前，新一轮科技创新和产业变革席卷全球，数字经济重塑了社会生产力，重构了生产要素供给，正深刻改变着人类的生产生活方式。3月30日，第七届中国国际大数据大会在京隆重召开。大会内容面向数据驱动为核心的数字化、网络化、智能化展开，旨在进一步推动大数据与实体经济深度融合创新，深化大数据产业高效交流合作。

(百度技术委员会理事长陈尚义)

百度技术委员会理事长陈尚义在大会上发表演讲，他表示，数据要素将成为推动新旧动能转换，数字经济发展的奠基石，成为重要的战略资源。目前，释放数据要素价值仍面临着诸多困境，百度作为深耕人工智能技术多年的企业，坚持以技术为信仰，在数据价值释放方面做了诸多的创新探索。

提升数据采集及标注能力释放数据要素价值

面向企业用户，百度利用领先的AI能力，提供了多场景数据采标方案及标注服务。

百度拥有业内领先的采集资源，采集主体覆盖全球40多个国家和地区，几乎覆盖全年龄段人群，并在业内最早建立完整的符合全球各国数据法规的隐私合规流程，得到了客户安全部门的高度认可。

此外，百度在数据标注服务的实践中也取得了诸多进展，不仅拥有超过2000万的平台众包资源生态，同时通过智能算法提升标注效率高达60%，目前百度数据标注的智能派单可以高效支撑百万级任务与数十万用户管理，其标注工具可覆盖70+不同场景，为客户提供广泛的标注服务。

助力地方提升数字技术创新能力培育数字产业生态

在服务于企业的基础上，百度进一步探索出了一条以AI数据服务产业基地、交易平台为核心的数字经济解决方案，帮助地方政府培育数字产业生态。

2018年末，百度与山西综改区达成合作，共同建立了百度(山西)人工智能基础数据产业基地。2020年7月，百度与山西综改区再次达成合作，共建以AI为特色的数据交易平台。目前，通过“基地+平台”的数据服务实践，百度AI数据服务已形成创新性、可复制的政企合作服务模式，立足区域、辐射全国，助力政府实现区域数字生态发展。

此次大会上，百度(山西)人工智能基础数据产业基地也获得了“行业影响力”奖项。截止目前，该基地的AI数据标注师从业人员近3000人，累计产值超3亿元，企业入驻35家。百度宣布未来5年将在百度(山西)人工智能基础数据产业基地培养5万名AI数据标注师，并引入更多AI合作伙伴。通过推广合作模式到更多省市，百度将提供更多的AI就业岗位，支持区域数据产业发展。

2020年中央公布的第一份关于要素市场化配置的文件《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》中，将数据纳入新型生产要素，并上升到国家战略层面。今年两会通过的《十四五规划纲要》表明，以数据为关键要素的数字经济将成为国家创新驱动的重要战略载体。面对国家政策与市场变革对技术及服务提出的巨大需求，百度作为深耕人工智能技术多年的企业，将结合自身“云智一体”的独特优势，成为国家打造数字经济新业态、新模式的发展中不可忽视的力量。

分享至：

百度赴港上市，用AI续写科技新故事

2021-03-23 百度数据众包

3月23日，百度科技园，几位敲锣人敲响了一面附有百度自动驾驶芯片、百度昆仑芯片、百度鸿鹄芯片的“代码锣”，宣告百度集团在香港挂牌上市。

敲锣人除了百度董事长兼首席执行官李彦宏等公司高层外，还包括百度数据标注师、5G 云代驾安全员及百度开发者。

百度不是一个陌生的企业，“百度一下”曾是搜索引擎时代的浓厚印记。但移动互联网时代到来之后，有一些声音认为百度“落后”了。如今随着一声锣响，AI 正成为百度底层逻辑，重塑着企业的价值链条。

“并不是我们比别人更聪明，而是我们更专注，我们更愿意为长期投资、为未来投资。因为，只有保持对技术创新不断投入，我们才能抓住属于百度的云服务、智能交通、智能驾驶和其他人工智能领域的巨大市场机遇。”李彦宏在现场表示。

人工智能的故事

敲锣人之一的郭梅，曾在老家山西长治煤矿厂工作，“抬头是山，低头是煤”。如今她却是一位新兴职业代表：数据标注师。

数据标注师的工作就是教会 AI 认识数据，让 AI 像人一样去感知、思考和决策。疫情期间，百度山西数据标注基地为全国各地多个“科技防疫”项目的实施应用提供了支撑。例如完成对戴口罩的人脸图像的标注，让人们在不摘口罩的情况下，也能实现精确体温测量或是通过人脸闸机。

郭梅“再就业”的经历是百度深耕 AI 的一大案例，也是 AI 赋能新兴产业，带动产业转型的一个生动注脚。

山西转型综改区管委会副主任董良认为，百度山西数据标注基地为山西省人工智能产业发展奠定了良好基础。截至目前，百度山西数据标注基地 AI 数据标注师从业人员超过2000人，入驻企业35家，实现营业收入超亿元。

百度山西数据标注基地已经成为中国人员和产值规模第一的单体数据标注基地。而在未来，百度与山西的合作模式，还将拓展到更多省市，以支持当地科技产业发展。

进入21世纪以来，新一轮科技革命和产业变革正在重构全球创新版图、重塑全球经济结构。我们比历史上任何时期都更需要建设世界科技强国。科学技术从来没有像今天这样深刻影响着国家前途命运和人民生活福祉。从宏观视角转向商业领域，AI 也正在改变旧的格局。

IBM 研究院提出，采用崭新 AI 技术改造自身业务模式的企业，被称为“认知型企业”。随着 AI、区块链、自动化、物联网、5G 的日益普及，这些力量的结合势必会重塑标准业务架构。

未来 AI 时代的先发企业，一定会以技术持续创新为主轴，成为 AI 技术赋能的提供者和“认知型企业”供应商。拥有强大互联网基础的领先 AI 公司，可能成为国内这一领域的话事人。

重塑认知从引擎开始

马尾辫、鹅蛋脸、一双自信中略带羞怯的大眼睛，另一位敲锣人郭佳慧怎么看都只是一个普通的12岁初中生——如果她没有开发出一款 AI 应用的话。

初一学生也能玩转 AI？郭佳慧给出了答案：不仅可以，还能简单。原本，郭佳慧对 AI 并不十分感兴趣，后来在“码农”父亲的指导下，她发现开发程序一点也不枯燥——在百度 EasyDL 平台上，不用写代码，只需按照平台指引输入相关数据，然后根据平台的算法模型自主训练学习就能开发应用。随后，她开发出用人工智能检测口罩佩戴的应用，发布到百度 AI 市场后吸引了3000多次的调用。

近年来，深度学习平台逐渐成为中国各行各业迅速布局 AI 的重要选择，其背后是企业在 AI 时代下对于底层战略性技术的竞赛。而 EasyDL 凭借其“零门槛”的优势，获得了更多开发者青睐。

IDC《深度学习框架和平台市场份额》报告显示，截止2020年12月，EasyDL 平台市场份额位列机器学习平台市场份额第一，并连续两年保持市场第一。

“简单可依赖”是百度的核心价值观。让复杂的事情变简单，技术实力必不可少。

上市招股书显示，百度是为数不多的提供全栈 AI 的公司之一，拥有基础设施包括 AI 芯片（百度昆仑芯片）、云平台（百度智能云）、深度学习框架（EasyDL）、核心 AI 功能及开放式 AI 平台等等产品和服务。

从技术维度看，目前全球范围内，仅有 Google 和微软拥有全栈布局的能力。而从整体专利数量看，截至2020年10月30日，百度持有 AI 专利2682项，是中国 AI 专利最多的公司，同时也入围全球 AI 公司 TOP 5。

技术实力反映到财报上，百度的营收基本面也在发生变化，其 AI 支撑的新业务营收占比正在增长。

百度2020年 Q4 财报显示，来自网络营销的营收（189亿元）同比基本持平，非营销营收（42亿元）同比增长52%。这部分营收主要来自百度智能云，其营收同比增长了67%。2017年-2019年，云服务营收分别为30.05亿元、63.7亿元和91.73亿元，年化复合增长率高达75%。在近期发布的2020年 Q4 财报中，百度的智能云业务营收年化达130亿元人民币，同比增长67%。

足以看出，百度正通过 AI 打造新的引擎。

AI 带来的“超长续航”

另一位登台的敲锣人，是“5G 云代驾”安全员雷建伟。曾是武警部队驾驶员的他，退伍后参与了河北省云代驾项目。雷建伟表示，“我就像是一个‘大家长’，见证着自动驾驶汽车的一步步成长和升级，同时见证着自动驾驶行业的发展，非常有成就感。”而智能驾驶，正是百度寄望于未来的创新业务。

根据招股书表述，百度构建了一套基于 AI 的三层增长引擎。这三大板块分别代表积极稳健的基本业务、快速发展的新兴业务与引领行业的前沿业务，将分别撑起百度现在、中长期和未来的增长空间。

• 首先是移动生态。作为稳健的基本盘和现金流业务，移动生态囊括了十多个 APP，包括百度 APP、好看视频等。百度从2010年开始借助 AI 提升搜索和变现能力，如今已成为 AI 驱动的业务。

• 第二增长引擎则是百度智能云。百度智能云将 AI 技术深入到 B 端、G 端的场景，为客户提供各种云服务及 AI 解决方案。

• 而第三增长引擎，就是百度看向的“远方”：包括自动驾驶、智能助手和大健康等在内的高潜力业务。

自动驾驶作为目前全球 AI 技术的主要商业应用场景，最被资本市场看重。百度 Apollo 自动驾驶业务已投入8年多，先后与长沙、广州、南京、上海、北京等地达成合作，既是 AI 的大范围落地，也标志着规模商业化空间正在打开。

在智能音箱领域，Canalys 数据显示，2020年上半年，小度智能音箱全品类出货量全国第一。百度官方公布的数据显示，2020年12月，小度助手月语音交互总次数达62亿次。小度智能音箱对于百度而言，更大的意义在于引领智能语音搜索时代。

从技术层面到大众视野能理解、可使用的产品应用，不仅需要技术上的常年积累，也需要像雷建伟、郭佳慧、郭梅等 AI 新人们的持续付出。

创新之道，唯在得人。据人社部2020年4月发布的《人工智能工程技术人员就业景气现状分析报告》，到2025年中国 AI 人才缺口将会突破1000万。

2020年，百度的研发激励费用为44.7亿元，在股权激励费用中占比高达66%。目前，百度已培训全国420余所高校、超过千余名一线 AI 专业教师，累计赋能超5000家企业开发者，产生近百位首席 AI 架构师。（本篇文章转自新华网）

分享至：

多家代理商获高新技术企业认定，百度山西数据标注基地启动三期合作伙伴招募

2021-03-15 百度数据众包

最近，百度山西数据标注基地的代理商们，有点忙。

位于山西省太原市的百度（山西）人工智能基础数据产业基地（简称“百度山西数据标注基地”），近日正式开启三期新产业区的入驻招标工作，面向全体众测合作伙伴招募新入驻代理商。许多一期、二期入驻的“老”代理商们，也在忙着筹备各自的“三期扩展计划”。

百度山西数据标注基地由百度与山西政府合作共建，于2018年9月正式投入运营，经过两年多的发展，基地已成为国内人员和产值规模最大的单体数据标注基地，全面覆盖无人驾驶、语音识别、人脸识别、内容审核等多种数据标注场景。

多家代理商获高新技术企业认定，百度山西数据标注基地启动三期合作伙伴招募

针对入驻代理商，基地采用统一标准的管理模式，并建立了完备的企业扶植政策，包括项目引流、企业运营成本减负、企业管理成本减负、企业品牌运营支持等多个方面，帮助企业快速实现规模扩展、业务能力提升、管理效率优化等。

目前，百度山西数据标注基地一期、二期入驻企业达35家，在基地的全方位培养及政策支持下，入驻企业在人员规模、业务能力、管理水平等各方面获得长足发展。当前，基地总人员规模近3000人，累计实现产值超2亿元。此外，截至2020年底，基地已有多家入驻企业申请并认定成为全国高新技术企业。

山西麟诺网络科技有限公司（简称“麟诺公司”）就在去年被认定为高新技术企业，其也是2018年下半年首批入驻百度山西数据标注基地的代理商之一。公司负责人李应维从2017年底涉足数据标注行业，并接触到百度众测平台。2018年入驻基地一期后，李应维开始建立公司自有的数据标注团队，目前人员规模已近200人，团队的一位80后数据标注师郭梅，此前作为传统行业成功转型的代表，被央视新闻联播采访报道。

多家代理商获高新技术企业认定，百度山西数据标注基地启动三期合作伙伴招募

随着基地三期建设工作的展开，李应维也在积极布局团队的扩展计划。据了解，公司第一批15人已进驻三期产业区，后续人员的新增计划也在有序组织进行中，“包括第一批，目前已确定入驻三期的人员至少有65人”。

谈到入驻百度山西数据标注基地前后的变化，李应维最大的感受是，“原来是自己单打独斗，很难；进入基地之后，就有了依托，得到百度的大力扶持，企业成长很快”。

在李应维印象中，2017年、2018年左右，市场上有大大小小上千家数据标注公司，但他所知道的绝大部分公司，到现在已经“销声匿迹”。“这个行业看上去门槛低，但你真正进入以后，能‘活下来’还是非常不容易的。你没有稳定的甲方，标注能力不够专业，也没有规模，那么在市场竞争中，你就处于弱势地位，接不到单子，养活不了人。”李应维说。

百度山西数据标注基地对入驻企业的“项目引流”政策，解决了企业持续运营的这一大难题。导入项目覆盖2D、3D、语音、文本等数据标注业务全类型，为企业提供了相对稳定、高产、规模化的项目来源。

“山西转型综改示范区唐槐园区亚羽网络技术服务有限公司”（简称“亚羽公司”）负责人崇少为表示，入驻基地之前，他最操心的事情就是接项目。“现在我们也不用再发愁去外面找项目，这一点是很棒的！”崇少为2016年进入数据标注行业，其团队与麟诺公司同期入驻基地。

去年，亚羽公司也成功申请认定为高新技术企业。“入驻基地，与百度合作，对我们的业务体量增长、管理能力提升等都有显著的帮助；依托于基地，我们在计算机软件著作权申报、解决当地就业等方面，也多有发展和贡献。这些对于我们申请认定高新技术企业，都是很好的‘背书’。”崇少为表示。

除了项目引流，百度山西数据标注基地对于代理商在运营成本减负、管理成本减负，以及企业品牌运作等方面，也给予了大力支持。入驻企业可以享有免费的办公场地，免费的行政、物业、安保服务，以及免费的人力资源管理平台和生产管理平台等。同时，基地还为入驻企业提供包括人力招聘、人才培养、效率优化、评优奖励、品牌宣传等在内的全方位的管理及运营服务。

多家代理商获高新技术企业认定，百度山西数据标注基地启动三期合作伙伴招募

2019年上半年入驻基地的山西天测科技有限公司（简称“天测公司”），就是受惠于基地各项扶植政策，从“零”成长起来的一家公司。“是百度和基地，成就了天测。”公司负责人宋向东说。

宋向东此前长期从事教育行业与人力资源行业，一个偶然的机会，因为参与百度山西数据标注基地的人力招聘工作，宋向东接触到百度众测资源组的相关负责人，也第一次了解到数据标注行业。没有太多犹豫，本着“找对人、跟对事”的原则，宋向东与当时公司的合作伙伴俩人一“合计”，天测公司就成立了。

作为行业“新兵”，刚入驻基地时，宋向东也颇感压力。但她和团队得到了百度与基地代理商伙伴们的大力支持和帮助，公司业务稳步发展。2020年，天测公司以其优异表现，获评百度众测“优秀合作伙伴”。

“对于我们这样一个完全没有积累的初创公司来说，百度和基地给予我们非常大的帮助，我们只管把人力和物资组织好，其他几乎都不用操心！”宋向东表示，基地的氛围也非常好，“我所接触到的这些代理商们，谁有需求，大家彼此都会以一种开放的心态来帮助对方。”

据了解，亚羽公司与天测公司目前团队规模均达到近200人，并开始逐步推进基地三期的人员入驻计划。宋向东介绍，公司明确计划在今年5月30日之前，进驻三期60人。崇少为也表示，今年公司规划，整个团队人员规模扩充至300人。

当前，百度山西数据标注基地三期产业区建设与新代理商入驻招标工作，正在紧锣密鼓地进行中。

多家代理商获高新技术企业认定，百度山西数据标注基地启动三期合作伙伴招募

百度相关负责人表示，本期招标面向全体众测合作伙伴，分为线上预报名、基地实地参观考察、周期性考核等几个步骤，并定期公示报名及考核进度，全程公开、公正、透明。考核内容将结合基地自身管理模式及业务需求，从业务能力、招聘能力、管理能力三个维度进行考评。

其中，招聘能力的评价指标为“合格人数”，即考核期内代理商组织的满足标准的人员数量；管理能力的评价指标为“合格比例”，即“合格人数”占入职总人数（含已离职）的比例。最终的录用，将取“合格比例”≥80%的代理商，按照“合格人数”进行排名，择优录用排名前10至20家。具体公告请搜索登录百度众测平台-众测学院-最新通告搜索“百度山西基地代理商招标”，即可了解更多。

分享至：

百度入选工信部“人才能力评价支撑机构”，为中国智能经济发展提供AI人才保障

2021-02-08 百度数据众包

近日，工业和信息化部人才交流中心公布2021年工业和信息化重点领域人才能力评价机构目录，百度入选人工智能、大数据领域人才能力评价支撑机构。

据悉，此次遴选聚焦新兴产业方向，覆盖人工智能、大数据、工业互联网、区块链、智能制造等十余个重点领域，全国共有58家企业、18所院校和25家专业机构入选“人才能力评价支撑机构”目录。

百度作为入选机构，未来将围绕人工智能、大数据领域产业人才的实际需求，支撑人才评价工作开展，包括专业服务、能力辅导、组织实施及应用推广等，加快推动形成以产业需求为导向、以岗位能力为基础的人才评价工作体系。

近年来，人工智能、大数据等新兴产业快速发展，产业人才的培养和发展，也面临社会需求大、复合型程度高、人才能力评价紧迫等难点。据工业和信息化部人才交流中心发布的《人工智能产业人才发展报告（2019-2020年版）》预计，当前我国人工智能产业内有效人才缺口达30万。

百度是全球领先的人工智能平台型公司，一直致力于AI产业人才的培养。作为国内最早布局人工智能的科技企业，2020年百度被《哈佛商业评论》评选为“2019全球AI公司五强”之一，成为唯一上榜的中国企业。凭借在AI、大数据等领域的深厚积累，百度持续发力，积极推进产业人才能力建设与发展。

为解决人工智能相关领域爆发式增长的人才需求，此前百度宣布，未来五年预计培养AI人才500万，为中国智能经济和智能社会的发展提供AI人才保障。

随着人工智能的应用落地不断加速，一些新兴的产业应用型人才“应时而生”。 2020年2月，“人工智能训练师”正式成为新职业，并纳入国家职业分类目录，下设数据标注员、人工智能算法测试员两个工种。

2018年，百度与山西政府合作共建“百度（山西）人工智能基础数据产业基地”，培养具备专业能力素养的数据标注团队。目前，基地已发展成为国内人员和产值规模第一的单体数据标注基地，帮助近3000人成功实现职业转型与技能提升。

百度深耕AI数据领域10年，对于产业人才的培养，建立了完备的支撑体系和清晰的发展规划。未来五年，百度计划在山西培养5万名AI数据标注师，为其提供技能培训、能力提升、职业发展等通道。此外，百度还将持续对外输出人工智能、大数据等方向人才培养的知识与经验，为全社会相关产业人才的培养做贡献。

当前，人工智能已成为新一轮科技革命和产业变革的重要驱动力。百度作为国内AI领军企业，未来将持续加码，加大投入力度，加快人才培养步伐，以人才和技术为基础，促进我国人工智能产业实现高质量发展。

分享至：

解决企业“数据资产管理”痛点，百度数据众包入选信通院“星河”案例

2021-01-18 百度数据众包

近日，由中国信通院（CAICT）等组织开展的2020大数据“星河（Galaxy）”案例评选结果出炉，百度智能云数据众包智能驾驶数据资产管理实践项目入选“数据资产管理优秀案例”。

据悉，该案例征集活动由中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会（CCSA TC601）共同组织开展，面向行业大数据应用、数据资产管理、隐私计算案例三大方向。

随着国家“新基建”的深入布局，人工智能行业迎来更加广阔的发展机遇，自动驾驶、智能交通是其中的重要赛道。百度作为中国智能驾驶领军企业，在智能驾驶领域积累了深厚的技术、能力和资源。

基于在智能驾驶行业多年的数据经验，百度智能云数据众包（以下简称“百度数据众包”）打造的“数据资产管理实践方案”，可提供数据采集、标注、存储、管理、训练、清洗、评测等全流程的配套产品和服务。

2020年12月30日，交通运输部发布《关于促进道路交通自动驾驶技术发展和应用的指导意见》，强力推动国内自动驾驶产业进一步发展。百度数据众包致力于通过优秀的智能驾驶数据资产管理实践，加速智能驾驶技术的应用落地，助力政府解决交通效率问题，推进企业实现智能化转型。

在百度本次入选案例实践中，某专注于智能驾驶研究的科技创新企业，需优化算法，提升自动驾驶能力由L2至L4级别，但该企业在智能驾驶算法训练方面，缺少多场景覆盖的道路数据、高质量标注数据、完善的数据集管理流程等，致使研发进度缓慢。由此，该企业选择与百度数据众包进行合作。

在充分考虑该企业内部的数据资源、业务应用现状后，百度数据众包为其提供了全流程数据资产管理解决方案。

该项目具备数据量大、场景种类多、准确率要求高等特性，对数据资产管理提出了极高的要求。对此，百度发起成立了自动驾驶数据资产管理专项委员会，提出一套有针对性的组织管理实施办法，包括资产管理组织架构、数据标准评判方式、数据资产管理流程、稽核检查评估办法，以及数据安全保障措施等。

在数据采集方面，完成跨越北京、上海两个城市2000公里道路的数据采集工作，最终累计交付1.5km点云分割结果、7w帧车道线、80w帧障碍物数据，验收正确率99%以上。

在数据标注方面，依托独有的、专业的标注人力与平台，高效、高质地完成了数据清洗、数据标注；上万种corner case场景，可帮助查找通过采集和标注建设的场景库是否有缺漏，助力客户L4级自动驾驶领域算法加速升级。

在数据管理方面，通过数据管理平台，客户可实现对数据的分层级管理，加工处理后数据的可视化，以及针对特定标签的数据检索等，帮助其构建完善的非结构化数据治理与管理体系，从而更有效地利用数据，提升模型训练和算法迭代效率，加快其自动驾驶模型落地。

项目过程中，依托百度上百万公里采集经验，百度数据众包为客户提供采集线路规划、筛选待标注数据方法，提升了道路采集效率，减少无效采集和标注浪费。此外，接入适合于不同场景的智能化算法，包括自动预标注技术、智能辅助算法与自动化质检算法等，极大提升了数据处理效率和数据交付质量。

数据资产化进程对企业带来的改变，将是具有颠覆与创新意义的，甚至会给企业带来“重生”。但目前，企业在AI数据采集、数据标注、数据管理等方面，还面临诸多痛点，包括高质量数据采集难、多场景数据标注难、多类型数据管理难等问题。

如何建立起符合自身数据特点，与自有业务相结合的数据资产管理体系，是企业当下及未来需要重点关注的核心问题。

百度数据众包依托百度10年AI数据经验、领先的产品技术能力，以及全国最大的AI数据标注基地——百度（山西）人工智能基础数据产业基地，致力于为客户提供一站式AI数据治理与资产管理方案，帮助企业对数据资产进行规范化、流程化的管理，让数据增值为企业带来经济与社会效益。

分享至：

以技术为驱动力，百度智能云数据众包专注做好“AI赋能者”

2021-01-08 百度数据众包

随着数字经济时代的到来，数据正在发挥着越来越大的价值，为各行各业的智能化转型提供动能。

12月25日，以“技术驱动，释放数据要素价值”为主题的百度智能云 TechDay 暨百度技术开放日—数据众包专场在北京举行。

百度作为一家深耕人工智能技术多年的公司，同时也是 AI 数据采集和标注的先行者和推动者，百度智能云数据众包依托百度10年 AI 数据经验、领先的产品技术能力和业界最大的数据标注基地，正在为上百家领军企业提供 AI 数据服务，加速产业升级。

数据是人工智能技术发展的“燃料”。在今年，“数据”首次被中央纳入生产要素，这代表数字中国建设再次提速。

百度技术委员会理事长陈尚义表示：“2010年初，百度开始布局人工智能，是国内投入最早、技术最强、布局最完整的人工智能领军企业，也是最懂数据的企业。目前百度智能云数据众包已经成为业界规模最大、品牌和技术最强的 AI 数据服务商，可以为广大的 AI 开发者提供最专业、高质量的一站式数据采集标注等服务。”

（百度技术委员会理事长陈尚义）

数据众包模式是群体智能的一种集中体现。北京航空航天大学计算机学院的孙海龙教授分享了面向大数据产业的群体智能遇到的机遇与挑战。

他表示，群体智能是国家新一代人工智能发展规划的核心内容之一，为大数据智能产业发展提供重要的理论与技术支撑。

特别是，数据众包广泛用于大数据感知、收集和分析等，已成为群体智能支撑大数据智能产业的重要形式，但仍面临着群智资源管理、任务调度分配以及结果汇聚等多方面的技术挑战，解决这些挑战性问题迫切需要学术界与产业界的深度合作。

（北京航空航天大学计算机学院教授、博士生导师孙海龙）

一站式数据标注服务，引领数据产业发展

百度智能云数据众包打造的 AI 数据标注平台，实现数据从采集、接入、清洗、标注，到质量管理、交付等各流程的一站式管理。

数据采集方面，百度智能云采集资源覆盖40多个国家地区，全国8大方言区。百度智能云数据众包已实现到业内最快的人像采集速度，每周可采集人像3万个，采集语音5万条。

数据标注方面，百度智能云数据众包已经形成四大关键能力：支持全场景的数据标注工具、全流程的流程平台管理能力、智能的标注技术以及庞大的资源支撑的能力，能够针对各类 AI 应用场景数据需求，提供一站式 AI 数据服务。

百度智能云数据众包沉淀了70余种数据标注的能力，近十年来已经为百度200多条产品线和业内上百家行业头部客户提供了近5万次 AI 数据服务，正确率最高达到99.99%。

会上，百度智能云数据众包团队揭秘了 AI 数据标注平台的核心技术。数据标注平台由工具平台、资源管理平台和任务分发管理平台组成：

• 工具平台满足客户语音、图片、视频、文本、3D 点云等全类型、全场景数据标注，支持点、线、框、区域等多种元素拖拽配置，每年支持数千个不同规则项目需求；

• 资源管理平台与任务分发管理平台，打造从数据接入、任务分配、资源调度、质量审核、任务结算等全流程支撑体系，实现对百万级任务和数十万用户实时管理。

借助机器决策，标注过程实现了人员和数据的自动流转，摆脱了人工干预，兼顾了效率和公平。

针对用户历史标注行为进行深度挖掘，结合百度自身的用户画像能力，系统能自动描绘出全面、精准、多维的用户画像体系，为每一个数据标注项目推荐最合适的标、审人员，确保使用最匹配的人员为客户释放数据最大的价值，在保证质量的同时更兼顾了效率。

数据标注平台以百度智能云 AI、大数据、云计算等能力为底座，基于领域驱动的微服务架构、插件化的微内核架构，保障平台快速高效运行，为客户创造大规模高质量数据标注服务保驾护航。

值得一提的是，百度智能云数据众包不断探索前沿智能标注技术，从0到1，构建强大算法能力。

目前，AI 算法已贯穿标注前、标注中、标注后全流程，广泛应用于预标注、辅助标注、质量检查、人员画像等各环节，累计提升标注效率超60%，标注错误自动检出占比达70%，极大提升标注效率与质量。

AI 辅助的智能标注引入后，实现人体骨骼点标注整体效率提升71%，OCR 的辅助标签效率提升20%，3D 连续帧障碍物预识别单帧效率提升28.8%。

此外，数据众包与百度研究院合作的基于深度学习的三维点云等前沿标注技术持续激发 AI 数据的潜能，目前已在自动驾驶领域取得不俗进展。

首发数据服务与资产管理平台，提效 AI 算法模型迭代

作为此次活动的一大亮点，百度智能云发布了业内首个智能驾驶领域数据服务与资产管理平台，为智能驾驶企业用户提供一体化智能数据服务解决方案。

数据服务与资产管理平台覆盖“数据采集、数据标注、数据管理、模型训练、模型评测”的人工智能开发全生命周期，帮助企业用户围绕数据打造 AI Pipeline，提升 AI 算法模型迭代效率，让数据更好的驱动模型开发。

数据服务与资产管理平台将以领先的数据服务，为客户打造 AI 数据闭环，加速客户数据价值实现。

数字经济时代，数据已经成为关键生产要素。现场的专家一致认为，未来数据质量、数据治理、人才培训、流程标准等将成为 AI 数据服务进一步发展的关键驱动，推动人工智能技术进入大规模应用。

百度智能云数据众包作为行业实践的先行者，将依托“百度（山西）人工智能基础数据产业基地”的专业标注人力，以业界领先的技术实力赋能各行各业，持续释放数据要素的深层价值。

分享至：

推动智能数据产业发展百度陈尚义获“大数据科技传播奖”

2020-12-13 百度数据众包

12月13日，以"百年变局数胜未来"为主题的"2020年大数据科技传播与应用高峰论坛"在湖南衡阳召开。该论坛是业界具有国际性和权威性的成果交流平台，此次由中国科技新闻学会、湖南省科协、衡阳市人民政府联合主办。论坛上揭晓了"大数据科技传播奖"，本年度共有78名科学家、企业家分获特殊贡献奖、作品奖、团体奖、个人奖四类九项大奖。李兰娟、李德仁、柴天佑、褚君浩、顾国彪、刘韵洁等十余位院士，以及200余位大数据传播与应用领域专家、学者应邀出席论坛。百度技术委员会理事长陈尚义荣获"大数据科技传播奖领军人奖"。

(左6：百度技术委员会理事长陈尚义)

"大数据科技传播奖"是中国科技新闻学会在2018年首次设立的奖项，旨在表彰在大数据科技应用、传播和推广事业中做出卓越贡献的团体和个人，推动以大数据为代表的新一代信息技术及行业的发展。

陈尚义在大数据领域持续耕耘多年，进入大数据和智能时代后，他和百度团队积极推动智能数据产业发展，并做出了突出贡献。他曾强调智能数据治理在产业智能化进程中的重要性，"产业智能化离不开数据治理这一基础，数据治理在很大程度上也决定了产业智能化进程。"除此之外，数据采集、标注和交易作为智能经济的全新行业，也创造了全新的职业——数据标注员和人工智能训练师。在这一领域，百度积极持续优化这些新兴数据行业中标注算法、平台和工具，并与山西省签署深度合作协议，建立山西数据标注基地。不仅帮助地方政府培育了数字产业生态，也培养了众多数据标注员，预计未来3年产生5亿元直接经济效益，带动5万人就业。目前，陈尚义正带领团队向全国推广这一全新产业模式，为我国大数据和人工智能产业发展做出更大贡献。

2020å¤§æ°æ®ç§æä¼ æå¥ææ éå°ä¹è·âé¢åäººå¥â

除了大数据领域，陈尚义在推动科技进步方面也做出了重要贡献。作为国家重大科技专项专家，陈尚义连续多年参与国家科技政策制定与实施，多次向国家有关部门建议制定政策、出台法规，突破"卡脖子"关键技术，受到科技部、全国侨联和中国电子学会表彰。

作为百度雄安公司总经理，陈尚义还积极推动百度与雄安新区战略合作，参与雄安新区规划制定等，并联合百度各业务团队，深入参与无人车、智能小镇建设和打造智能生活体验厅等工作，为雄安新区智能化建设做出突出贡献。

百度也在积极推动科技的高效传播，为全行业和社会赋能。百度开放了百度技术学院，将百度内部沉淀十余年的，涵盖大数据、人工智能、深度学习、智能驾驶等技术向全行业开放;此外还创办了百度技术开放日，促进政产学研知识传播共享、协同创新。

此次获得"大数据科技传播奖领军人奖"，陈尚义表示，百度希望通过科技传播让社会更快进入大数据时代，让生活更美好，也希望社会各界尤其是科技传播领域的朋友们一起努力，让科技带领我们进入更美好的时代。

2020å¤§æ°æ®ç§æä¼ æå¥ææ éå°ä¹è·âé¢åäººå¥â

在高峰对话环节，围绕大数据在科技企业中的应用，陈尚义也道出了自己的见解。他表示，大数据的发展为人工智能突破带来了巨大推动力，足够的数据、算力和算法让各行各业迎来全新机遇。以百度为例，大数据与人工智能融合，正在赋能工业、农业、金融、医疗等行业，加速产业智能化变革。值得关注的是，加强大数据的应用安全规范也是各大企业需要努力的方向，只有合法、合规的利用数据资源，才能更好地让数据流动起来，让交通更便利，让制药更简单，让城市管理更高效……让智能生活触手可及!

分享至：

专注优质数据服务，百度数据众包荣膺“中国数据质量管理”两项大奖

2020-09-17 百度数据众包

近日，百度智能云数据众包在“DQMIS2020第二届中国数据质量管理奖项”（以下简称“奖项”）评选活动中，以高水准的数据质量管理水平，斩获“2020数据质量卓越实践奖”及“2020数据质量优秀产品奖”。

（百度智能云数据众包荣膺“中国数据质量管理奖”两项大奖）

奖项旨在评选出中国优秀数据质量成果及产业实践，促进中国数据质量管理领域产业创新发展。评选活动由数据质量管理智库（DQpro），联合数据质量管理国际峰会（DQMIS）组委会（北京大学、国家电网全球能源互联网研究院、华矩咨询等机构领衔），共同组织开展。

数据质量是数据管理的核心，也是数据价值实现的基础，高质量数据在产业发展升级中起着重要作用。百度数据众包依托百度10年AI数据经验、领先的产品技术能力和业界最大的数据标注基地，致力于为人工智能企业提供专业、高质量的AI数据采集和标注服务。

“AI数据标注平台”：一站式数据管理保障高质量

由百度数据众包团队自主研发的“百度智能云AI数据标注平台”（以下简称“平台”），在本次评选中荣获“2020数据质量优秀产品奖”。

（百度智能云数据众包荣获“数据质量优秀产品奖”）

作为一个基础数据服务全流程管理平台，其可实现数据从接入、清洗、标注，到质量管理、交付等各流程的一站式管理。

平台拥有行业领先的智能辅助标注技术、自动质检算法，以及成熟的数据质量管理体系，能够保障交付数据的质量。其中，利用AI技术提供数据辅助标注，能够大大提高标注效率，对于非结构化数据的有效组织和加工，具有重要作用。

当前，平台的服务已覆盖多个领域，包括AI企业、手机厂商、汽车厂商及互联网行业等，能够为客户交付标准化结构化的可用数据，帮助客户训练算法模型、开展机器学习，提高其在AI领域的竞争力。

迄今为止，平台在智能驾驶领域已累计采标2D/3D数据1.5亿帧以上，准确率99%以上；语音数据交付已达上万小时；文本也达上千万条。

智能驾驶数据：“采标一体质量管理”助力技术落地

本次评选中，百度数据众包以“智能驾驶数据采标一体质量管理实践”，获得“2020数据质量卓越实践奖”。

（百度智能云数据众包荣获“数据质量卓越实践奖”）

汽车智能化被业内普遍认为是未来智能交通架构中的重要一环，各大车厂都相继对L4级自动驾驶进行战略部署。

在本次获奖案例中，某科技创新企业致力于制造出安全可靠、体验极佳的智能汽车，为推动各类智能驾驶模型落地，该企业对数据采集与数据标注的需求量暴增。

由于此项目所需数据量大、场景种类多、准确率要求高，对数据质量管理提出了很大的挑战。市面上多数标注团队只拥有少数单一场景标注能力，缺乏科学的项目管理流程，无法满足客户对数据的要求。

百度数据众包团队提供的“智能驾驶采标一体项目质量管理”解决方案，采用层级式组织与人员管理方式，拥有健全完善的项目制度规范，专业高要求的数据质量把控标准，以及智能安全的数据质量管理实施流程。

项目一期累计完成2000公里道路的数据采标工作，依托“百度（山西）人工智能基础数据产业基地”的专业标注人力，以业界领先的连续帧ID预测和归一化算法，极大提升了标注效率与数据质量，数据准确率高达99%，高效优质的服务获得客户方一致好评。

数字经济时代，数据成为关键生产要素。未来，随着人工智能技术进入大规模应用，数据质量将成为新技术应用及企业发展的重要因素，也成为影响数据分析和利用效能的“最后一公里”。百度数据众包作为行业实践的先行者，将持续关注数据质量管理问题，为人工智能企业提供专业、高质量的AI数据服务，用技术实力赋能各行各业，加速产业智能化发展。

分享至：

“数据服务”助推产业智能化，陈尚义：释放数据价值、共建产业生态

2020-09-16 百度数据众包

“产业智能化的加速离不开数据治理这一基础，数据在很大程度上也决定了AI的智能化进程。”9月15日，“万物智能——百度世界2020”在线上举行，下午的智能云分论坛上，百度技术委员会理事长陈尚义从“数据智能”视角，阐述智能数据服务在产业智能化过程中的重要作用，并分享了百度智能云在数据采集、标注及治理等领域所作出的探索。

（百度技术委员会理事长陈尚义：智能数据服务在推动产业智能化的过程中扮演着越来越重要的角色）

陈尚义表示，数据在AI智能化过程中起到至关重要的作用，但企业往往面临很多困难，如数据获取难、加工难等。为此，百度向业界提供了综合的面向多场景、多种类型客户的数据采标解决方案，帮助客户释放数据价值。

同时，在服务于企业的基础上，百度进一步探索出了一条以数据标注基地、交易平台为核心的数字经济解决方案，帮助地方政府培育数字产业生态。

陈尚义介绍，百度智能云的数据采标解决方案，处于行业领先地位。

从数据采集能力来说，百度拥有业内领先的采集资源，采集主体覆盖全球40多个国家和地区；国内语音数据采集，覆盖全国八大方言区及各年龄段人群。

从数据标注能力来看，团队拥有支持全场景的标注工具、高效的流程管理平台、智能化的标注算法，同时构建了庞大的标注资源为项目执行作支撑，能够提供高质量、定制化的数据标注服务。

在数据采集和标注过程中，数据安全、数据质量等是行业最关注的话题。在保证数据安全方面，百度在业内最早建立了完整的、符合全球各国数据法规的隐私合规流程，得到客户安全部门的高度认可。在提升数据质量方面，百度设定了智能审核与人工质检双流程，准确率行业领先。此外，团队创新性地引入了预标注算法与辅助标注算法，使得标注效率和准确率大幅提升。

这些能力，使百度能够满足几乎所有场景的采集需求，覆盖语音、图片、视频、文本、3D等多种标注类型。目前在典型场景中，人像每周采集可达3万人，语音每周采集可达5万人。

另一方面，在先进的智能技术支撑之外，面对巨大的数据加工量，产业发展仍然需要强大的人力资源支撑。陈尚义表示，百度智能云通过线上众包和线下自建标注基地的方式，构建了业内人员最多、专业性最强的标注人力资源体系。

“目前，线上众包人员已超过20万人，线下签约标注代理商超过300家，专业标注人员达到2万人。”陈尚义介绍，“此外，2018年百度联合山西政府建立了山西数据标注基地，拥有2300名全职标注员，他们稳定、专业，可承担自动驾驶、语音、图像、人像等高难度标注任务。”

“庞大的标注资源为我们提供了业内最强的标注能力，如今，我们每天语音数据标注量超过500小时，图像数据超过2万张，自动驾驶道路数据超过4万张。”陈尚义说。

继共建数据标注基地之后，目前，百度再次与山西政府合作，建设“山西综改区AI数据交易平台”。这是山西省内第一家大数据交易平台。

“我们希望构建以人工智能非结构化数据为特色的数据交易平台，加速区域数据流通与开放共享，释放数据要素价值。”陈尚义表示，“我们致力于将数据开放平台打造成为区域数字经济发展的新型基础设施，将数据作为区域支持创新创业的新型孵化器。”

山西省工信厅副厅长刘勇出席了分论坛，他对双方合作取得的成果表示认可。他表示，近年来，山西省大力实施大数据战略，省委书记楼阳生、省长林武高点位谋划、高位推动，山西大数据产业发展已取得长足进步。

“下一步，我们将以标注产业为牵引，集聚人工智能发展势能，着力构建集数据采集、清洗、标注、交易、应用为一体的基础数据服务体系，在转型发展上率先趟出一条新路来。” 刘勇表示，真诚欢迎百度及各企业与山西携手，共创共享大数据创新发展的美好未来。

陈尚义表示，未来百度将联合地方政府和企业，汇聚双方优势资源，培育数据服务能力，解决区域数字经济发展中面临的数字环境缺失、数据要素流通难、数据价值挖掘难等问题，促进数据的开放、共享与流通，降低企业技术创新的门槛，构建数字产业发展新基础设施。

“以数据为关键要素的数字经济，将成为国家创新驱动的重要战略载体。在数字经济发展的浪潮中，百度智能云将与各位同行携手，共建数据生态，促进产业智能化发展。”陈尚义说。

分享至：

百度与山西政府再签合作协议共推数据经济落地

2020-06-22 百度数据众包

AI数据交易平台的建立，将不断扩展百度在山西的业务，帮助山西省数据服务类企业扩大经营范围，促进数据资源的开放与共享。

6月6日，百度智能云数据众包与山西省政府达成合作协议。双方将进一步深化合作，加快推进山西省重大转型项目建设，共同打造山西综改示范区AI数据交易平台。山西省委书记楼阳生出席签约仪式并进行重要讲话。

当日，山西卫视报道了山西省委书记楼阳生发言，“要坚持应用导向，积极争取布局国家重点实验室、重大科研装备装置，以目标“一流”的胆识和智慧，勇攀科学高峰，以一流平台、一流课题，吸引一流人才、一流团队。要坚持成果导向，创新体制机制，打破论资排辈，实行重点科研项目攻关‘揭榜挂帅制’，敢于善于在重大领域、细分领域、未来产业领域换道领跑。要充分发挥企业和科研机构的主体作用，加强平台建设，重视科技成果转化，把成果变成产品，把产品变成产业，成为转型发展的支柱。”

（山西省委书记楼阳生）

作为业内一流的数据服务供应商，百度智能云数据众包致力于为人工智能企业提供专业化的AI数据的采集、治理、标注、数据集优化等一系列数据服务。百度智能云数据众包负责人表示，百度智能云数据众包拥有大量客户落地案例和丰富的行业经验，此次助力山西综改示范区AI数据交易平台建设，无疑是百度智能云数据众包加速产业智能化的重要篇章。

为贯彻落实全国“两会”精神，进一步推动山西数字经济，实现山西地区从煤炭资源向数据资源的转型。山西省政府提出，要敢于创新，勇于先行，加快推进重大转型项目建设，为在转型发展上率先蹚出一条新路来提供强力支撑。数据交易平台作为数据交易行为的重要载体，可以促进数据资源整合、规范交流行为、降低交易成本、增强数据流动性，成为山西政府实现数字经济发展的重要举措之一。

分享至：

领跑的百度智能云数据众包：新基建下再迎关键大机遇

2020-06-18 作者｜震霆出品 | 新芒X

AI离我们有多远？

放在两年前，大概率会觉得遥不可及。但时至今日，进程可能超乎你的想象。

“现在，每10个企业中就有1家使用10个或更多AI应用程序。” 英国机构MMC Ventures表示。

根据Salesforce Research的说法，有83％的IT领导者表示AI＆ML正在改变客户参与度，而69％的人则表示正在改变其业务。

尤其是疫情期间，各式AI能力加持的设备产品应用，将人工智能最大化的加速落地。

AI正在大力度全方面的改变着生活工作已成为强共识。

而AI强势发展的背后，有一个绕不开的关键角色，那就是数据。

数据之于AI的重要性不言而喻，于是就有了数据就是 AI 算法的“燃料”、数据是AI时代的“石油”、“灵魂“等诸多形象的描述。

再进一步，围绕人工智能提供AI基础数据服务的企业，其业务价值、社会价值和商业价值则进一步凸显，为足够多、足够好的数据提供有力供给。

我们正看到这样一种存在，百度智能云数据众包，作为国内最大AI数据服务提供者，在这一领域深耕细作，不遗余力的贡献着自己的专业能力和价值，并在承担社会责任解决就业上持续的发光发热。

恰逢新基建加速推进的新时代背景，人工智能作为重要组成部分，进而促成了数据众包行业高速增长。

已经作为领跑者的百度智能云数据众包，再迎关键大机遇。

打开AI数据服务的“美丽新世界”

“对于AI而言大量的数据其实太重要了。”

这是百度智能云数据众包资深产品运营师李明，在百度智能云TechDay上阐述的一个观点。

如果非要给人工智能三要素算法、算力和数据排个优先级的话，在他看来，数据排在首要位置。

因为人工智能的基础是训练，需要大量的场景和数据给到人工智能算法，供它去学习，只有经过大量的训练，神经网络才能更好的总结出规律，应用到新的样本上面，然后做出智能化的判断和答案。

高质量，丰富多维数据对AI的意义，无论是业务，还是升维到人工智能的发展进程都显而易见。

据艾瑞咨询最新的一份《中国人工智能基础数据服务行业白皮书》认为，人工智能经济崛起为基础数据服务提供长期向好的基本面，行业已然进入成长期，格局逐渐清晰。

有这样一个数据能充分的感受到，人工智能基础数据服务市场规模2025年将突破百亿，行业年复合增长率为23.5%。从整体增速来看，行业发展较为稳健，下游人工智能行业持续发力将形成长期利好。

由门槛低，多个玩家一拥而入，鱼龙混杂的初始局面，发展到 AI 进入落地阶段，垂直场景数据成为主要需求，对数据类型、质量等要求明显提高，头部企业实力逐渐凸显。

无论从自身属性，还是行业发展大势，数据服务无疑处在一个上升期，成为经济环境不确定性倍增的当下，风景这边独好式的独特存在，仿似一个“美丽新世界”被逐渐打开。

“带头大哥”百度数据众包打下的江山

“市场占有率连续3年第一”

“收入年增长率超50%”

“服务公司内部超220条产品线”

“智能驾驶，手机，互联网，AI开发者头部客户全覆盖”

据艾瑞咨询:《2019年中国人工智能基础数据服务行业研究报告》显示，百度智能云数据众包目前已成为国内最大的AI数据服务商。

看到这一连串战绩，想必是大部分企业可望不可及的高度。

以上正是目前坐拥风口行业AI数据服务中，“榜一大哥” 百度智能云数据众包给出的一份成绩单。

作为业内专业、高质量的AI数据服务商，百度智能云数据众包更是在2011年起即为百度内、外部客户提供数据服务。

一系列傲娇成绩的背后，势必不是一蹴而就唾手可得的，那么在竞争激烈又充满想象的行业，又是哪些因素促成了百度智能云数据众包的领先者地位？

我们试图进行探寻其核心变量。

百度智能云数据众包的硬核能力

在《闪电式扩张》一书中有这样一个观点：巨大的新机会通常是因为技术创新创造出新市场或者扰乱了现有市场而产生。而百度智能云数据众包的成就达成，不谋而合。

“其实最重要的还是我们技术的积累和创新” 百度智能云数据众包资深产品运营师李明给出了这样的答案。

据了解，目前已经形成了业内“品牌、规模、技术”第一的AI基础数据标注和采集服务平台。

这个新世界，必须用具体细节加以描绘。具体看来，你就能感受到这份来自领先地位的底气和实力。

在采标服务能力上，自建基地，有2300名全职标注员；遍布全国和全球22个国家的渠道代理资源池，超5万名采标人员；此外还有2000万众包互联网用户；已经实现了市场主流标注场景全覆盖，满足市场上95%以上的标注需求。

此外，拥有业界领先的工具平台，实现了流程标准化、工具智能化。即便是定制化服务，对他们来讲已经是标准化的。

同时在整个标注过程中，都进行了算法的加持，然后通过自动化的算法筛查无效的数据，使得整个标注和审核效率、质量都得到了大大的提升。

这也符合艾瑞对增强数据处理平台持续学习能力，由机器持续学习人工标注，提升预标注和自动标注能力对人工的替代率将成趋势的预判。

在绕不开的数据安全建设方面，百度数据众包也早已充分的考量和部署。主要从数据合规、客户合规、用户和资源的合规以及隐私合规四个方面，对数据的这种安全和合规性进行保障。

举例来看，全职员工签署保密协议、专线直连、限制外网、电脑USB加密、视频监控，人员定期巡查等一系列举措和多个细节，进行全流程管控，确保数据安全与数据合规。

正是基于上述综合能力的成熟以及最终的完美性爆发，百度智能云数据众包客户已经全面涵盖了智能驾驶、手机行业以及互联网和AI开发者等四大领域的全部头部客户。

以自动驾驶为例，行业迫切需要数据量充沛多元的专用数据平台，为此百度智能云数据众包与智能驾驶实验室配合完成了对数10万帧的高分辨率的图像标注，标注内容涵盖了语义标注、稠密点云、立体图像、立体全景图像，以及复杂的环境、天气和交通状况等等，使得百度ApolloScape拥有全球最复杂的自动驾驶高精度数据集，为全球自动驾驶开发者提供了更丰富和更复杂的数据应用场景去训练学习和评测。

除了开源开放的数据集之外，百度智能云数据众包还能针对垂直行业提供定制化的数据服务。

2020年5月28日，针对上海国际汽车城需求，百度智能云数据众包推出了“私有化标注平台+基地专属团队”方案，结合国际汽车城的自动驾驶标注场景和组织管理需求做定制化开发，将百度领先的标注平台能力抽取并做私有化部署。

这些全面的系统化的部署和持续的创新迭代，以及多年的专注和积累，促成了百度智能云数据众包的江湖地位。

恰逢新基建，再遇大机遇

在今年，新基建成为一个高频词。

随着这种新基建的提速，人工智能行业势必会进入快速的发展的时期。

市场对海量数据的基础需求在人工智能加速应用落地的过程中，会越来越大，日益增强，必将进一步刺激市场的基础数据需求增长，将为百度智能数据众包的进一步的发展迎来一个良好发展的新机遇。

我们都能理解，一旦某家规模化企业占据其生态系统的制高点，周围的关系者就会认识到它的领导地位，人才和资本都会涌入。

像滚雪球一样，再依托百度本身的强势AI基因，加之整个行业无限扩张的需求，助力其更大的未来发展和想象空间。

让成就感放大：关键节点下的就业扶持路

除了自身业务能力和商业价值的无限扩张和放大，我们还看到百度智能云数据众包的另外一个关键角色，那就是在企业社会责任上的担当。

正因为其业务性质和自身体量带来的规模效应，顺势造就了诸多就业机会，疫情之下，更尤为难得和宝贵，直面解决社会问题。

2020年第一季度成功地帮助了超过120家企业、超过了3300标注员，实现了线上的复产。实现了业务稳定进行和客户的需求得到及时满足的同时，帮助大量标注人员实现就业。

其中，百度智能云在山西的数据标注基地，全职标注员已经超过了2000人，实际上是帮助2000名当地人员包括应届毕业生及其他行业转型人员成功就业。

面向未来，预计5年内，通过山西标注基地的龙头带动和示范作用，将为当地提供超过5万个就业岗位，并带动人工智能基础数据相关产业聚集山西。

我们甚至还看到这样一句出自普通标注员的话：“数据标注工作让我觉得可以跟上世界的脚步。”

我们得以无比清晰的看到这样一个形象：通过自身的业务能力，通过各种方式，不遗余力的推动着公益发展和解决社会问题。

新芒X如是说

新基建加速，整体AI行业高速发展，AI运用落地，再加新兴的AI应用场景的兴起。

作为早已有深厚且专注积累的领跑者，百度智能云数据众包也迎来了空前的发展机遇，不断的技术创新，顺势而为，获得更大突破也自然成为确定性的大概率事件。（注：本文部分图片来自网络，向原作者致谢，如有侵权，可后台私信沟通处理）

分享至：

百度智能云数据众包，更安全、更优质的数据能力，打造自动驾驶超智“双眼”

2020-05-25 百度数据众包

自动驾驶技术近年来倍受资本和行业市场关注，越来越多的车企、零部件供应商和解决方案供应商投身其中。在资金和政策的双向加持下，行业发展迅猛，几成燎原之势。

而其中最大的技术瓶颈无疑是在感知能力上，除了算法和硬件的支持，训练数据的质量也起到了决定性的作用——数据量是否足够大，标注质量是否足够好，覆盖的场景是否足够全面等，已经成为了间接衡量一家自动驾驶公司技术好坏的重要标准之一。

正是在这样的大背景下，百度智能云数据众包率先推出了针对自动驾驶行业的“私有化标注平台+基地标注团队”的AI数据整体解决方案，帮助平台服务型企业建设完整的数据基础服务，“上海国际汽车城”就是其中的典型代表。

政策利好，数据和平台能力也要跟上

近年来，各地方政府持续加大对自动驾驶的基础设施建设投入，通过政策扶持自动驾驶落地，打造汽车产业生态，提升城市竞争力。

而国际化的汽车之城上海，在自动驾驶上的政策布局早已有所举措。2018年，《上海市智能网联汽车道路测试管理办法(试行)》正式发布，上海就成为了国内自动驾驶公开路测的第一座城市，为上汽、宝马等企业的自动驾驶实路测试提供重要的基础建设。2019年，“AI+交通场景计划”落地上海国际汽车城，旨在打造以上海汽车博览公园为载体的自动驾驶常态化运营半开放示范区，在基建和测试场景上为产业发展提供支持。

作为全国最早开展智能网联汽车示范推广的产业示范区，其规划从感知和决策层入手，打造硬件、软件、数据、路测整体解决方案。而这其中决策层是最关键但也是最复杂的，算法训练需要一系列配套建设，包括数据层面的训练数据和场景库评测数据，以及软件层面深度学习数据标注平台和管理训练平台。但由于自动驾驶数据精度高、量级大、标注规则复杂，且软件平台具有业务场景适用性特征研发难度高，业内往往会选择专业的AI数据公司提供数据和平台服务。

如何基于业务特征提供平台能力建设，同时保证数据标注质量和安全，实现自动驾驶超智“双眼”已成为汽车城乃至整个自动驾驶行业的难题。

上海国际汽车城配套工业园区

兼顾数据安全与质量

上海国际汽车城选择百度智能云数据众包是最优选。

作为业内专业、高质量的AI数据服务商，2011年起，百度智能云数据众包即为百度内、外部客户提供数据服务。尤其在自动驾驶领域，累计成功标注数据上亿帧，积累了丰富的行业经验。据艾瑞咨询：《2019年中国人工智能基础数据服务行业研究报告》显示，百度智能云数据众包目前已成为国内最大的AI数据服务商。

上海国际汽车城在找到百度智能云数据众包之后，双方一拍即合，很快就确立了合作方向：从深度学习数据标注平台入手搭建软件能力，并通过平台和百度标注基地实现数据安全高质标注。“在众多服务商中，选择与百度智能云数据众包合作主要看重百度智能云在这方面的数据经验和产品技术能力，以及其提供的数据标注安全方案能够很好的满足我们的需求。”上海国际汽车城副总工程师李霖如是说。

针对上海国际汽车城需求，百度智能云数据众包推出了“私有化标注平台+基地专属团队”方案，结合国际汽车城的自动驾驶标注场景和组织管理需求做定制化开发，将百度领先的标注平台能力抽取并做私有化部署。

其中，百度智能云数据众包“私有化标注平台”支持2D、3D、连续帧、融合标注等数十个标注场景，引入了AI预标注和自动质检算法。经百度上万项目科学验证，在标注效率上领先行业20%，并且还具备全面的任务、数据、标注人员管理功能，有效支撑企业做标注管理。同时，由于平台具有私有化特征，可以实现数据不出库从而保证数据安全。

数据安全如何保证？在“基地专属团队”上，百度与山西政府合建了业内最大的数据标注基地，拥有超过2000名经过多年专业培训的标注员。基地按照百度数据安全等级规定采取了保密协议签署、密闭房间作业、实时摄像监控、USB封口等多种严格的安全控制措施，从人的源头上保证数据安全，同时能够做到高质量和高效率交付。对此，百度智能云数据众包业务负责人施佳樑介绍：“数据安全一直是我们关注的，也是整个AI行业发展的

百度智能云数据众包平台安全标注方案

百度山西人工智能数据标注基地介绍视频

赋能共建推动产业升级加速度

目前，双方关于平台及数据的合作均已落地。深度学习标注平台的部署增强了国际汽车城的软件设施能力，“平台部署+基地标注”的模式在保证数据安全的同时也极大提升了汽车城的数据处理能力。大量基于自动驾驶场景的高质量数据源源不断地从百度山西标注基地输出，并依托汽车城平台支撑着行业算法的成熟。

同时，百度智能云数据众包也在不断对外开放自己的自动驾驶数据采集和标注能力，根据行业需求打造基于数据标注、存储、管理、训练、清洗、评测的全套产品能力。并先后与多个地方政府在人工智能数据层面开展深入合作，助力地方产业的转型升级。

上海国际汽车城拥有国家智能网联汽车试点示范区及众多公共实验室等平台资源，为自动驾驶企业提供更多学习、交流、研究、测试、数据分析机会。双方协作互通，持续在产品和生态上创新、赋能行业。毫无疑问，在行业的共同努力下，汽车产业的智能化未来即将到来。

分享至：

2019年中国人工智能基础数据服务行业白皮书

2019-09-16 艾瑞咨询

核心摘要：

在经历了一段时期的野蛮生长之后，人工智能基础数据服务行业进入成长期，行业格局逐渐清晰。人工智能基础数据服务方的上游是数据生产和外包提供者，下游是AI算法研发单位，人工智能基础数据服务方通过数据处理能力和项目管理能力为其提供整体的数据资源服务，不过AI算法研发单位和AI中台也可提供一些数据处理工具，产业上下游普遍存在交叉。

2018年中国人工智能基础数据服务市场规模为25.86亿元，其中数据资源定制服务占比86%，预计2025年市场规模将突破113亿元。市场供给方主要由人工智能基础数据服务供应商和算法研发单位自建或直接获取外包标注团队的形式组成，其中供应商是行业主要支撑力量。

数据安全、采标能力、数据质量、管理能力、服务能力等仍是需求方的痛点，需要人工智能基础服务商有明确具体的安全管理流程、能够深入理解算法标注需求、可提供精力集中且高质量的服务、能够积极配合、快速响应需求方的要求。

随着算法需求越来越旺盛，依赖人工标注不能满足市场需求，因此增强数据处理平台持续学习能力，由机器持续学习人工标注，提升预标注和自动标注能力对人工的替代率将成趋势。远期，越来越多的长尾、小概率事件所产生的数据需求增强，机器模拟或机器生成数据会是解决这一问题的良好途径，及早研发相应技术也将成为AI基础数据服务商未来的护城河。

人工智能基础数据服务行业概述

人工智能基础数据服务定义：意指为AI算法训练及优化提供数据采集和标注等形式的服务

人工智能基础数据服务指为AI算法训练及优化提供的数据采集、清洗、信息抽取、标注等服务，以采集和标注为主。人工智能概念爆发伊始，算法、算力、数据就作为最重要的三要素被人们乐道，进入落地阶段，智能交互、人脸识别、无人驾驶等应用成为了最大的热门，AI公司开始比拼技术与产业的结合能力，而数据作为AI算法的“燃料”，是实现这一能力的必要条件，因此，为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为了这一人工智能热潮中必不可少的一环。如果说计算机工程师是AI的老师，那基础数据服务就是老师手中的教材。

人工智能基础数据服务发展历程

行业进入成长期，行业格局逐渐清晰

伴随国内人工智能热潮爆发，大量的AI公司拿到融资，为了不断提高算法精度，数据采标需求也空前爆发，一度催生了行业的繁荣。但早期的AI基础数据服务门槛较低，玩家鱼龙混杂，使行业标准模糊、服务质量参差不齐。随着竞争加快，AI公司对训练数据的质量要求也不断提高，并且当产业落地成为主旋律，需求方对垂直场景的定制化数据采标需求成为主流，众多小型AI基础数据服务公司从数据质量和采标能力上达不到要求，或被淘汰，或依附大平台，行业格局逐渐清晰，头部公司实力逐渐凸显。随着算法需求越来越旺盛，目前机器辅助标注、人工主要标注的手段需要改进提升，增强数据处理平台持续学习和自学习能力，增加机器能够标注维度、提升机器处理数据的精度，由机器承担主要标注工作将成为下一阶段的行业重心。未来，越来越多的长尾、小概率事件所产生的数据需求增强，人机协作标注的模式性价比不足，机器模拟或机器生成数据会是解决这一问题的良好途径，及早研发相应技术也将成为AI基础数据服务商未来的护城河。

人工智能基础数据服务的行业价值

目前有监督的深度学习是主流，标注数据是其学习根本

人工智能是研究如何通过机器来模拟人类认知能力的科学，机器学习是现阶段实现人工智能的主要手段。机器学习方法通常是从已知数据中学习规律或者判断规则，建立预测模型，其中，深度学习可以通过对低层特征的组合，形成更加抽象的高层属性类别，自动从信息中学习有效的特征并进行分类，而无需人为选取特征。凭借自动提取特征、神经网络结构、端到端学习等优势，深度学习在图像和语音领域学习效果最佳，是当今最热门的算法架构。在实际应用中，深度学习算法多采用有监督学习模式，即需要标注数据对学习结果进行反馈，在大量数据训练下，算法错误率能大大降低。现在的人脸识别、自动驾驶、语音交互等应用都采用这类方法训练，对于各类标注数据有着海量需求，可以说数据资源决定了当今人工智能的高度。由于应用有监督学习的AI算法对于标注数据的需求远大于现有的标注效率和投入预算，无监督或仅需要少量标注数据的弱监督学习、小样本学习成为了科学家探索的方向，但目前无论从学习效果和使用边界来看，均不能有效替代有监督学习，人工智能基础数据服务将持续释放其对于人工智能的基础支撑价值。

人工智能基础数据服务的主要产品形式

定制服务为主要服务形式，数据集产品集中于语音类赛道

目前，国内AI基础数据服务主要为数据集产品和数据资源定制服务，数据集产品往往是AI基础数据服务商根据自身积累产出的标准数据集，以语音数据集为主，主体偏普通话语音、英文语音、方言语音等；为保证算法优势，客户更多采用定制化服务，由客户提出具体需求，数据服务商或直接对客户提供的数据进行标注、或对数据进行采集并标注。大型的需求方，为保障数据的安全，往往提供Web形式的自有标注平台给执行方，以此对整体项目进行把控，也有一些AI基础数据服务商向客户提供私有化平台建设服务，或将自身平台与甲方系统兼容；除以上两种形式外，部分AI基础数据服务商还向算法服务进行拓展，提供算法训练、模型搭建等服务。

人工智能基础数据服务的发展背景

人工智能经济崛起为基础数据服务提供长期向好的基本面

2010年语音识别和计算机视觉领域产生重大突破，国内开始萌生AI概念。到2015年，国内迎来人工智能创业热潮，独角兽不断涌现，融资记录被不断打破。2012年-2019年8月人工智能领域共发生2787件投融资事件，总融资额达4740亿元，人工智能成为最炙手可热的融资热点，百度、阿里、腾讯、京东、华为等科技企业也纷纷加注。2017年至今，产业落地成为AI行业的主流，人工智能赋能实体经济保持高速发展态势，涉及行业包括安防、金融、零售、交通、教育、医疗、营销、工业、农业、企服等众多领域。下游的爆发式增长为人工智能基础数据服务的发展提供了长期向好的基本面。

数据量呈指数式增长，非结构化数据的应用依赖于清洗标注

PC、互联网、消费级移动设备的兴起宣告了数据时代的来临，物联网的发展更使线下业务产生的大量数据被采集起来，数据量呈指数式增长，据IDC统计，全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB，其中80%-90%是非结构化数据。过去计算机主要处理结构化数据，人工智能模型却以处理非结构化数据见长，但“玉不琢不成器”，数据经过清洗与标注才能被唤醒价值，这就产生了源源不断的清洗与标注需求。在我国，每年需要进行标注的语音数据超过200万小时，图片则有数亿张。

人工智能基础数据服务市场现状

人工智能基础数据服务产业链

AI基础数据服务方是行业核心环节

人工智能基础数据服务产业图谱

产业上下游普遍存在交叉

AI基础数据服务方的上游是数据生产和外包提供者，下游是AI算法研发单位，AI基础数据服务方通过数据处理能力和项目管理能力为其提供整体的数据资源服务。 AI基础数据服务方整体有两大类，一种是具备自有的标注基地或全职标注团队，这类企业也参与产业上游部分直接提供产能资源，另一种是依靠众包或外包模式，专注于数据产品的开发与项目执行。下游部分AI公司拥有自己的标注工具，也可通过AI中台获取一些通用标注工具，同时一些数据需求大的企业还孵化了自己的数据服务团队。整体而言，产业上下游普遍存在交叉关系。

人工智能基础数据服务行业投融资

融资规模集中于千万量级，早期融资项目居多

从融资规模来看，人工智能基础数据服务市场的融资多集中在千万级别。从时间维度来看，2015年人工智能基础数据服务商获得的融资金额相对较高，标志着行业初露头角，受到资本的认可。从获得融资的企业数量来看，目前获得融资的玩家并不多，资本市场表现的活跃度不高。从融资轮次来看，大部分融资仍然集中于早期融资，目前上市的企业仅挂牌新三板的数据堂一家（不考虑科技公司内部孵化的基础数据服务商）。人工智能基础数据服务毛利率普遍较高，但为保持与人工智能市场前沿算法的匹配，需要投入大量研发成本进行数据处理平台与工具的研发升级，因此对融资仍有较强依赖。

人工智能基础数据服务行业商业模式

生产、获客、部署合力驱动发展

人工智能基础数据服务行业是典型的To B型业务，商业模式较为稳定。在生产方面，主要通过自建标注基地或标注团队、搭建众包平台、采购供应商外包服务（BPO）等模式实现生产运营，大多企业主要采取众包与外包模式，百度数据众包、倍赛等企业自建标注基地或全职标注团队，对于培训较高素质工作人员、完善团队管理有积极意义；在获客方面，主要通过口碑传播、学术会议与展会及代理渠道等模式进入市场，对销售人员熟悉市场趋势、客户需求的要求较高；在实施交付方面，有私有化部署和公有部署两类，能够较为灵活地应对客户对数据安全、交付周期与成本的个性化需求。

人工智能基础数据服务市场规模

2025年市场规模将突破百亿，行业年复合增长率为23.5%

2018年中国人工智能基础数据服务市场规模为25.86亿元，其中数据资源定制服务占比86.2%，数据集产品占比12.9%，其他数据资源应用服务占比0.9%；行业年复合增长率为23.5%，预计2025年市场规模将突破110亿元。从整体增速来看，行业发展较为稳健，下游人工智能行业持续发力将形成长期利好。

人工智能基础数据服务细分结构

纯标注服务为主体，由供应商提供服务占79%

2018年中国人工智能基础数据服务市场以语音、视觉、NLP领域的标注服务为主，同时提供采集与标注服务占比较少，这是由于数据由需求方提供的情况较多，但这并不意味着市场中数据采集需求弱，相反，人工智能技术落地后产生了大量新兴垂直领域的数据需求，然而这些数据采集难度大，能够提供相关采集工具和服务的供应商将获取竞争优势。市场供给方主要由企业自建或直接获取外包团队的形式以及供应商组成，又以供应商为行业主要支撑力量，占比79%。

人工智能基础数据服务市场格局

行业将提升至较高集中度，CR5占26%市场份额

目前人工智能基础数据服务行业CR5占26%市场份额，行业集中度较为适中，既非寡占型市场也非充分竞争市场，这一方面是由于百度数据众包、海天瑞声、数据堂等企业进入市场较早，积累了较多客户资源，另一方面则是由于下游企业之前多采用公开数据集训练模型，对数据的高精度要求由来尚短，受生态传导效应滞后影响，市场门槛还不显著，资金与研发实力较为薄弱的中小企业还有较强的发展土壤。然而未来，随着下游企业发展壮大，直接使用外包团队成本低廉、数据安全可控性强，一些基础性需求将由下游企业自给自足，外部的数据服务商现有的存量市场面临下降，因此必须承担高难度、前沿独特性任务，这就要求其自身投入高精度、专业化数据处理工具的研发和人工智能算法基础研究，以把握客户需求，开拓增量市场，因此资金与研发实力成为较高行业门槛，同时受近年资本市场冷却影响，一批中小型厂商面临业务收缩，再者部分厂商如倍赛开始在业内并购，参考海外数据服务市场发展情况（海外行业巨头Appen多次并购其他企业），并购也将成为市场趋势，多种因素叠加影响下，行业集中度将提升。

人工智能基础数据服务场景分析

视图基础数据服务市场现状

人像与OCR数据是视图基础数据服务的主流

在不考虑自动驾驶的前提下，2018年视图基础数据服务市场达到6.6亿元，人像与OCR数据是视图基础数据服务的主流，尤其人像数据占市场的42.9%。OCR占27%，其他的人体识别数据、商品识别数据、工业质检数据、医学影像数据及其他新场景数据等较为分散，合计占市场30.1%。

视图基础数据服务技术趋势

针对算法研发方向判断数据需求，挖掘增量市场

按照数据使用方向，可以划分为新算法模型搭建与研发、在已有算法基础上增加新模块、解决方案交付过程中定制优化等三类，其中新算法模型搭建与研发和在已有算法基础上增加新模块类型的数据需求是可以根据相应机器视觉算法的前沿研发方向来判断预测的。例如，就智慧城市场景而言，针对汉族的人脸识别和视频结构化已较为成熟，在实际应用场景中还需针对少数民族和其他人种进行优化以提升整体算法准确率，此外，跨镜追踪成为场景研发热点，相应的跨摄像头数据如何标注对算法训练也会产生较大影响，再及，深度相机可以帮计算机读懂三维立体的监控视频，还能够较好地解决复杂光照条件下视图数据采集的问题，也将在未来成为重要的研发方向，综上，多民族、多人种数据、跨摄像头数据、3D数据的采集与标注服务将为视图基础数据服务市场的发展带来增量空间，OCR、手机、零售等其他领域也同理可针对算法研发方向挖掘增量市场。

自动驾驶基础数据服务应用场景

算法尚未成熟，对数据有长期需求，且缺口仍在

L3级别以上的自动驾驶系统主要有感知、定位、预测、决策和控制五部分，其对于计算机视觉技术的需求度远高于ADAS，系统需要对雷达、摄像头等传感器采集的点云和图像数据进行抽取、处理和融合，构建车辆行驶环境，为预测和决策做依据，这对于算法的准确性和实时性有极大考验。目前自动驾驶的视觉技术主要应用有监督的深度学习，是基于已知变量和因变量推导函数关系的算法模型，需要大量的标注数据对模型进行训练和调优。在世界级无人驾驶大赛中，主办方往往提供近亿张图片、数十万张标注图片供参赛团队训练使用；在路测或真实道路驾驶时，如人车混杂、分布稠密、行为多变等复杂环境问题更需要海量的真实路况数据不断对算法进行优化，才能保障无人驾驶车辆正常可用。如今国内自动驾驶飞速发展，AI公司、科技公司、高精地图厂商、车厂等参与者众多，该领域的数据采集和标注需求已经成为AI基础数据服务的主要项目之一，且自动驾驶算法应用仍待优化，数据需求缺口仍在，市场远未饱和。

自动驾驶基础数据服务市场现状

2025年采标规模将超24亿，科技公司和车厂是主要需求方

自动驾驶基础数据主要是道路交通图像、障碍物图像、车辆行驶环境图像等，需求方以科技公司、汽车厂商和高精地图厂商为主，2018年自动驾驶行业基础数据服务规模为5.76亿元，预计2025年将超24亿元，三方规模占比分别为49%、47.2%和3.8%，行业数据总任务量超一亿张，2D图像标注与3D点云标注任务量基本为2:1。其中高精地图厂商算法较为成熟，数据自动化标注程度可达90%左右，外包需求较少；以百度、图森未来为代表的自动驾驶科技公司一直是该领域基础数据服务的主要买方，平均各家算法训练图像数据累积需求在千万级以上，随着落地项目进程加快，将会有更多细分场景的需求产生；近几年，汽车厂商在ADAS和自动驾驶方向的投入明显，上汽、吉利等厂商年投入均可达数亿元，对于数据的采集和标注需求也逐年增加，预计未来3年中，汽车厂商将成为需求主力。

智能交互基础数据服务市场现状

远场语音交互成为主流需求，中文类数据仍占据市场核心

2018年语音交互相关数据服务市场规模达到13.5亿元。语音交互主要分为近场交互、中场交互和远场交互，以智能影音家居、可交互机器人和车机为代表的中远场交互类数据服务需求合计占到智能交互基础数据服务的68%，成为当前智能交互基础数据服务的主流需求，因此针对远场语音交互的低噪声环境服务具有较强发展潜力和议价能力。在服务语种上，中文（含方言）服务占据71%的市场份额，外语种资源相对稀缺，采集和标注难度较大，成本相对更高，目前占29%的市场份额。

智能交互基础数据服务技术趋势

实现跨语音识别、语义理解的复合数据标注

目前企业在智能交互系统的建设中，对单纯的语音识别或合成方面技术能力相对较完善，而在上下文理解、多轮对话、情绪识别、模糊语义识别、意图判断等方面的研发痛点更强，根据智能交互系统算法的发展，迭代并设计符合算法需求的NLP数据产品，有助于从数据层面推动智能交互系统的发展。特别的，对话系统的效果对标注数据的质量和规模依赖性很强，但目前受标注数据和模型能力的双重制约，对话流程还无法对语音、语义整个交互流程打通，而实现跨语音识别、语义理解的复合数据标注可以帮助减轻语音信息与文本信息之间的信息误传导，对整个对话流程效果增强能够产生积极影响，将增加智能交互基础数据服务探索的可能性。

人工智能基础数据服务需求分析

人工智能基础数据服务客户定位

客户分为AI公司、科技公司、科研机构、行业企业四类

从需求方来看，AI公司和科技公司占主要份额，AI公司更聚焦于视觉、语音等某一类型的基础数据服务，而科技公司结合集团优势，向人工智能整体发力，不同部门会产生多类型数据需求，科研机构需求占比较小。此外传统意义上的行业企业，如汽车厂商、手机品牌商、安防厂商等传统企业围绕自身业务进行技术拓展，也开始产生AI基础数据需求，并且量级逐渐增大，未来将释放更多市场空间。

人工智能基础数据服务核心需求类型

AI应用三大阶段，对基础数据服务产生差异化需求

企业应用人工智能算法要经历研发、训练和落地三个阶段，不同阶段对于AI基础数据服务也有差异化需求。研发需求是新算法研发拓展时产生的数据需求，一般量级较大，初期多采用标准数据集产品训练，中后期则需要专业的数据定制采标服务；训练需求是通过标注数据对已有算法的准确率、鲁棒性等能力进行优化，是市场中的主要需求，以定制化服务为主，对算法的准确性有较高要求；落地场景的业务需求中算法较为成熟，涉及的数据采集和标注更贴合具体业务，如飞机保养中的涂料识别数据等，对于标注能力和供应商主动提出优化意见的服务意识有较强要求。

人工智能基础数据服务需求痛点

五大需求痛点决定AI基础数据服务商的服务标准

目前需求方在选择数据服务时往往会遇到数据安全、采标能力、数据质量、管理能力、服务能力等痛点。对于数据安全，需求方希望基础数据服务商有明确具体的安全管理流程，对数据传输、存储，以及结项后的数据销毁等环节比较重视。在采标能力方面，需求方算法越来越贴近业务，希望数据服务商对于自动驾驶、工业等有一定门槛的领域有采集能力，并且能理解客户意图，配合标注，甚至可以提出标注建议；根据市场反应，大多数数据服务公司首次交付项目时，数据的准确率普遍偏低，都需要一到两次的返工，故需求方对无效数据少、准确率高的公司更加青睐。对于执行效率，一般AI基础数据服务商都能在项目周期内完成，但管理能力较弱的公司很难在兼顾多个项目时做到精力集中、高质量地服务客户，同时执行团队的素养与信誉也是重要影响因素。服务意识是一项软实力，需要AI基础数据服务商能够积极配合、快速响应需求方要求。

人工智能基础数据服务趋势及建议

企业由被动执行向主动服务的意识跃迁

单纯依据客户各个项目的诉求进行数据采集和标注属于被动执行，主观能动性低、行业边界有限，各家公司的产品和服务趋于同质化、竞争呈胶着状态，制约着AI基础数据服务的发展。通过对需求方的研究，发现除安全性、质量、效率等核心关注点之外，越来越多的需求方对数据服务公司产生了主动服务的需求，希望数据公司能够更懂算法技术、更懂需求场景，甚至能参与到算法的研发中来，给出数据采标方面的优化建议，这也为数据服务商形成差异化竞争带来了契机，尤其是在AI落地阶段，在垂直场景中能够形成一套集调研、咨询、设计、采集、标注为一体的AI基础数据整体解决办法，将在收入和业务边界上实现突破。

分享至：

2019百度云智峰会：数据智能助推产业升级

2019-08-30 百度数据众包

8月29日，ABC SUMMIT 2019百度云智峰会在北京国家会议中心盛大开幕。作为ABC领域最具影响力的行业大会，大会以“AI工业化，加速产业智能”为主题，展示百度ABC从1.0到3.0的转变，以及人工智能从标准化、流程化、规模化走向产业探索与实践。

数据智能生态分论坛座无虚席

数据智能，推动产业AI升级

AI的发展和赋能，数据为根本。在大会的数据智能生态分论坛上，业内专家深入解读数据智能及其在产业生态方面的发展情况，分享AI基础数据服务在自动驾驶、智能环境、智能终端等多个典型垂类场景下的应用，为数据智能赋能行业生态提供借鉴。

百度智能云数据智能总经理高果荣主题演讲

百度智能云数据智能总经理高果荣在“数据智能推动产业转型升级”的主题演讲中指出，现如今数据智能在城市、工业、交通、制造和金融等方面的实践，已充分证明有多少人工智能，就有多少数据智能。数据智能是人工智能时代的炼油厂，已成为产业智能化升级的核心驱动力。百度智能云利用人工智能、云计算、大数据等先进技术和互联网数据优势，深挖产业智能化中的“数据困境”，解决AI应用的数据获取难、管理弱、安全低、应用场景繁杂等技术瓶颈，赋能城市经济大脑、行业营销变革、产业重构升级等领域，扎扎实实地推进人工智能在各个产业领域的渗透，帮助各个领域、各个行业提升效率，提升人们的感受。

数据智能成为产业智能化升级的核心驱动力

最后，高果荣强调百度智能云打通了AI数据服务的全生命周期，从数据加工、数据开发、数据应用等环节实现对AI产业场景的一站式数据智能服务，助力AI工业化，加速中国产业智能化进程。

现场嘉宾认真倾听演讲

人工智能基础数据服务，支撑起AI行业发展的基础

百度智能云数据众包业务负责人施佳樑在演讲中阐述，在数据为王的时代，高效安全获取海量结构化数据已成为AI企业继算法算力等技术壁垒之后又一核心竞争力。百度智能云数据采集资源遍及全球40个国家和地区，涵盖中国八大方言区，覆盖15至60岁的各个年龄段人群；在采集过程中，将自动化智能审核和三轮人工质检相结合，满足不同客户的数据交付需求。目前，百度智能云数据众包提供超过30,000张/周的人像和50,000小时/周的语音采集能力。采集服务定制化程度高，客户好评行业第一。

百度智能云数据众包业务负责人施佳樑讲述数据采集

施佳樑强调百度智能云数据众包在数据标注上拥有四大法宝：即最全场景的标注工具，最高效的流程平台，最智能的自动标注和最丰富的资源能力。我们拥有超过200,000名活跃在众包平台上的标注用户，20,000名专业标注人力，于2018年自建百度（山西）数据标注基地。通过对标注人员的专业化培训和集中制管理，结合产能情况择优进驻了一批标注经验丰富能攻坚克难的标注队伍，目前基地已入驻2,000名全职专业标注人员，标注场景覆盖智能驾驶、计算机视觉、语音识别等AI重点领域，垂类场景标注准确率超过98%。

施佳樑表示，随着人工智能行业的发展，可以预见未来对于数据的质量和场景的要求也将变得越发严苛和复杂，但百度智能云数据众包有信心，凭借自己在AI基础数据行业品牌第一、规模第一、技术第一的综合实力，可持续为人工智能行业赋能贡献自己的全部力量。

百度（山西）人工智能基础数据产业基地二期启动仪式

2019年度百度（山西）人工智能数据标注基地一期优秀代理商颁奖

质量与安全并重，全面助力AI发展

会上，百度智能云质量部技术委员会主席杨斐在阐述智能驾驶数据一体化实践方案中说，智能驾驶场景的落地需要大量高质量数据，百度智能云提供的智能驾驶一体化数据方案，覆盖数据“采”“标”“管”“训”四环节，包含数据采集、数据标注、数据管理、数据训练和缺陷挖掘等产品和服务，保障数据质量，提升数据管理效率，缩短模型训练周期，实现模型迭代的数据驱动。

智能驾驶数据一体化实践方案分享

数据安全也是业内十分关注的焦点。百度智能云高级产品经理沈健在解读数据安全的相关法律法规时指出，数据在人工智能中发挥作用的同时，必须注意数据获取和数据加工使用的合规合法，保护信息隐私的安全。百度智能云提供的数据安全机制，从数据收集、数据流转、数据经手，层层技术与流程把控，确确实实从源头确保客户数据安全，让数据放心地为人工智能所用。

数据安全规范解读及实践分享

未来可期，数据智能进入加速度

人工智能走向工业化新阶段，数据作为人工智能的燃料，其价值需要经过采集与标注才能被唤醒。艾瑞咨询报告指出2017年至今，人工智能赋能实体经济保持高速发展态势，数据智能将技术、业务、数据高效融合，促成产业智能化发展提速，推动企业模式大力创新，推动 AI 技术在安防、金融、零售、交通、教育、医疗、营销、工业、农业等众多领域落地应用，预计2022年AI基础数据服务行业的市场规模将突破60亿元。

人工智能基础数据服务行业前景分析

也许三十年后回头看，人工智能将会是不弱于互联网对人类产生深远影响的另一项技术，它所释放的力量将再次彻底改变人类的生产生活。然而，目前人工智能依然充满未知的探索，道阻且长，但所有数据智能的参与者和建设者们，都在满怀信心地努力和憧憬这一天的到来。

人工智能的建设者与参与者们

分享至：

专家专栏 | 基础数据服务，让AI拥有智能的关键

2019-08-07 百度数据众包

如今，人工智能已经深入到日常生活中，春风化雨，喧闹归为平静，正在为人们带来便利。让人不禁感叹，人工智能从概念到产品，再到日常生活的推广，太快了！迅速发展的背后是什么呢？是工程师燃烧的脑细胞，是快速发展的算法？都没错，但别忘了人工智能的基础——数据。

本文将揭秘百度智能云数据众包服务如何成为AI的基石，为其做好数据采集、标注及质量管控的。同时揭示数据众包团队是如何从零起步，逐步成为AI基础数据行业品牌第一、规模第一、技术第一的奥秘。

AI的发展，数据是基础

业内常说一句话，“人工智能，有多少人工，就有多少智能”，建造一个算法模型需要灌入海量标注好的数据去训练机器，让机器学习以达到“智能”的目的。而数据众包团队在做的业务“数据的采集与标注”正是为此需求服务。

数据标注就是在帮助机器学习认知数据的特征。举个例子来说，如果要开发一项人脸识别的产品，我们首先要让机器“认识”人脸，但直接给机器一个人脸的图片它是无法识别的，需要先对人脸图片标注，打上关于人脸特征的标签，当机器被灌入海量标注好的图片进行学习之后，我们再给机器一个人脸的图片，机器就能知道这是一个人脸了。

AI的发展，数据是基础。用施佳樑（百度智能云数据众包业务负责人）的话来说，“人工智能之初和婴儿是一样的”，AI的成长需要数据，就如同婴儿需要食物一样。但这些“食物”并不能供AI直接食用需要后期的加工。众包团队在做的事就是帮助婴儿获取食物、加工食物。

多模式发展，规模业界第一

通常来说，众包平台的业务模式有两种，众包模式和外包模式。众包模式的优点就是响应快。平台任务一经发布，马上有人响应接单，且没有中间商赚差价，成本较低。但众包模式有一个很明显的缺点，就是质量较难把控，培训不周的人员难免会有“乱标注”的可能。而外包模式是将标注任务外包给专门的数据标注团队，这种模式能保证较高的数据质量。但较众包模式来说，响应速度慢且成本较高。

单一的使用任何一种业务模式弊端都很明显，是不可行的。对此，众包团队一方面签约了大量的下游供应商，一方面建设自己的数据标注基地，培养专业的众包人员。两种模式兼用，保证了标注人员的活跃和标注质量。

目前，在众包团队签约的下游代理商有500多家，平台上的众包用户达到2000多万。其中专业的标注员人力在10-20万，这样的下游代理商能力，在行业内都很难被超越，甚至业内很多竞品都是众包团队的下游。

另外，2018年数据众包团队在山西建立了自己的标注基地，现在已经有1500+人力规模，预估年底突破2000+人，完全由众包团队自己管理，全程监督作业过程中的标注质量与效率。

庞大的众包团队与行业上游地位，让众包团队在性价比方面具有绝对优势。施佳樑说：“之所以性价比如此高，与内部的产品积累和发展规模是分不开的。除此之外，技术与管理也是关键，我们拥有一整套的线上管理系统，能够对用户进行合理调度，这样能确保我们的产品能够帮助客户压缩成本的同时，保证质量。”

技术加管理，质量与效率并重

当然，在性价比方面，给用户提供高价值的数据服务也是首要思考的问题。

有人工智能基础数据处理需求的客户，都是AI领域的企业，其发展主要依赖三方面的能力：算力、算法和数据，对于算力，整个市场基本无壁垒，所有的硬件都是通用的；对于算法，每家公司各不相同、各有利弊，但短时期内一个公司的算法产生质变，有极大地提高或转变是不可能的，这就使得数据成为每家公司竞争的关注点。获取更大规模、更高质量的数据就是众包团队带给客户的价值，这样就能最终做到提高AI应用的效果，提高它的准确率与召回率。

数据众包自身有一套产品机制确保数据服务的质量。在标注期间，众包团队全程监督，其自身研发的系统可以自动化的分析标注人员的行为，比如说一张照片在标注人脸时，系统会监控标注所有时间、每一次打点标注的时间间隔、鼠标的移动轨迹等细节，从而可以判断和预测出这张照片标注的是否正确，是否有遗漏等。

数据质量与后期的多重质检也是相关的，数据在标注后不是直接交给客户，需要经过两轮到三轮质检的手续，这中间要经过自动化抽检手续、自动化加人工抽验手续等，可以极大程度确保数据质量。

打通上下游，业务向纵深发展

当前业内还有一个疑问，如果随着AI逐渐成熟，对数据服务的需求量会不会逐渐降低？

“未来很长一段时间内，数据服务都是刚需。如众包团队今年的重点智能家具与无人驾驶两个领域，对数据服务的需求量一直是增长的。加之百度是一家人工智能公司，品牌的力量让数据众包在数据安全、数据隐私和项目交付时间等方面都给与了客户更大信心。”施佳樑说。

业务量有保证之后，数据众包将考虑进一步把业务向纵深发展，从偏人力密集型劳动数据标注往上下游延伸。往上游扩展就是数据的采集，尤其是车辆道路信息采集，百度作为全国为数不多具地图测绘资质的企业，相较其他头部互联网公司优势明显，“这一块市面上几乎只有百度能做”。而往下游延展，就是提供数据管理、数据模型训练、数据应用、数据迭代方面的软件和平台服务。

自2010年起步，众包团队专注如一，采集无序混乱的数据，进行清洗标注，支撑了无数精密智能产品的诞生，除了支撑百度的内部业务，也将数据处理能力对外赋能到物联网、无人车、智能语音等各行业标杆客户，服务能力获得一致好评。

未来，百度智能云数据众包将打通AI数据服务的全生命周期，从数据获取、加工、模型训练等环节实现对AI商业化场景的一站式数据支持服务，帮助人工智能企业提升产品竞争力。

分享至：

百度（山西）人工智能基础数据产业项目列入山西省2019 年大数据领域重点推进项目

2019-07-29 百度数据众包

百度（山西）人工智能基础数据产业项目是在山西省综合改革示范区支持下，由百度智能云数据众包团队（百度众测）全力筹建的专业化、集中管理的AI数据标注基地。目前，基地拥有近1万平方米的办公场地，专业标注员和审核员达1500人，预计2019年内将增至2000人。届时，基地将成为全国专业领域规模最大的数据标注单一载体。

百度（山西）数据标注基地坐落于山西综改示范区唐槐产业园区内

目前，基地业务全方位覆盖了无人车、语音、人脸、图像、NLP、地图测绘等数据类型的标注和加工处理服务，并具备完善的人员管理、项目管理、质量管理的方法。针对重点大客户，基地可以配置10到200人规模的专属标注团队，以封闭的场地和专属的网络环境，为大客户提供长期、稳定、专业的优质服务，确保客户数据安全和项目质量按期交付。

基于百度（山西）数据标注基地稳定的专业标注人员及业内领先的质量保障机制，百度智能云数据众包业务得以持续服务行业及内部各产品线，提供优质的数据标注及清洗等服务，协助AI算法表现提升，持续输出的效率、质量、安全并重的服务能力得到了内外部客户的高度认可。

百度（山西）数据标注基地内景（部分）

基地于2018年成立至今，先后接待了包含山西省省长等多位领导的参观指导。百度（山西）人工智能数据标注基地作为百度在山西的品牌窗口，积极响应山西省加快发展数据标注产业的相关政策，吸引青年人才就业，培养多层次的数据标注人才，构建了山西省人工智能发展的优势，带动了工业、医疗、交通等相关产业的全面转型升级。

2019年7月21日山西省省委书记骆惠宁一行参访基地

2019年6月28日中国工程院周济院士一行参观基地

2019年6月20日山西太原常务副市长王立刚一行参观基地

2019年5月7日山西省省长楼阳生一行参观基地

2019年3月26日山西省副省长王一新一行参观基地

未来，基地将与山西转型综改示范区启动进一步的合作方案。在山西省政府的支持下，百度将主导建设专业数据标注产业园，搭建线上数据交易平台，建设无人车、方言语音等专业数据集等，持续助力山西数据标注产业的发展。

分享至：

产业智能化升级过程中，智能数据众包如何发挥催化作用？

2019-07-04 百度数据众包

2019年7月3日，百度AI开发者大会在北京国家会议中心开幕。大会设置了“百度智能云ABC+X，加速产业智能开发”为题的主论坛，以及以“智能云与物联网论坛”为代表的数十场分论坛，将持续到4日。

数据在AI时代所扮演的重要角色

随着物联网、5G等新技术的持续推进，我国大数据产业市场保持高速增长态势，并逐步深入渗透到各行各业，推动着我国迈向智能化强国的行列。不容质疑，数据正是AI时代的燃料，决定了AI应用的使用效果，是加速产业智能化升级的重要基础。作为国内领先的AI数据服务平台，百度数据众包致力于打造一流的、完整的AI数据服务，满足各行业客户的个性化需求，以助力我国各产业的智能化升级。

面对产业智能化升级中企业无法自行破解的数据困境，百度数据众包可根据特定领域、特定场景的客户需求，提供一站式、定制化的数据获取与加工方案的设计和执行服务，向客户交付标准化、结构化的可用数据。数据类型涵盖最全的应用场景，满足文本、图像、音频、视频、网页等类型。

优化三步曲催化可用AI数据的诞生

在“智能云与物联网论坛”中，百度智能云数据众包业务负责人高果荣发表“智能数据众包加速产业智能化升级”的主题演讲，深度解析百度数据众包在数据采集、数据标注以及数据使用三个方面所进行的智能优化，并有效的催化了可用AI数据的诞生。

百度智能云数据众包业务负责人高果荣发表主旨演讲

数据采集是AI数据诞生的第一步。百度数据众包采取全维度多媒体数据的无缝采集，并匹配最为严格的隐私合规机制，该机制符合各国数据法规的要求，曾获得众多客户安全部门的高度认可。但是更值得圈点的，是数据采集过程中更具智能化和效率的质量检测步奏。百度数据众包坚信质量是AI数据的生命线，在对采集数据进行三轮人工审核之前，引入了自主研发的智能预审核技术。这样，不仅有效的节省了人力、提高了效率，使最终采集成果的准确率也高达100%。

百度与山西政府共建数据标注基地进程

紧随数据采集之后，百度数据众包的标注业务具备场景全、质量高、效率高及专业性强的特征，可为各类产业的智能化需求提供高质、快速、专业的全场景标注服务。据高果荣介绍，百度数据众包拥有业内最强标注资源，该最强特征主要呈现在众包资源和自建标注基地相结合的模式。百度数据众包与山西省政府合作共建数据标注基地，被山西省工业和信息化厅列为“2019年重点推动项目”。山西省副省长王一新在视察该数据标注基地时曾提出，基地建设资金不少于1亿元。在此颇受重视的政企合作标注平台上，百度数据众包以连续帧自动预测、物体分割自动贴边等智能辅助标注技术强力加持，打破了传统视觉标注的盲区与瓶颈，大幅度提高标注效率，或不止20倍。

百度智能辅助标注技术

从数据标注的质量方面来看，百度2D视觉检测算法、3D点云检测算法等自动质检算法有效的保证了标注质量。据有效数据显示，该系列自动监测可检测出标注错误的比例约为70%。

百度自动质检算法

继数据获取与加工之后，数据应用于驱动模型迭代也是非常有效的。百度数据众包采取智能挖掘数据的方式评估已构建模型，及时发现模型明显缺陷，有效指导模型迭代。高果荣以人脸识别的例子进行详解：在已采集的数据源中，百度数据众包通过评测结果的下钻找到当前模型的主要缺陷，即暗光场景下整体的识别准召率不够。因此，标注员将更多暗光场景的人脸标注数据加入到迭代流程，最终这个长尾问题得到了高效的解决，也取得了满意的落地效果。

评测结果发现暗光环境下人脸识别不准确

智能数据众包催化产业智能升级

综上，百度数据众包是国内领先的AI开发者数据平台，在AI数据开发的整个链条上融合线上众包资源、线下代理商资源和数据生态产业园，并配合高效、高质、专业的数据采集和标注，形成包含数据管理、模型管理、模型训练、模型评估以及资源调度的完整性、规范性数据平台，以数据、计算资源、加速模型迭代来有效的降低AI开发周期，可加速各行各业的智能化升级。

分享至：

纯视觉城市道路闭环标注方案

2019-06-26 杨雪

在刚刚结束的世界顶级计算机视觉会议CVPR2019上，百度Apollo技术委员会主席王亮披露了一套纯视觉城市道路闭环解决方案—百度Apollo Lite，该方案用10路摄像头实现360度实时环境感知。

相比需要激光雷达、毫米波雷达、车载摄像头等的传感器融合方案，纯视觉闭环方案主要有以下几方面优势：一是获取的数据和人眼感知的真实世界最为相似，二是摄像头安装成本低且避免了车检不合规的问题；三是摄像头采集的视频数据中包含的信息更为丰富。本期就来讲一下这套方案所需的10摄基础结构化数据是如何产生的。

百度拥有500辆装载智能设备的专业采集车辆，可以覆盖全国主要城市的行车道路。采集车将采到的视频数据回传平台后，首先将数据进行清洗以及10-200帧/秒的抽帧处理。

抽帧图片转入数据标注环节，进行障碍物、定位元素、红绿灯等元素的标注。标注环节主要分两部分，第一步是对单路抽帧数据进行分段连续标注，段与段之间通过重叠帧进行关联，既保证了抽帧图片的连续性又降低了标注难度。通过智能预测算法，人工标注第一帧，算法自动识别后续帧，大大提高了标注效率以及标注精确度。数据标注完成后根据重叠帧将标注结果归一化处理后转入第二步。

第二步是对10路摄像头数据进行关联标注，根据道路场景以及标注需求复杂度，确定一次关联标注的摄像头数量，一般为2-4个。关联标注环节不仅可以保证360度环视感知，而且再一次校验了第一环节的标注质量。在该环节，通过智能视觉算法识别关联摄像头的相同元素进行关联预标注，人工来检查并修正预标注结果。

每个标注环节均有对应的前验/后验算法，加上审核阶段的3人拟合策略，多方位保证标注数据的质量。所有标注环节完成后，支持导出多种格式的标注数据，以满足不同客户算法的需要。

百度数据众包-智能驾驶数据解决方案

拥有甲级测绘资质采集团队和设备，能够完成指定城市道路场景下的数据采集；
支持多类型标注服务，如障碍物框选、跟踪（tracking）、语义分割以及2D/3D的融合标注，高并发高质量提供长期稳定的训练数据；
研发无人车数据开发管理平台，实现智能驾驶数据集的存储、管理和应用，支持模型迭代训练并根据模型缺陷提出对应解决方案；

分享至：

AI数据服务系统架构变迁

2019-06-19 王光浩

综述

百度众测（http://zhongbao.baidu.com/）作为全国最大的AI数据标注平台，自2011年成立，至今已有8个年头。随着业务的不断发展和壮大，整个站点架构也发生了翻天覆地的变化。本文基于这些年的一些经验和积累，详细描述一下属于众测的架构变迁史。

只有不断的总结，才能找到前进的道路。本文脚踏实地，回首历史长河，仰望星空。

阶段1 基于单点的网站架构

一般网站初期，常见的都是单机把所有的应用和数据库都囊括了。这种环境配置说实话有条件的话是绝不推荐的，当然有时候我们机器比较拮据的情况下也出现过应用和数据库同机部署的情况，那么代价是什么呢？

那就是难免会出现宕机的命运！

应用常见的情况都需要执行脚本，而一些脚本有可能出现内存泄露亦或是大内存占用的情况，数据库本身就是内存占用大户，一旦机器的内存过载，linux就会很聪明的kill掉数据库，让你不知所措。

因此考虑到机器容灾，建议至少把数据库和应用进行分开部署。

至于部署的话，之前已经提过经典的LAMP方式就ok。众测建站早期容器化docker并不是非常成熟，因此搭建机器都是通过脚本的方式进行。现在毫无疑问docker搭建就很方便快捷，也利于管理，也不太容易出现由于系统版本问题造成的编译调试崩溃问题。不过建议有条件还是重头装一下所使用的web各个组件，简单了解下各种编译配置的效果，以备不时之需。

目前整体的架构可以如图所示：

阶段2 数据库读写分离

能跑起来的应用是好应用，但机器难免出问题，为此数据库本身的容灾尤为重要。

本身随着业务发展，数据库难免出现因为错误代码或是误操作而导致的数据错误，甚至是物理机宕机等问题。因此数据库的灾备算是重中之重。

Mysql自带的mysqldump可以非常简单的导出数据，供数据恢复。如果有条件还可以进一步备份binlog，以此可以达到秒级别的数据恢复。不过需要注意的是mysqldump时会出现数据库锁表，单库的话，你的服务可就再见了。

这时候就轮到mysql自带的master+slave闪亮登场了！

从库（slave）的好处都有啥？

简单总结就两点：

从库主要进行读取服务，可以极大减少主库的服务压力。
专门部署的备份从库，可以放心地进行数据的备份。

不过引入slave后，烦躁的问题也有不少：

首先，需要对数据库前架设一个读写代理服务。我们使用了厂内自研的dbproxy组件，使用时完全感知不到其存在。开源的话可以使用mycat，甚至一些框架已经支持配置主从。

其次，主从引入后，主从不一致必然成为业务代码中需要考虑的一个问题。一般常见的错误场景是写入主库后，直接读取该条数据，由于主从瞬间的不一致，会出现读取不到case。当然，建议尽量减少业务代码如此实现，但是一些特殊场景下可能避免不了。建议使用对操作加事务或是强制访问主库连接的方式来处理这一case。

加上了从库，感觉越来越稳定了呢：

阶段3 负载均衡+多应用服务器

随着访问量继续增加，单台服务器基本无法满足需求了。一般会选择增加机器的方式用钱来换稳定性。但是加机器不能简单说说就加上了，会碰到以下这些问题：

1、第一个问题用什么技术做负载均衡：

首选是使用反向代理服务器。请求由反向代理服务器根据算法转发到具体的服务器，常见的apache和nginx都可以配置转发规则到其他机器上。部署相当简单，但是代理服务器可能成为性能的瓶颈，同时也有单点问题。

另一种更加底层的方案是使用IP层负载均衡。在请求到达负载均衡器后，负载均衡器通过修改请求的目的IP地址，从而实现请求的转发，做到负载均衡。整体比反向代理性能更好，但是也存在单点问题。

当然更复杂的情况下会选择DNS等方式做负载均衡，不多做展开。

2、第二个问题是选择集群调度算法。

首先，最常见的rr 轮询调度算法和wrr 加权调度算法，简单实用。

其次，使用散列方式的进行转发。常用用户ip等信息作为散列值，保证用户每次访问到的都是同一台服务器。

最后基于连接数进行数据分发。比较基础的有lc 最少连接，即连接请求较少的服务器。wlc 加权最少连接，在lc的基础上，为每台服务器加上权值。算法为：（活动连接数*256+非活动连接数）÷权重，计算出来的值小的服务器优先被选择。

当然还有更多更复杂的算法可以应用，这里不再多做介绍。

3、最后有别于单台服务器，session的共享是需要考虑的。

一般框架都提供了基于redis或是数据库的session共享配置，简单配置即可使用。不过需要注意的是在访问量较大的情况下，单redis和单库存在连接数打满的风险，需要进行进一步的扩容。

我们实际使用中，一般直接使用开放云架构的BLB。其提供http层和tcp层两类负载均衡的方式，可使用wrr方式进行负载均衡。同时，具备心跳检测，有效剔除了失效服务。

到目前为止，一个集群已经初具规模：

阶段4 数据库拆分

进行到本阶段，很有可能出现的问题有两个：单库维护了上百张表，维护起来十分头大；单表的数据已经达到了千万级别，查询出现性能问题。针对这两种情况，就需要引入水平拆分和垂直拆分：

垂直拆分的意思是把数据库中不同的业务数据拆分到不同的数据库中，例如我们会拆分标注、问卷等不同的场景，将数据库分开放，也因此可以避免单库性能拖垮全站的情况。

带来的新问题是如何处理跨库事务，目前我们一般使用代码控制，一些重要逻辑在每个库都支持自己独立的回滚。

数据水平拆分就是把同一个表中的数据拆分到两个甚至多个数据库中。一般用于解决单表过大的性能问题，同时方便扩容。

不过如何拆分是一个需要好好设计的点，目前如mycat模块可以根据配置对sql进行转发到库的操作，以此达到拆库的目标。

而在我们业务初期，这些组件还刚刚起步。我们最初使用的简单按月拆库的设计方案。简单来讲就是按照任务的发布月份，放到不同的月份库。按照过期时间，将冷数据灌入只读数据库来压缩存储容量。

不过随着业务量指数级别上升，单库的容量逐渐失控，我们进一步调整了分库的策略。目前我们自行设计了一个更细粒度的分库策略，基于任务-数据库映射表来实现，在任务创建初期有分库算法分配对应数据库，之后任务的生命周期中都会基于被分配的数据库进行CURD。

有了分库分表之后，我们的业务框架呈现如下：

阶段5 应用和模块拆分

上阶段我们已经将数据库进行了拆分，而实际上业务代码的拆分也应该随着数据库的拆分同时进行。

和数据库类似，我们按照业务模块拆分了包括问卷和标注在内的多个模块。本身业务代码是各不相同的，这种拆分比较顺理成章，但是比较痛苦的是业务代码会需要很多公用的逻辑，例如一些通用的string和array处理。一种建议是将这些通用逻辑放到framework的component里，以此来达到公用的目的。

另外此阶段可能一些公共服务模块（如用户信息）在理想情况是需要独立部署维护的。不过作为一个过渡阶段，考虑到开发的工作量，我们将公共模块在部署时拷贝至各个集群，后续阶段再计划进行独立拆分。

业务拆分后，我们的拥有了多个子系统：

阶段6 数据缓存

随着系统的不断复杂，渐渐会发现使用mysql处理很多应用场景有比较大的困难，如以下几种case：

用户时常会提交一些验证码等信息，如果都用数据库存储这些短效大量数据，似乎杀鸡用了牛刀；

一些复杂的分页信息很难用数据库直接计算，需要内存中组合数据进行计算。但是对于这种case，换页操作也不可避免，因此需要大量在内存中频繁读取数据库的值。

以上这些问题，引入缓存nosql解决起来会舒服很多，目前比较常用的就是redis了。

验证码信息可以使用key-value的方式直接存入redis，设定key的过期时间来避免redis存储过多的冷数据。

而复杂的分页信息，可以把页id信息存储到redis中。能够在换页时直接拿取redis中的分页信息，不必再进一步计算。

Redis还可以用来做一些消息队列、session存储以及数据缓存的功能，是必不可少的一层数据存储方案。

引入redis后，模块大致如下：

阶段7 微服务化

随着业务拆分的进行，会发现模块的组织切分尤为高深，这也是目前我们正在面对和解决的阶段。常见的一种设计思路是微服务架构：系统中，每个服务都有自己的处理和轻量通讯机制，能部署在单台或多台机器上，达到快速扩容。

一个优秀的微服务系统会具备如下几个特性：

松耦合：由于服务自治，有一定封装边界，服务调用交互是通过发布接口。这意味着应用程序不感兴趣的服务如何被实现。

利于测试，可并行开发，拥有较高可靠性和良好可伸缩性。

如何搭建微服务系统并不是简单几句可以说清的，有需要请另行深入阅读学习。我们目前推行的微服务架构简图如下：

和上一阶段看上去非常接近，不过其实主要区别是：上一阶段中各个集群中实际都会部署全量的代码，只是通过区分路由方式来保证请求进入到不同集群。例如外测服务需要调用标注服务的功能，只需要直接调用其代码即可工作。

而在微服务阶段，各个服务本身的代码尽量精简，几乎不会相互交叉。相互之间的调用需要使用接口的方式进行通讯。

总结

网站架构是一直长期发展的，如今先进的技术早晚也难免被过时淘汰。所以在搭建架构的时候脚踏实地，搞懂每一个设计的前因后果，才能夯实基础，仰望星空。

切忌不可以为了先进的架构而跃进式地升级，如果没有想清楚如何拆分、如何设计，只凭一股勇气，只会撞得头破血流折戟沉沙。

参考：

《浅谈web网站架构演变过程》：

https://www.cnblogs.com/xiaoMzjm/p/5223799.html

《大型网站技术架构：核心原理与案例分析》——李智慧著

《mycat权威指南》

分享至：

无人驾驶数据场景下的3D点云标注

2019-06-06 韩沛根

在无人驾驶技术中，环境感知系统充当无人驾驶车的“眼睛”，主要是通过无人驾驶汽车所装载的外部传感器获取外部环境信息，对其进行建模，将汽车所处的地理信息、障碍物信息等准确快速地传输给计算机控制系统。

在无人驾驶系统上通常搭配了多种传感器，常用的有激光雷达、毫米波雷达、车载摄像头，如下所示：

【LIDAR】激光雷达

它是一种用于精确获得三维位置信息的传感器，其在机器中的作用相当于人类的眼睛，高频激光可在一秒内获取大量(106-107数量级)的位置点信息(称为点云)。激光雷达探测距离远，可实时对周围环境精准建模，但造价相对较高。

【RADAR】毫米波雷达

毫米波雷达分辨目标主要是基于目标对电磁波的反射能力，穿透雾、烟、灰尘能力较强，可以适应如沙尘、大雾等恶劣天气，其造价相比于Lidar更便宜，目前在自动紧急制动系统功能应用较广。但探测距离受到频段损耗的直接制约，并且对行人感知较弱。

【CAMERA】车载摄像头

车载摄像头是用摄像头捕捉车辆周边信息。其大致原理如下：1)图像处理，将图片转换为二维数据；2)模式识别，通过图像匹配进行识别，如车辆、行人、车道线、交通标志等；3)利用物体的运动模式，或双目定位，估算目标物体与本车的相对距离和相对速度。

目前无人驾驶中主要是通过激光雷达对车辆周围环境的进行3D建模，从而为无人车的驾驶决策提供依据。

本期重点介绍基于激光雷达生成的3D点云图像标注。

3D点云图像标注

3D点云标注是在激光雷达采集的3D图像中，通过3D框将目标物体标注出来。目标物体包括车辆、行人、广告标志和树木等，如下所示：

当激光雷达搭配车载摄像头后，能够生成对应点云图像的2D图像，进行对比参考。

百度众测当前拥有3D标注工具集，支持包括3D点云、2D-3D融合、3D连续帧等标注场景。标注工具主要分为三个模块，分别为2D图像、点云信息、标注框三视图，如下所示：

2D图像：将点云中标记的框对应到2D图像中。

点云窗口：3D点云图像标注操作窗口。

框三视图：将点云中选中框映射到三视图中显示更细节的信息。

标注规则

在点云中俯视图下拉框后（如下左图），根据算法自动生成一个立体框（如下右图），再对对应立体框的大小、方向进行微调后使框满足要求。

框的要求：

1. 框贴合：框的6个面贴合被标注物体，框内不应有超过3px的空隙，框外不应有属于此物体的点。

2. 框方向平行：框体方向需与车身方向平行，并注意车头方向。

3. 框类型：当标记出3D框后，此时对应的2D图像上会自动框出对于位置，可通过2D图像确认的物体标记类型及车头方向。

百度众测作为百度无人驾驶业务的标注数据提供方，拥有包括3D点云、2D-3D融合、3D连续帧在内的标注工具集，积累大量3D点云数据标注经验，通过高效的标注工具及流程化的质量管理体系，为客户提供高质量的训练数据。

分享至：

百度数据众包：AI数据质量管理探索和实践（二）

2019-06-04 张晓晓

上期我们说到百度数据众包的五维立体质控系统：

自动化先验过滤
AI加持自动化审核
执行项目经理自检
多轮众包质检
百度项目经理抽检及小流量预交付

今天，我们着重讲一下有着技术赋能加持的自动化审核。

自动化审核，顾名思义，非人工介入的程序自动筛选流程。

百度作为国内AI研究应用的领头羊之一，公司内部积累了很多AI技术平台化的应用/接口。百度数据众包也能借助这些技术积累和开放的东风，将AI技术反哺到数据采集阶段。

按照审核过滤阶段区分，自动化审核分为先验过滤和后验审核。

先验过滤

质控，是数据采集开始就存在的。百度自有采集工具，在实际采集之前就可以灵活的设定过滤条件。可以对人脸、机型等信息综合判定，过滤重复用户，解决了传统众包分包模式可能导致的样本重叠问题；可以通过机器信息采集和基于百度账号的大数据人像标签，过滤非目标用户；甚至在数据提交阶段，在本地就对数据参数合法性、数据重复性等进行基础过滤……以上措施，不但大幅度提高采集阶段的数据质量，同时减少了20%+的冗余采集工作和质检工作，大大提升了整个采集阶段的效率。

后验审核

例如人脸识别、人脸查重、音频空白截断检测等等都陆续添加到自动化审核框架中，过滤筛查明显不合格的数据和重叠样本。大大提升审核效率，减少人工质检量，甚至完成人工质检员无法完成的质检要求。

除了审核阶段不同，自动化技术起到了不同的作用。我想大家也会好奇，现在已经有哪些自动化技术/人工智能技术，已经或将要应用在我们的自动审核中呢。

1. 人脸查重、人脸识别

调用百度内部人脸识别的平台化API接口，我们在现有算法精度的限制下，对召回率和准确率做出一定权衡，自动过滤掉完全重复的人脸（同一个样本用户），对于其他中高相似度的人脸数据再交由人工二次判断。目前，该算法对亚洲人脸有着较为出色的表现，在2018年也在欧洲白人等其他人种做出了应用尝试。并对大规模人脸数据的机器算法查重和人工判断查重的准确率进行对比，实验发现机器算法非常明显的更胜一筹。这给我们对AI技术反哺数据业务的尝试，提供了更多信心。人脸查重、人脸识别在采集先验和后验阶段都有不同的应用，先验时直接帮助项目执行经理判别用户是否重复参与此项目，而后验则有更多的灵活的应用，例如性别判别等。

2. 商品条形码查重

对于在售商品的物品采集，我们首度在先验框架中加入了商品条形码识别查重。这使得我们可以同时在全国范围内铺展商品采集成为可能。避免了由于采集人员分散、信息同步困难、品类拆分监控困难等原因，造成的采集资源和审核资源大量浪费、以及项目管理人员的低效能投入。同时，数据质量也得到进一步的提升。

3. 音频空白检测、截断检测

语音采集时，难免因为一些操作不当等原因，用户上传了空白音频，或前/后截断音频。技术上已经有非常成熟且准确率高的手段，轻松判别音频文件是否是空白、或前后无适量空白直接截断。此技术在2018年初开始应用在后验自动化审核中，在审核效率提升方面起到了很好的效果。

4. 文件参数过滤

众包采集肯定很难像专业化采集团队那样好管理，人员文化水平参差不齐，业务素质高低悬殊，使用设备五花八门。可能我们觉得非常简单的数据参数要求，在投入众包采集时，管控都变得困难。图片的尺寸、比例、像素、体积、格式……音频的采样率、时长、分贝……视频的时长、帧率、格式……这些文件参数的要求，我们固然可以通过采集工具（软件）的优化，提高采集有效率。但是一方面安卓手机复杂的兼容问题，另一方面，无法避免的线下集中采集回传，也要求我们对采集上传数据进行再过滤。试想，在整个后验框架内，我们可以灵活配置文件参数要求，在采集开始产生第一个文件后，系统立即日夜兼程的自动化过滤掉不合格数据，我们将节省多少项目经理的工作量和质检人力、时间投入。也进一步的提升了采集、审核效率。

5. 复杂审核规则的系统化支持

对于复杂的审核规则，我们往往进行拆解。在人工审核的时候，只做简单的单一方向判断（以减少人工审核难度和误判率），而复杂的审核结果再匹配，则是由系统运算回写的。我们后验框架也开始尝试支持研发定制化脚本的插入，这是一个高度灵活、可扩展的自动化质检系统。

未来，随着越来越多AI技术在人工智能基础数据生命周期管理中的运用，百度数据众包将持续为AI企业降低管理运营成本，提高数据质量，实现数据资产价值最大化提供关键支持。

分享至：

百度数据众包：AI数据质量管理探索和实践（一）

2019-05-28 张晓晓

近两年人工智能的浪潮席卷全球，传统互联网公司纷纷投入资源进军AI产业，更有大量AI创业公司纷纷涌入并崭露头角。AI技术三大要素：算力，算法，数据。算力不必多说，符合摩尔定律，GPU、TPU性能突飞猛进，中国“芯”也在不断崛起，在算力方面国内的各家很难拉开明显差距。而算法，目前大热的依旧是深度学习，深度学习算法的精度需要大量的高质量数据进行训练。目前，AI领域任何一个伟大产品都需要超大量级的训练数据支持，数据是AI发光发热的基本要素。

目前数据来源基本有下几种方式：

网络公开资源抓取
学术、政府、企业等行业数据集购买（或免费获取）
自建团队采集
众包人工采集/标注
自有产品获取数据

随着我们AI产品的深入发展，简单场景下的算法精度趋同且数值较高。但是，在复杂场景、高难度场景下，算法精度则拉开了明显差距。AI公司越来越注重指定场景的算法训练，算法对数据有着更多个性化的要求，网络抓取or已有数据集很多已经无法满足现在企业的需求。举例来说：图像方面的昏暗、逆光、强光、遮挡等，音频方面的嘈杂环境、办公室环境、车内等。这些都是已有数据很难一一涵盖或筛选出来业务场景。

与此情况类似的是，使用本公司已投放市场的产品所产生的数据。虽然采集不花钱了，但是由于大量冗余数据，却要花上几十几百倍人力投入进行数据清洗和再标注。所以，拿某些成熟公司举例，哪怕他们数据库每天都新增几十万上百万的图片、音频数据，他们都不会想去在这批数据里挑出有用数据进行算法训练，更何况，这还涉及了隐私等法务问题。

而自建采集团队不但需要较长的准备期，也往往面临着高昂的人工设备成本，和持续的管理投入。尤其随着产品的迭代，数据需求的变化也对自建团队带来了较高的要求，对大多数企业来说这是笔“亏本买卖”。

众包人工采集，成了企业低成本获取大批量、高精度数据的不二选择。

公认的，众包有着人力成本低、分布范围广、涵盖场景丰富等诸多优势，与此相对的，人员管理困难，对于高难度数据采集支持度差，人员质量参差不齐导致数据质量把控难……也是众包的缺陷。实际上，越来越多专业的数据公司，通过建设自己的项目执行团队，和培养一大批有经验的优秀的项目经理，来解决以上种种问题。略有成效，但远不足以满足AI算法所需的数据对准确率的要求。

如果在阅读这篇文章的你，从事过AI算法相关的业务，或许对数据准确率这件事有非常大的感触，也许只是百分之几甚至百分之零点几的区别，就决定了产品的成败。拿智能语音市场举例，语音识别准确率甚至达98%以上，就更别提对其算法训练数据的准确率要求了。我们经常能听到客户这种声音，我们需要正确率达99.x%以上。

同为众包数据公司，我们也会经常和客户交流，为什么最终选择了百度数据众包。

“数据质量有明显优势”。这是我们经常听到的答案。

2019年第二季度伊始，我们将推出一系列文章，为大家解密百度数据众包采集业务在质量保障方面做出的种种努力。

市面上大多数数据公司目前的采集业务质检模式是怎样的呢？

——接到项目，将项目分包给多个项目执行经理，或者分包其他小型资源公司/工作室，数据返回后，由公司内部质检团队进行人工抽检or全检。看起来好像是一个合理的数据采集质检流程，实际上确是非常粗糙、原始的质控手段。先来解读下其中的“坑”有多少吧！

项目分包给其他小资源渠道时，意味着采集对象可能有重叠，这是很难杜绝与避免的。而数据审核环节仅对数据准确性做出判断，这部分重叠对象是无法检测出来的。拿着这种“有水分”的数据去训练算法，事倍功半。
依赖单一的人工质检，面临着两方面问题，一个就是效率问题。由于内部质检人员数量限制，意味着公司并发的上限，面临大规模数据采集质检需求or突发紧急的业务需求，质检团队将捉襟见肘。
依赖单一的人工质检，另一个问题也是最重要的，数据精度全依赖某个质检员人工判断。人工这种事情，会疲劳、会理解出错、会偶尔走神……”人工质检”恰恰是最需要深度建设才能起到质量保障效果的手段，但很多质检团队只是非常基础搭建起业务流程。

百度数据众包建立7年有余，有着非常丰富的众包数据业务经验。尤其区别于大多数传统数据公司——通过小型自有数据采集标注团队起家，百度数据众包从创建伊始就剑指众包。作为国内老牌众包品牌，我们更早的遇到了众包业务的种种困境，也不断积累解决方案，优化业务流程，沉淀技术与产品，构建了国内领先的众包业务系统。

以采集数据质控为例，百度数据众包是国内首家也是唯一对采集数据进行多维立体质控的公司。系统质控措施丰富，流程覆盖全面，数据质量业界领先。主要涵盖以下5个方向的质控措施：

自动化先验过滤
质控，是数据采集开始就存在的。百度自有采集工具，在实际采集之前就可以灵活的设定过滤条件。可以对人脸、机型等信息综合判定，过滤重复用户，解决了传统众包分包模式可能导致的样本重叠问题；可以通过机器信息采集和基于百度账号的大数据人像标签，过滤非目标用户；甚至在数据提交阶段，就在本地对数据参数合法性、数据重复性等进行基础过滤……
以上措施，不但大幅度提高采集阶段的数据质量，同时减少了20%+的冗余采集工作和质检工作，大大提升了整个采集阶段的效率。
AI加持自动化审核
百度作为国内AI研究应用的领头羊之一，公司内部积累了很多AI技术平台化的应用/接口。百度数据众包也能借助这些技术积累和开放的东风，将AI技术反哺到数据采集阶段。例如人脸识别、人脸查重、音频空白截断检测等等都陆续添加到自动化审核框架中，过滤筛查明显不合格的数据和重叠样本。大大提升审核效率，减少人工质检量，甚至完成人工质检员无法完成的质检要求。
执行项目经理自检
还是那句话，质检质控，从数据采集的开始就存在。在数据真正扭转到人工质检团队审核之前，它最先由这个项目的执行的项目经理看到。这道环节打通的意义不只在于执行项目经理能过滤掉多少无效数据，而在于，他能够及时通过发现现有数据问题，即时修改执行策略，积极沟通积极调整，减少在错误方向的投入，减少无效执行和质检的人力投入，提升项目效率和数据质量。
多轮交叉众包质检
无法避免的人工审核环节，接触过数据业务的人都知道，数据的生产到清洗到标注最终都离不开人。AI技术无论发展到何种程度，如果它想进步想进一步提升精度，就必须有高精准度的人员工作投入。而众测的人工质检对比其他团队有何种区别呢？那可太多了，从流程到工具，从人员到制度。容我在这卖个关子，留待下回分享。
百度项目经理抽检及小流量预交付
采标（审）全流程线上化，数据流转及时，内部透明，给了项目交付灵活的空间。采集首日的数据，次日就可推送审核并尽快出具审核结果，百度项目经理可以随时从系统中抽取小批量数据，抽检质量并线上流转交付客户确认。及时发现问题，及时进行后续调整。这极大的避免了因为沟通不畅or需求变更导致的大批量数据返修甚至重采的状况。减少客户的等待成本甚至资金人力损失。

除了对于每批次的数据质量控制，百度数据众包也在努力打造一个更具生命力的数据采集交付生态。每一次采集的数据质量、效率等评估数据，都会跟随项目执行经理和其渠道资源终生，成为他们后续的综合评定依据。后续项目经理可以承接的项目难度、范围……也都依赖于以往的履历积累。一方面我们在整个采集项目执行方面，以项目经理为核心，进行正向的优胜劣汰循环，另一方面也积极传播“重视质量”“重视履约”“重视沟通”的业务价值取向。这也会成为百度数据众包采集长久生命活力的根系所在。

分享至：

代理商智能招标平台，构建公平开放的众包标注生态

2019-05-05 钟平

百度数据众包团队作为行业领先的AI基础数据服务提供商，致力于为智能驾驶、计算机视觉、语音识别等AI行业客户提供最专业的一站式数据标注和采集服务。

AI智能算法的高精度模型依赖着海量的训练数据支持，在百度数据众包团队的数据生产链中，有百余家合作代理商，旗下数以万计的员工参与数据标注生产，在这个从业人员基数下对于代理商的甄选管控无疑是百度构筑成熟的数据众包模式解决方案的重中之重。

智能招标，打造公开透明的合作生态

为构建更透明、高效的代理商招标环境，百度数据众包团队自主研发了全自动的项目智能招投标系统，项目启动时，招标系统会根据数据标注的实际工作场景发起限时模拟测试，有竞标意向的代理商可自主报名参与，并组织员工在模拟系统中进行项目实操，模拟测试结束后，系统会结合自动审核算法计算出所有参与模拟的代理商产能及质量等指标，按照项目预先设定的中标条件，将模拟测试中指标达标的代理商选中，并根据测试中的实际表现数值计算分配每家中标代理商可承接的标注数据配额。

资源循环，护航新代理快速成长

为保障新成立的代理商能够在平台稳定成长，众包团队在项目系统中研发引入了资源循环机制为新代理商提供了最大化的项目承接机会，当项目中已承接任务的代理商达到一定数量时，系统会开启循环周期，并综合周期内所有代理商的交付次数、交付质量、验收通过率等指标进行项目表现评分，评分最低的代理商将在每个周期结束时失去项目资格，若想继续承接，需重新参与并通过模拟测试，该机制的引入保障了项目不会被大代理垄断，给了新代理更多的成长空间。

总结

百度数据众包，目前已拥有万人规模的代理商资源池，与政府合作自建行业内最大的下游代理商生态-百度（山西）人工智能数据标注基地，通过标准化的质量管控流程，专业的软硬件设施满足不同客户对于数据安全的等级需求，帮助企业在智能驾驶、计算机视觉、语音识别等垂类领域提升算法质量,持续为人工智能行业赋能。

分享至：

专家专栏|蒋志坚：数据标注-调度系统设计

2019-04-30 百度数据众包

引言

得数据者得AI的天下。百度智能云-数据众包平台，成立于2012年，通过高效的众包模式满足客户对数据的需求，可采集大量的原始数据，通过数据加工，为客户交付标准化结构化的可用数据。帮助客户训练算法模型、开展机器学习，提高AI领域的竞争力。

数据标注发展的几个阶段

阶段一：萌芽期

在百度智能云-数据众包成立初期，主要承接百度内部的一些产品线的评测工作以及算法策略团队的模型训练相关的标注数据的积累工作。

阶段二：发展期

随着各条业务线对于机器学习的持续投入，数据标注的相关需求越来越多，这段时间大约持续3年左右。在这期间，百度数据众包完成了原始方法论以及相关技术的积累。

阶段三：爆发期

2016年9月1日，在当年的百度世界大会上，Robin（李彦宏）对外宣布人工智能是百度核心中的核心。随着公司内AI核心地位的确立，同时市场上对于AI的期待以及关注程度愈发强烈。当大家都认为AI是移动互联网后的下一个风口的时候，整个AI最底层的数据标注行业，迎来了一个前所未有的爆发期。

阶段四：成熟期

2018年，中国AI公司的总融资规模达到千亿元以上，数据采标的市场约为100亿元—300亿元。随着AI逐步进入了各个公司，无论是互联网还是传统企业的战略发展目标中，数据标注行业迎来了成熟期。

数据标注的几个关键要素

标注员：标注员是第一生产力，如何提升标注员的能力和效率是整个数据标注领域需要解决的核心问题。

数据：如何投放数据、加工数据、保证数据质量是另一个整个数据标注领域需要解决的核心问题。

标注工具：提供标注规则以及交互方式。标注工具是解放标注员生产力的重中之重。

综上，数据标注的本质就是一个合适的标注员通过标注工具按照指定规则对一份数据进行加工。

那么，如何将数据分发给标注员进行加工？

调度系统的演化

标注调度系统就是为了解决数据标注几个关键元素的串联，即将数据分发给标注员进行加工。

在数据标注发展的不同阶段，我们对标注调度系统的定位和要求也是不一样的。

萌芽期

萌芽期的标注要求和过程都很简单，一般以客观选择题或者主观题为主，只需要提供一个平台，能够让标注员找到自己感兴趣的数据进行主动标注即可。同时数据的投放方式都是由运营同学进行手工投放的。在这个阶段，基本不需要标注调度系统

发展期

1. 背景：随着数据需求量的进一步增加，传统的人工投放方式已经无法满足数据标注的需求。因此开发一套能够自动投放任务的系统是这个阶段技术的一个方向。这个阶段也就是标注调度系统的雏形。

2. 解决思路：全流程自动化

爆发期

1. 背景：

需求方的变化：

a）随着无人车、视觉、语音等领域的标注需求越来越多，标注的题型和过程也越来越复杂

b）模型的成熟度提升之后，更多的标注数据是用于模型效果的提升而非简单的原始数据积累，因此需求方对于数据的质量要求越来越高

标注员的变化：

a）随着行业前景的明朗化，越来越多的新生代标注员井喷式地涌入数据标注这个朝阳产业

2. 综上，当前阶段主要矛盾点在于：

a）对于数据质量的管理要求

b）对于大量人员的管理需求

3. 针对以上问题，业务上的解决方案如下：

a）传统的数据标注，是通过多人拟合完成最终结果生成的。例如一例选择题，只有当3个人选择了C之后，系统才会认为C是一个正确的选项。但这之中往往会存在一些bad case。因此除了标注，增加审核环节。让专业知识更强的审核员加入进来，针对不合格的数据，进行一个有效的返修是快速提升数据质量的手段。

b）对于大量人员的管理，通过增加一些层级，引入虚拟组织进而更好地管理，类似于“公会机制”。

4. 解决思路：审核环节以及对应的人员管理机制—公会。

成熟期

1. 背景

业务持续规模化，客户对于数据标注的依赖持续加强，数据标注已经进入到客户的研发闭环中，对于数据质量的要求已经达到极致。

为了进一步提升数据标注的质量。不仅仅通过更加精细化的手段去掌控整个标注过程，更需要进一步解决标注员能力层次不齐的问题。

2. 解决思路：

a）引入数据调度系统：扩展标注数据处理阶段，实现各阶段间数据流转的精细化管理

b）引入人员调度系统：精细化管理标注员的标注生命周期

３.可以看到，当前标注的数据加工阶段已经精细化到如下程度：

４.数据调度系统

５.人员调度系统

标注调度系统主要目标和实现手段

通过以上系统演化角度，我们大致了解了数据标注调度系统的一个发展史。下面主要介绍一些现阶段标注调度系统的几个主要目标以及具体的实现思路。

通用性

1. 调度对象的普适性

数据调度：支持各个维度的数据的流转

a）单条数据：标注系统的最小调度单元

b）任务维度：任务是n条数据的聚合，标注运营的最小管理单元

c）批次维度：批次是n个任务的聚合，客户维度的角度最小管理单元

2. 业务模型抽象

3. 流转策略的通用性

a）输入：

决策数据源可以是当前线上实时的数据库，也可以是离线搭建的小时级别的数据仓库
原始数据（批次、任务、单条数据）

b）计算：决策运算配置，根据决定的数据+策略进行决策，产出最终流转方向

c）输出：流转配置，根据计算结果进行预设的流转.

高可用性

1. 模块部署图

2. 高可用性的SLA定义

模块确保99.9%的请求得到正确决策调度，并确保80%的决策延时低于60秒。

3. 策略的热加载

由于需要保证服务SLA，因此当策略更新之后，采取热更新方式来加载对应的策略。通过策略版本号进行相应的策略升级以及回滚控制。

4. 基于SLA的监控模块搭建

基于请求日志+过程数据完成基于SLA的指标监控，并设置对应的阈值进行简单的系统自恢复。

总结

在标注业务高速发展的大环境下，标注调度系统的重心逐步从纯手动发展到全自动化。同时通过不断的架构调整，加强通用性设计来满足更加复杂的外部业务变化。下一步，在确保满足流程变更需求的前提下，开始逐步探索如何通过微观调度过程的优化进而提升整个数据交付的效率。

分享至：

专家专栏|闵楠：构建高质量智能驾驶数据集，为自动驾驶提供“数据燃料”

2019-04-28 新智驾

感知技术是智能驾驶当中的关键一环，尤其是在国内路况比较复杂的情况下，感知技术的突破不能完全通过算法的迭代或者是技术革新来解决。

在这种情况下，经过人工标注的带有丰富语义信息的数据，可以使得算法更好地理解和识别视觉摄像头、激光雷达、毫米波雷达等传感器所传输的画面信息和障碍物信息。

当下，每一个研发团队都面临着一个问题：海量的数据如何高效地从原始数据转化为标注之后带有丰富语义信息的数据。

传感器从真实世界所采集到数据，完成了数据生产的过程。原始数据经过了一定的标定和结构化、非结构化的存储过程后，需要再经过人工标注才能产生出带有标签和语义信息的数据，这样的数据才能够为算法所利用。

相反，如果传感器无法在真实的世界中挖掘到足够多的有用数据，就需要有意生产和收集这样的数据来提升算法的精准度。

从理论层面上说：数据的标注结果越精准，对于算法的运算结果越好。因此数据的采集和标注工作都非常重要。

企业和开发者一般采取两种做法：

自建团队

自建团队需要耗费大量的精力来维护自有的标注团队。通常情况下还需要开发甚至长期地维护一个合用的数据标注的工具或者平台。唯有如此，才能长期系统性实现数据标记工作，以及进行时效性数据的补充工作。

业务外包

业务外包的模式相对于自建团队也有其难点。当下，自动驾驶的研发选型方案不断进化，对数据标注的专业能力要求不断提升。业界对于标注的需求不断进化：从最原始的2D图像的标注需求，慢慢进化到3D点云的标注需求，到全象素的语义分割，甚至多传感器融合障碍物的标注能力。不断进化的需求都对数据标注团队的能力都提出了很大的挑战。

因此，企业需要不断地研发新的标注工具，甚至是寻找标注能力不断进化的团队。百度智能云-数据众包希望能够给合作伙伴提供一个在成本和效率上都优于上述两种方案的解决方案。

关于百度智能云-数据众包

百度智能云-数据众包成立于2011年，目标是为百度内部的研发团队和业务团队提供AI数据的采集和标注服务。

目前，百度智能云-数据众包已经承接了包括百度智能驾驶事业群在内的绝大部分团队的数据标注需求。2017年下半年，百度智能云-数据众包正式对外开放标注的经验和能力，成为综合性训练数据服务平台。

百度智能云-数据众包通过定制化的流程管理、质量管理、资源/人员管理能够高效地分发和管理大规模数据的数据标注任务，同时保证数据的质量和数据安全。

百度智能云-数据众包在智能驾驶行业上的应用

智能驾驶的传感器的数据输出一般分为以下三种类型：

第一种是障碍物的检测、跟踪以及多传感器下障碍物融合。

百度智能云-数据众包，从2015年开始从事智能驾驶的障碍物标注，除了具备最基本的单目和双目摄像头障碍物标注、鱼眼摄像头和环视摄像头的障碍物标注能力之外；百度智能云-数据众包还具备了从4线到128线等线束不同的激光雷达点云数据的标注能力，同时还具备多传感器融合障碍物的标注能力，包括激光雷达和摄像头融合、激光雷达和毫米波雷达等传感器融合障碍物的标注能力；在V2X的数据标注方面，百度智能云数据众包团队也具备相关的标注经验。

第二种传感器所输出的车外的环境感知以及车道信息。

在车外环境感知以及车道信息方面，百度智能云-数据众包的数据标注平台也累积了丰富的标注方案，处理了庞大的车道检测、车位识别、路面信息、交通标识、定位元素、可行驶区域和语义分割等类型的数据（包含Apollo平台室外场景集合）。

第三种是对车内环境的感知和对驾驶员驾驶意愿的交互。

车内环境的感知，百度智能云-数据众包具备非常典型的疲劳驾驶的行为检测能力，具备包括驾驶员的面部的关键点标注和面部表情检测，以及客运车辆当中，乘客的位置感知等标注能力。

关于产能规模

百度和山西省政府合作，在太原建立了一个巨大的标注中心，结合经验丰富的线上众包人力，百度智能云-数据众包的标注团队规模超过5000人，障碍物和车道线等2D数据的每日产能峰值达到4万帧左右、点云障碍物标注量在1万帧左右。

大规模的生产节奏下，如何保证标注人员对标注规则的理解和执行是一致、并且保证数据质量，是一个具有挑战性的问题。百度智能云-数据众包在这个问题上进行了不断的摸索和迭代。

首先百度智能云-数据众包建立对标注员和审核人员培训和考试等标准流程。此外，在标注工具里，百度智能云-数据众包也集成了智能算法，比如连续帧的标注算法可以根据上一帧人工标注的障碍物类别，智能地预测和标注下一帧将会出现障碍物类别。

智能算法能够极大地解放标注人员的压力，标注人员只需要在算法识别的基础上进行一些修整，这样能够极大地降低在标注过程中人工的参与和主观判断产生的引入人工错误的可能性。

百度智能云-数据众包标注完每一条数据，都会经过一个人工的审核和自动化的脚本检测过程，这样能够有效保证标注结果符合标注规则。

此外，数据安全也是百度智能云-数据众包非常重视的方面。除了标准的合同条款以及保密协议之外、还有技术上的手段进行保证——百度智能云-数据众包会进行任务封装、数据加密、专线传输、专利的反爬。

对于对数据安全有特殊要求的客户，百度智能云-数据众包准备了私有化部署的标注平台、专属的数据标注团队、和封闭的标注场地，确保数据的安全。

多种的方案能够满足对数据安全有不同级别需求的客户。在整个项目进行过程中，百度智能云-数据众包的项目经理和商务经理会进行全程的对接。一般情况客户只需要提供标注规则和待标注数据，在项目结束后对标注结果进行验收即可。

总结

数据是人工智能的燃料，数据在智能驾驶领域的重要性是不容置疑的。绝大部分企业对数据是非常重视的，但都共同面临着缺乏有效获得大量且高质量数据渠道的困境。因此，针对国内路况较为复杂和国内智能驾驶起步稍晚的现状，百度智能云-数据众包通过多年的经验，以及多年建立起来的高效的管理方案以及专业的软硬件设施，能够不断地为智能驾驶提出新的思路。

分享至：

百度数据众包，中国人工智能数据质量引领者

2018-12-19 吴泽衔

2018年12月14日，由百度数据众包主办的“AI之道数聚为赢”沙龙在三亚召开，来自百度内部产品线、行业内领跑企业以及人工智能学术圈的多位代表共同出席，就AI行业基础数据服务的现状及趋势展开了深度讨论。

百度众测数据业务总经理——曾虹云

首先，百度数据众包数据业务总经理曾虹云以“人工+智能，引领数据行业的质量新标准”为主题发表演讲，他表示目前各地区政府、各个行业都在积极拥抱AI，AI数据需求规模会越来越庞大，使用场景也会更加多样化，同时对数据质量的要求也会越来越严苛，如何能够在单位时间内提高数据的准确度是行业的核心诉求，而百度数据众包在数据质量把控上具备了独一无二的优势。

百度数据众包是从百度内部成长起来的AI数据服务平台，自2011年起一直致力于服务百度内部产品线对人工智能数据的采集和标注需求，累计服务了131条内部产品线，涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。凭借着多年丰富的内部项目经验及百度内部技术能力的支持，百度数据众包可以高质量完成各类项目。

以人像采集为例，百度数据众包在接到客户需求后会制定采集方案并进行小流量测试，将小流量测试结果反馈客户并与客户沟通验收标准，反复磨合确认最终方案后开始正式采集。在采集前百度数据众包会采用百度的人脸识别技术对被采者进行拍照入库去重检测，保证被采者的唯一性。同时百度数据众包对用户隐私的保护也非常严格，要求所有被采者均需签订数据授权协议后才可开始采集，采集结果通过百度微任务APP实时回传后会经过MD5技术检测做一道防止重复提交的技术把控，再由百度的标注基地人员进行多轮比对质检，最终将高质量的数据反馈给合作伙伴。

百度数据众包合作伙伴（部分）

正因为百度数据众包在定制服务、业务规模、数据质量、数据安全这四个维度的强大竞争力使得百度数据众包能够承载和满足AI客户落地应用99%的场景需求。在2018年的成绩单上，百度数据众包年收入2.25亿元，合作伙伴覆盖了以华为、小米、OPPO、ViVO为代表的知名手机品牌，以蔚来汽车、小鹏汽车、Momenta、奔驰为代表的知名汽车厂商，以旷世、爱笔、云从科技为代表的知名AI公司及以腾讯、网易、ebay为代表的大型互联网企业。成功支持了众多合作伙伴的新品上市，并与政府合作建立标注基地解决9000+人就业问题。

“行业数据需求分析及趋势展望” 圆桌讨论

在接下来的圆桌讨论环节中，各AI代表围绕着数据需求、数据精确度的痛点、对未来数据处理平台的展望等要点展开讨论。

天津大学智能与计算学部教授、博士生导师——王文俊

在数据需求上，天津大学智能与计算学部教授、博士生导师王文俊教授表示由于其研究学术方向为智慧城市及公共安全，因此数据需求主要来自政府数据、运营商数据及开源数据。而小米AI实验室高级产品经理张和则从商业领域上论述了目前小米的数据需求，一是小爱同学智能音箱的语音数据，二是基于小米手机拍照功能优化的图像数据。对于公开数据集这一数据来源渠道，其认为公开数据集因数据获取壁垒太低，无法实现算法的差异化。对于竞争激烈的市场环境，需要定制化的数据才能构建技术、产品的差异，所以其更倾向于找百度数据众包平台合作做定制化采集及标注。

百度技术体系技术委员会主席——杨斐

在数据精确度上，各家看法一致，百度技术体系技术委员会主席杨斐认为AI时代是数据驱动的时代，数据质量对算法模型精准度的提升作用非常大，他以自动驾驶举例称，在过去与百度数据众包的合作中，百度数据众包提供的高精准数据对百度无人车算法模型的提升起到了很大的帮助作用。小米的张和也表示小米最看重的还是数据的精确度，“小米以前也采用过其他的众包平台，但因为这些平台无法满足质量要求，因此今年小米将大部分数据预算都投在了百度数据众包上，百度数据众包也不负所托高质量完成了众多项目。”

小米AI实验室高级产品经理——张和

对于未来的数据平台期望，张和从小米手机国际化需求及更新迭代角度出发，希望未来的平台能具备国际化的采集能力，持续提高采集速度，以及支持更加定制化的标注需求。而百度数据众包在全球22个国家的采集能力、私有化的标注平台部署都恰好能满足小米的需求。百度杨斐则希望数据平台可以通过与一些技术手段结合来大幅提高产能，将AI时代的“铁锹”升级为“挖掘机”，从而降低标注的成本。关于自动化标注能力的建设正是百度数据众包平台目前正在大力研发的，未来百度数据众包将通过“自动化机器标注+人工标注”结合的方式进一步提高准确度及降低标注成本。而天津大学的王教授看到了百度与山西政府在标注基地等方面合作，期望百度数据众包也能有机会与天津政府合作，加快人工智能产业在天津的落地。

百度数据众包凭借着完善的流程管理及先进的技术和平台能力，目前已经处于行业领先位置。在未来2年，百度数据众包将继续围绕AI战略，持续提高平台在人工智能数据领域的专业度，致力于做中国人工智能数据质量的引领者，为AI时代添煤加水。

分享至：

百度人工智能基础数据产业项目落户太原综改示范区

2018-07-02 百度数据众包

6月28日，百度与山西转型综合改革示范区就“百度（山西）人工智能基础数据产业项目”成功完成签约！EBG&TG QA总监高果荣代表公司，和综改区相关领导完成了协议的签署。

百度高级技术经理众测业务负责人施佳樑、百度公共事务部政务合作部总监段超、山西省政府副秘书长、综改示范区党工委书记、管委会主任张金旺等人见证了合作协议的签订，会后高果荣与张金旺主任进行了亲切友好的洽谈，并对下一步工作进行了安排。综改示范区管委会副主任刘勇主持签约仪式。

随着人工智能的应用越来越广泛，数据标注产业作为人工智能产业链上非常重要的一环，已经成为整个产业链的支撑产业。而百度作为BAT（中国互联网公司三巨头：百度、阿里巴巴、腾讯）中的搜索领导者，以此为基础建立的人工智能建构，在数据标注业务上的需求增长强劲。因此，数据标注产业不仅能给企业、政府带来经济收益，也给社会的发展带来收益。同时，还能解决地区就业问题。

高果荣表示，未来的数据标注会从单一的感知型标注向多层次分级的认知型标注发展、从低门槛的大众型标注到高门槛的专业性标注发展、从人力驱动型标注向技术驱动型标注发展。这一系列的发展表明了标注企业不能仅仅持续固守原旧有的模式发展，如何尽快的从人力密集型的普通外包模式企业转型成为以技术驱动的综合性标注企业发展是目前困扰企业发展的难题，而入驻百度数据标注产业基地可帮助企业优化原有的运营模式，积累并建立数据标注的运营体系，培养AI时代下的“人工智能训练师“。加入百度数据标注产业基地不仅可以享受百度独家业务扶持，为招募的数据标注企业提供培训、运营活动支持及初期业务导入同时可以抓住成为未来数据标注产业的领军者的机遇。

百度人工智能基础数据产业项目设立在综改示范区唐槐产业园区，商务办公楼建筑面积达3,000平方米，可容纳1,000人同时办公。未来将建立从普通标注企业到专业标注企业的分级数据标注产业集群，打造人工智能时代数据标准产业高地，形成新业态。一期计划引入首批数据标准产业联盟企业，打造百度数据标注产业样本企业；二期依托产业园，吸引标注产业合作伙伴入驻，带动物联网、BIM（建筑信息模型）等上下游企业和相关延伸产业的加入，并开展创新型企业孵化工作，从而带动山西省人工智能产业发展，促进就业。

分享至：

提升数据采集及标注能力 释放数据要素价值

助力地方提升数字技术创新能力 培育数字产业生态

人工智能的故事

重塑认知从引擎开始

AI 带来的“超长续航”

一站式数据标注服务，引领数据产业发展

首发数据服务与资产管理平台，提效 AI 算法模型迭代

“AI数据标注平台”：一站式数据管理保障高质量

智能驾驶数据：“采标一体质量管理”助力技术落地

百度数据众包-智能驾驶数据解决方案

综述

阶段1 基于单点的网站架构

一般网站初期，常见的都是单机把所有的应用和数据库都囊括了。这种环境配置说实话有条件的话是绝不推荐的，当然有时候我们机器比较拮据的情况下也出现过应用和数据库同机部署的情况，那么代价是什么呢？

阶段2 数据库读写分离

阶段3 负载均衡+多应用服务器

阶段4 数据库拆分

阶段5 应用和模块拆分

阶段6 数据缓存

阶段7 微服务化

总结

提升数据采集及标注能力释放数据要素价值

助力地方提升数字技术创新能力培育数字产业生态