专注优质数据服务,百度数据众包荣膺“中国数据质量管理”两项大奖
2020-09-17
“数据服务”助推产业智能化,陈尚义:释放数据价值、共建产业生态
2020-09-16
百度与山西政府再签合作协议 共推数据经济落地
2020-06-22
领跑的百度智能云数据众包:新基建下再迎关键大机遇
2020-06-18
百度智能云数据众包,更安全、更优质的数据能力,打造自动驾驶超智“双眼”
2020-05-25
2019年中国人工智能基础数据服务行业白皮书
2019-09-16
2019百度云智峰会:数据智能助推产业升级
2019-08-30
专家专栏 | 基础数据服务,让AI拥有智能的关键
2019-08-07
百度(山西)人工智能基础数据产业项目列入山西省2019 年大数据领域重点推进项目
2019-07-29
产业智能化升级过程中,智能数据众包如何发挥催化作用?
2019-07-04
纯视觉城市道路闭环标注方案
2019-06-26
AI数据服务系统架构变迁
2019-06-19
无人驾驶数据场景下的3D点云标注
2019-06-06
百度数据众包:AI数据质量管理探索和实践(二)
2019-06-04
百度数据众包:AI数据质量管理探索和实践(一)
2019-05-28
代理商智能招标平台,构建公平开放的众包标注生态
2019-05-05
专家专栏|蒋志坚:数据标注-调度系统设计
2019-04-30
专家专栏|闵楠:构建高质量智能驾驶数据集,为自动驾驶提供“数据燃料”
2019-04-28
百度数据众包,中国人工智能数据质量引领者
2018-12-19
百度人工智能基础数据产业项目落户太原综改示范区
2018-07-02
专注优质数据服务,百度数据众包荣膺“中国数据质量管理”两项大奖
2020-09-17 百度数据众包

近日,百度智能云数据众包在“DQMIS2020第二届中国数据质量管理奖项”(以下简称“奖项”)评选活动中,以高水准的数据质量管理水平,斩获“2020数据质量卓越实践奖”及“2020数据质量优秀产品奖”。


(百度智能云数据众包荣膺“中国数据质量管理奖”两项大奖)



奖项旨在评选出中国优秀数据质量成果及产业实践,促进中国数据质量管理领域产业创新发展。评选活动由数据质量管理智库(DQpro),联合数据质量管理国际峰会(DQMIS)组委会(北京大学、国家电网全球能源互联网研究院、华矩咨询等机构领衔),共同组织开展。


数据质量是数据管理的核心,也是数据价值实现的基础,高质量数据在产业发展升级中起着重要作用。百度数据众包依托百度10年AI数据经验、领先的产品技术能力和业界最大的数据标注基地,致力于为人工智能企业提供专业、高质量的AI数据采集和标注服务。



AI数据标注平台一站式数据管理保障质量


由百度数据众包团队自主研发的“百度智能云AI数据标注平台”(以下简称“平台”),在本次评选中荣获“2020数据质量优秀产品奖”。


(百度智能云数据众包荣获“数据质量优秀产品奖”



作为一个基础数据服务全流程管理平台,其可实现数据从接入、清洗、标注,到质量管理、交付等各流程的一站式管理。


平台拥有行业领先的智能辅助标注技术、自动质检算法,以及成熟的数据质量管理体系,能够保障交付数据的质量。其中,利用AI技术提供数据辅助标注,能够大大提高标注效率,对于非结构化数据的有效组织和加工,具有重要作用。


当前,平台的服务已覆盖多个领域,包括AI企业、手机厂商、汽车厂商及互联网行业等,能够为客户交付标准化结构化的可用数据,帮助客户训练算法模型、开展机器学习,提高其在AI领域的竞争力。


迄今为止,平台在智能驾驶领域已累计采标2D/3D数据1.5亿帧以上,准确率99%以上;语音数据交付已达上万小时;文本也达上千万条。



智能驾驶数据:“采标一体质量管理助力技术落地


本次评选中,百度数据众包以“智能驾驶数据采标一体质量管理实践”,获得“2020数据质量卓越实践奖”。


(百度智能云数据众包荣获“数据质量卓越实践奖”



汽车智能化被业内普遍认为是未来智能交通架构中的重要一环,各大车厂都相继对L4级自动驾驶进行战略部署。


在本次获奖案例中,某科技创新企业致力于制造出安全可靠、体验极佳的智能汽车,为推动各类智能驾驶模型落地,该企业对数据采集与数据标注的需求量暴增。


由于此项目所需数据量大、场景种类多、准确率要求高,对数据质量管理提出了很大的挑战。市面上多数标注团队只拥有少数单一场景标注能力,缺乏科学的项目管理流程,无法满足客户对数据的要求


百度数据众包团队提供的“智能驾驶采标一体项目质量管理”解决方案,采用层级式组织与人员管理方式,拥有健全完善的项目制度规范,专业高要求的数据质量把控标准,以及智能安全的数据质量管理实施流程。


项目一期累计完成2000公里道路的数据采标工作,依托“百度(山西)人工智能基础数据产业基地”的专业标注人力,以业界领先的连续帧ID预测和归一化算法,极大提升了标注效率与数据质量,数据准确率高达99%,高效优质的服务获得客户方一致好评。


数字经济时代,数据成为关键生产要素。未来,随着人工智能技术进入大规模应用,数据质量将成为新技术应用及企业发展的重要因素,也成为影响数据分析和利用效能的“最后一公里”。百度数据众包作为行业实践的先行者,将持续关注数据质量管理问题,为人工智能企业提供专业、高质量的AI数据服务,用技术实力赋能各行各业,加速产业智能化发展。

分享至:
上一篇 下一篇
“数据服务”助推产业智能化,陈尚义:释放数据价值、共建产业生态
2020-09-16 百度数据众包

“产业智能化的加速离不开数据治理这一基础,数据在很大程度上也决定了AI的智能化进程。”9月15日,“万物智能——百度世界2020”在线上举行,下午的智能云分论坛上,百度技术委员会理事长陈尚义从“数据智能”视角,阐述智能数据服务在产业智能化过程中的重要作用,并分享了百度智能云在数据采集、标注及治理等领域所作出的探索。


(百度技术委员会理事长陈尚义:智能数据服务在推动产业智能化的过程中扮演着越来越重要的角色)


陈尚义表示,数据在AI智能化过程中起到至关重要的作用,但企业往往面临很多困难,如数据获取难、加工难等。为此,百度向业界提供了综合的面向多场景、多种类型客户的数据采标解决方案,帮助客户释放数据价值。


同时,在服务于企业的基础上,百度进一步探索出了一条以数据标注基地、交易平台为核心的数字经济解决方案,帮助地方政府培育数字产业生态。



陈尚义介绍,百度智能云的数据采标解决方案,处于行业领先地位。


从数据采集能力来说,百度拥有业内领先的采集资源,采集主体覆盖全球40多个国家和地区;国内语音数据采集,覆盖全国八大方言区及各年龄段人群。


从数据标注能力来看,团队拥有支持全场景的标注工具、高效的流程管理平台、智能化的标注算法,同时构建了庞大的标注资源为项目执行作支撑,能够提供高质量、定制化的数据标注服务。


在数据采集和标注过程中,数据安全、数据质量等是行业最关注的话题。在保证数据安全方面,百度在业内最早建立了完整的、符合全球各国数据法规的隐私合规流程,得到客户安全部门的高度认可。在提升数据质量方面,百度设定了智能审核与人工质检双流程,准确率行业领先。此外,团队创新性地引入了预标注算法与辅助标注算法,使得标注效率和准确率大幅提升。



这些能力,使百度能够满足几乎所有场景的采集需求,覆盖语音、图片、视频、文本、3D等多种标注类型。目前在典型场景中,人像每周采集可达3万人,语音每周采集可达5万人。


另一方面,在先进的智能技术支撑之外,面对巨大的数据加工量,产业发展仍然需要强大的人力资源支撑。陈尚义表示,百度智能云通过线上众包和线下自建标注基地的方式,构建了业内人员最多、专业性最强的标注人力资源体系。


“目前,线上众包人员已超过20万人,线下签约标注代理商超过300家,专业标注人员达到2万人。”陈尚义介绍,“此外,2018年百度联合山西政府建立了山西数据标注基地,拥有2300名全职标注员,他们稳定、专业,可承担自动驾驶、语音、图像、人像等高难度标注任务。”



“庞大的标注资源为我们提供了业内最强的标注能力,如今,我们每天语音数据标注量超过500小时,图像数据超过2万张,自动驾驶道路数据超过4万张。”陈尚义说。


继共建数据标注基地之后,目前,百度再次与山西政府合作,建设“山西综改区AI数据交易平台”。这是山西省内第一家大数据交易平台。


“我们希望构建以人工智能非结构化数据为特色的数据交易平台,加速区域数据流通与开放共享,释放数据要素价值。”陈尚义表示,“我们致力于将数据开放平台打造成为区域数字经济发展的新型基础设施,将数据作为区域支持创新创业的新型孵化器。”



山西省工信厅副厅长刘勇出席了分论坛,他对双方合作取得的成果表示认可。他表示,近年来,山西省大力实施大数据战略,省委书记楼阳生、省长林武高点位谋划、高位推动,山西大数据产业发展已取得长足进步。


“下一步,我们将以标注产业为牵引,集聚人工智能发展势能,着力构建集数据采集、清洗、标注、交易、应用为一体的基础数据服务体系,在转型发展上率先趟出一条新路来。” 刘勇表示,真诚欢迎百度及各企业与山西携手,共创共享大数据创新发展的美好未来。


陈尚义表示,未来百度将联合地方政府和企业,汇聚双方优势资源,培育数据服务能力,解决区域数字经济发展中面临的数字环境缺失、数据要素流通难、数据价值挖掘难等问题,促进数据的开放、共享与流通,降低企业技术创新的门槛,构建数字产业发展新基础设施。


“以数据为关键要素的数字经济,将成为国家创新驱动的重要战略载体。在数字经济发展的浪潮中,百度智能云将与各位同行携手,共建数据生态,促进产业智能化发展。”陈尚义说。

分享至:
上一篇 下一篇
百度与山西政府再签合作协议 共推数据经济落地
2020-06-22 百度数据众包

AI数据交易平台的建立,将不断扩展百度在山西的业务,帮助山西省数据服务类企业扩大经营范围,促进数据资源的开放与共享。


6月6日,百度智能云数据众包与山西省政府达成合作协议。双方将进一步深化合作,加快推进山西省重大转型项目建设,共同打造山西综改示范区AI数据交易平台。山西省委书记楼阳生出席签约仪式并进行重要讲话。


当日,山西卫视报道了山西省委书记楼阳生发言,“要坚持应用导向,积极争取布局国家重点实验室、重大科研装备装置,以目标“一流”的胆识和智慧,勇攀科学高峰,以一流平台、一流课题,吸引一流人才、一流团队。要坚持成果导向,创新体制机制,打破论资排辈,实行重点科研项目攻关‘揭榜挂帅制’,敢于善于在重大领域、细分领域、未来产业领域换道领跑。要充分发挥企业和科研机构的主体作用,加强平台建设,重视科技成果转化,把成果变成产品,把产品变成产业,成为转型发展的支柱。”


                                                                  (山西省委书记楼阳生)


作为业内一流的数据服务供应商,百度智能云数据众包致力于为人工智能企业提供专业化的AI数据的采集、治理、标注、数据集优化等一系列数据服务。百度智能云数据众包负责人表示,百度智能云数据众包拥有大量客户落地案例和丰富的行业经验,此次助力山西综改示范区AI数据交易平台建设,无疑是百度智能云数据众包加速产业智能化的重要篇章。


为贯彻落实全国“两会”精神,进一步推动山西数字经济,实现山西地区从煤炭资源向数据资源的转型。山西省政府提出,要敢于创新,勇于先行,加快推进重大转型项目建设,为在转型发展上率先蹚出一条新路来提供强力支撑。数据交易平台作为数据交易行为的重要载体,可以促进数据资源整合、规范交流行为、降低交易成本、增强数据流动性,成为山西政府实现数字经济发展的重要举措之一。

分享至:
上一篇 下一篇
领跑的百度智能云数据众包:新基建下再迎关键大机遇
2020-06-18 作者|震霆 出品 | 新芒X
AI离我们有多远?


放在两年前,大概率会觉得遥不可及。但时至今日,进程可能超乎你的想象。

“现在,每10个企业中就有1家使用10个或更多AI应用程序。” 英国机构MMC Ventures表示。

根据Salesforce Research的说法,有83%的IT领导者表示AI&ML正在改变客户参与度,而69%的人则表示正在改变其业务。

尤其是疫情期间,各式AI能力加持的设备产品应用,将人工智能最大化的加速落地。

AI正在大力度全方面的改变着生活工作已成为强共识。

而AI强势发展的背后,有一个绕不开的关键角色,那就是数据。

数据之于AI的重要性不言而喻,于是就有了数据就是 AI 算法的“燃料”、数据是AI时代的“石油”、“灵魂“等诸多形象的描述。

再进一步,围绕人工智能提供AI基础数据服务的企业,其业务价值、社会价值和商业价值则进一步凸显,为足够多、足够好的数据提供有力供给。


我们正看到这样一种存在,百度智能云数据众包,作为国内最大AI数据服务提供者,在这一领域深耕细作,不遗余力的贡献着自己的专业能力和价值,并在承担社会责任解决就业上持续的发光发热。


恰逢新基建加速推进的新时代背景,人工智能作为重要组成部分,进而促成了数据众包行业高速增长。


已经作为领跑者的百度智能云数据众包,再迎关键大机遇。



打开AI数据服务的“美丽新世界”

 
“对于AI而言大量的数据其实太重要了。”

这是百度智能云数据众包资深产品运营师李明,在百度智能云TechDay上阐述的一个观点。

如果非要给人工智能三要素算法、算力和数据排个优先级的话,在他看来,数据排在首要位置。



因为人工智能的基础是训练,需要大量的场景和数据给到人工智能算法,供它去学习,只有经过大量的训练,神经网络才能更好的总结出规律,应用到新的样本上面,然后做出智能化的判断和答案。

高质量,丰富多维数据对AI的意义,无论是业务,还是升维到人工智能的发展进程都显而易见。

据艾瑞咨询最新的一份《中国人工智能基础数据服务行业白皮书》认为,人工智能经济崛起为基础数据服务提供长期向好的基本面,行业已然进入成长期,格局逐渐清晰。

有这样一个数据能充分的感受到,人工智能基础数据服务市场规模2025年将突破百亿,行业年复合增长率为23.5%。从整体增速来看,行业发展较为稳健,下游人工智能行业持续发力将形成长期利好。



由门槛低,多个玩家一拥而入,鱼龙混杂的初始局面, 发展到 AI 进入落地阶段,垂直场景数据成为主要需求, 对数据类型、质量等要求明显提高,头部企业实力逐渐凸显。

无论从自身属性,还是行业发展大势,数据服务无疑处在一个上升期,成为经济环境不确定性倍增的当下, 风景这边独好式的独特存在,仿似一个“美丽新世界”被逐渐打开。


“带头大哥”百度数据众包打下的江山

 
“市场占有率连续3年第一”

“收入年增长率超50%

“服务公司内部超220条产品线

“智能驾驶,手机,互联网,AI开发者头部客户全覆盖

据艾瑞咨询:《2019年中国人工智能基础数据服务行业研究报告》显示,百度智能云数据众包目前已成为国内最大的AI数据服务商。

看到这一连串战绩,想必是大部分企业可望不可及的高度。

以上正是目前坐拥风口行业AI数据服务中,“榜一大哥” 百度智能云数据众包给出的一份成绩单。

作为业内专业、高质量的AI数据服务商,百度智能云数据众包更是在2011年起即为百度内、外部客户提供数据服务。

一系列傲娇成绩的背后,势必不是一蹴而就唾手可得的,那么在竞争激烈又充满想象的行业,又是哪些因素促成了百度智能云数据众包的领先者地位?

我们试图进行探寻其核心变量。


百度智能云数据众包的硬核能力

 
在《闪电式扩张》一书中有这样一个观点:巨大的新机会通常是因为技术创新创造出新市场或者扰乱了现有市场而产生。而百度智能云数据众包的成就达成,不谋而合。

 “其实最重要的还是我们技术的积累和创新” 百度智能云数据众包资深产品运营师李明给出了这样的答案。

据了解,目前已经形成了业内“品牌、规模、技术”第一的AI基础数据标注和采集服务平台。

这个新世界,必须用具体细节加以描绘。具体看来,你就能感受到这份来自领先地位的底气和实力。

在采标服务能力上,自建基地,有2300名全职标注员;遍布全国和全球22个国家的渠道代理资源池,超5万名采标人员;此外还有2000万众包互联网用户;已经实现了市场主流标注场景全覆盖,满足市场上95%以上的标注需求。

此外,拥有业界领先的工具平台,实现了流程标准化、工具智能化。即便是定制化服务,对他们来讲已经是标准化的。

同时在整个标注过程中,都进行了算法的加持,然后通过自动化的算法筛查无效的数据,使得整个标注和审核效率、质量都得到了大大的提升。

这也符合艾瑞对增强数据处理平台持续学习能力,由机器持续学习人工标注,提升预标注和自动标注能力对人工的替代率将成趋势的预判。

在绕不开的数据安全建设方面,百度数据众包也早已充分的考量和部署。主要从数据合规、客户合规、用户和资源的合规以及隐私合规四个方面,对数据的这种安全和合规性进行保障。

举例来看,全职员工签署保密协议、专线直连、限制外网、电脑USB加密、视频监控,人员定期巡查等一系列举措和多个细节,进行全流程管控,确保数据安全与数据合规。

正是基于上述综合能力的成熟以及最终的完美性爆发,百度智能云数据众包客户已经全面涵盖了智能驾驶、手机行业以及互联网和AI开发者等四大领域的全部头部客户。

以自动驾驶为例,行业迫切需要数据量充沛多元的专用数据平台,为此百度智能云数据众包与智能驾驶实验室配合完成了对数10万帧的高分辨率的图像标注,标注内容涵盖了语义标注、稠密点云、立体图像、立体全景图像,以及复杂的环境、天气和交通状况等等,使得百度ApolloScape拥有全球最复杂的自动驾驶高精度数据集,为全球自动驾驶开发者提供了更丰富和更复杂的数据应用场景去训练学习和评测。

除了开源开放的数据集之外,百度智能云数据众包还能针对垂直行业提供定制化的数据服务。

2020年5月28日,针对上海国际汽车城需求,百度智能云数据众包推出了“私有化标注平台+基地专属团队”方案,结合国际汽车城的自动驾驶标注场景和组织管理需求做定制化开发,将百度领先的标注平台能力抽取并做私有化部署。


这些全面的系统化的部署和持续的创新迭代, 以及多年的专注和积累,促成了百度智能云数据众包的江湖地位。



恰逢新基建,再遇大机遇


在今年,新基建成为一个高频词。

随着这种新基建的提速,人工智能行业势必会进入快速的发展的时期。

市场对海量数据的基础需求在人工智能加速应用落地的过程中,会越来越大,日益增强,必将进一步刺激市场的基础数据需求增长,将为百度智能数据众包的进一步的发展迎来一个良好发展的新机遇。

我们都能理解,一旦某家规模化企业占据其生态系统的制高点,周围的关系者就会认识到它的领导地位,人才和资本都会涌入。

像滚雪球一样,再依托百度本身的强势AI基因, 加之整个行业无限扩张的需求,助力其更大的未来发展和想象空间。


让成就感放大:关键节点下的就业扶持路

 

除了自身业务能力和商业价值的无限扩张和放大,我们还看到百度智能云数据众包的另外一个关键角色,那就是在企业社会责任上的担当。

正因为其业务性质和自身体量带来的规模效应,顺势造就了诸多就业机会,疫情之下,更尤为难得和宝贵,直面解决社会问题。

2020年第一季度成功地帮助了超过120家企业、超过了3300标注员,实现了线上的复产。实现了业务稳定进行和客户的需求得到及时满足的同时,帮助大量标注人员实现就业。


其中,百度智能云在山西的数据标注基地,全职标注员已经超过了2000人,实际上是帮助2000名当地人员包括应届毕业生及其他行业转型人员成功就业。

面向未来,预计5年内,通过山西标注基地的龙头带动和示范作用,将为当地提供超过5万个就业岗位,并带动人工智能基础数据相关产业聚集山西。

我们甚至还看到这样一句出自普通标注员的话:“数据标注工作让我觉得可以跟上世界的脚步。”

我们得以无比清晰的看到这样一个形象:通过自身的业务能力,通过各种方式,不遗余力的推动着公益发展和解决社会问题。


新芒X如是说

新基建加速,整体AI行业高速发展,AI运用落地,再加新兴的AI应用场景的兴起。

作为早已有深厚且专注积累的领跑者,百度智能云数据众包也迎来了空前的发展机遇,不断的技术创新,顺势而为,获得更大突破也自然成为确定性的大概率事件。注:本文部分图片来自网络,向原作者致谢,如有侵权,可后台私信沟通处理)

分享至:
上一篇 下一篇
百度智能云数据众包,更安全、更优质的数据能力,打造自动驾驶超智“双眼”
2020-05-25 百度数据众包

自动驾驶技术近年来倍受资本和行业市场关注,越来越多的车企、零部件供应商和解决方案供应商投身其中。在资金和政策的双向加持下,行业发展迅猛,几成燎原之势。

 

而其中最大的技术瓶颈无疑是在感知能力上,除了算法和硬件的支持,训练数据的质量也起到了决定性的作用——数据量是否足够大,标注质量是否足够好,覆盖的场景是否足够全面等,已经成为了间接衡量一家自动驾驶公司技术好坏的重要标准之一。

 

正是在这样的大背景下,百度智能云数据众包率先推出了针对自动驾驶行业的“私有化标注平台+基地标注团队”的AI数据整体解决方案,帮助平台服务型企业建设完整的数据基础服务,“上海国际汽车城”就是其中的典型代表。


政策利好,数据和平台能力也要跟上


近年来,各地方政府持续加大对自动驾驶的基础设施建设投入,通过政策扶持自动驾驶落地,打造汽车产业生态,提升城市竞争力。


而国际化的汽车之城上海,在自动驾驶上的政策布局早已有所举措。2018年,《上海市智能网联汽车道路测试管理办法(试行)》正式发布,上海就成为了国内自动驾驶公开路测的第一座城市,为上汽、宝马等企业的自动驾驶实路测试提供重要的基础建设。2019年,“AI+交通场景计划”落地上海国际汽车城,旨在打造以上海汽车博览公园为载体的自动驾驶常态化运营半开放示范区,在基建和测试场景上为产业发展提供支持。

 

作为全国最早开展智能网联汽车示范推广的产业示范区,其规划从感知和决策层入手,打造硬件、软件、数据、路测整体解决方案。而这其中决策层是最关键但也是最复杂的,算法训练需要一系列配套建设,包括数据层面的训练数据和场景库评测数据,以及软件层面深度学习数据标注平台和管理训练平台。但由于自动驾驶数据精度高、量级大、标注规则复杂,且软件平台具有业务场景适用性特征研发难度高,业内往往会选择专业的AI数据公司提供数据和平台服务。

 

如何基于业务特征提供平台能力建设,同时保证数据标注质量和安全,实现自动驾驶超智“双眼”已成为汽车城乃至整个自动驾驶行业的难题。


                                                                              上海国际汽车城配套工业园区


兼顾数据安全与质量


上海国际汽车城选择百度智能云数据众包是最优选。

 

作为业内专业、高质量的AI数据服务商,2011年起,百度智能云数据众包即为百度内、外部客户提供数据服务。尤其在自动驾驶领域,累计成功标注数据上亿帧,积累了丰富的行业经验。据艾瑞咨询:《2019年中国人工智能基础数据服务行业研究报告》显示,百度智能云数据众包目前已成为国内最大的AI数据服务商。

 

上海国际汽车城在找到百度智能云数据众包之后,双方一拍即合,很快就确立了合作方向:从深度学习数据标注平台入手搭建软件能力,并通过平台和百度标注基地实现数据安全高质标注。“在众多服务商中,选择与百度智能云数据众包合作主要看重百度智能云在这方面的数据经验和产品技术能力,以及其提供的数据标注安全方案能够很好的满足我们的需求。”上海国际汽车城副总工程师李霖如是说。


针对上海国际汽车城需求,百度智能云数据众包推出了“私有化标注平台+基地专属团队”方案,结合国际汽车城的自动驾驶标注场景和组织管理需求做定制化开发,将百度领先的标注平台能力抽取并做私有化部署。

 

其中,百度智能云数据众包“私有化标注平台”支持2D、3D、连续帧、融合标注等数十个标注场景,引入了AI预标注和自动质检算法。经百度上万项目科学验证,在标注效率上领先行业20%,并且还具备全面的任务、数据、标注人员管理功能,有效支撑企业做标注管理。同时,由于平台具有私有化特征,可以实现数据不出库从而保证数据安全。


数据安全如何保证?在“基地专属团队”上,百度与山西政府合建了业内最大的数据标注基地,拥有超过2000名经过多年专业培训的标注员。基地按照百度数据安全等级规定采取了保密协议签署、密闭房间作业、实时摄像监控、USB封口等多种严格的安全控制措施,从人的源头上保证数据安全,同时能够做到高质量和高效率交付。对此,百度智能云数据众包业务负责人施佳樑介绍:“数据安全一直是我们关注的,也是整个AI行业发展的


                                                                     百度智能云数据众包平台安全标注方案




                                 

                                                                     百度山西人工智能数据标注基地介绍视频


赋能共建 推动产业升级加速度


目前,双方关于平台及数据的合作均已落地。深度学习标注平台的部署增强了国际汽车城的软件设施能力,“平台部署+基地标注”的模式在保证数据安全的同时也极大提升了汽车城的数据处理能力。大量基于自动驾驶场景的高质量数据源源不断地从百度山西标注基地输出,并依托汽车城平台支撑着行业算法的成熟。

 

同时,百度智能云数据众包也在不断对外开放自己的自动驾驶数据采集和标注能力,根据行业需求打造基于数据标注、存储、管理、训练、清洗、评测的全套产品能力。并先后与多个地方政府在人工智能数据层面开展深入合作,助力地方产业的转型升级。

 

上海国际汽车城拥有国家智能网联汽车试点示范区及众多公共实验室等平台资源,为自动驾驶企业提供更多学习、交流、研究、测试、数据分析机会。双方协作互通,持续在产品和生态上创新、赋能行业。毫无疑问,在行业的共同努力下,汽车产业的智能化未来即将到来。



分享至:
上一篇 下一篇
2019年中国人工智能基础数据服务行业白皮书
2019-09-16 艾瑞咨询

核心摘要:


在经历了一段时期的野蛮生长之后,人工智能基础数据服务行业进入成长期,行业格局逐渐清晰。人工智能基础数据服务方的上游是数据生产和外包提供者,下游是AI算法研发单位,人工智能基础数据服务方通过数据处理能力和项目管理能力为其提供整体的数据资源服务,不过AI算法研发单位和AI中台也可提供一些数据处理工具,产业上下游普遍存在交叉。


2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86%,预计2025年市场规模将突破113亿元。市场供给方主要由人工智能基础数据服务供应商和算法研发单位自建或直接获取外包标注团队的形式组成,其中供应商是行业主要支撑力量。


数据安全、采标能力、数据质量、管理能力、服务能力等仍是需求方的痛点,需要人工智能基础服务商有明确具体的安全管理流程、能够深入理解算法标注需求、可提供精力集中且高质量的服务、能够积极配合、快速响应需求方的要求。


随着算法需求越来越旺盛,依赖人工标注不能满足市场需求,因此增强数据处理平台持续学习能力,由机器持续学习人工标注,提升预标注和自动标注能力对人工的替代率将成趋势。远期,越来越多的长尾、小概率事件所产生的数据需求增强,机器模拟或机器生成数据会是解决这一问题的良好途径,及早研发相应技术也将成为AI基础数据服务商未来的护城河。

人工智能基础数据服务行业概述

人工智能基础数据服务定义:意指为AI算法训练及优化提供数据采集和标注等形式的服务

人工智能基础数据服务指为AI算法训练及优化提供的数据采集、清洗、信息抽取、标注等服务,以采集和标注为主。人工智能概念爆发伊始,算法、算力、数据就作为最重要的三要素被人们乐道,进入落地阶段,智能交互、人脸识别、无人驾驶等应用成为了最大的热门,AI公司开始比拼技术与产业的结合能力,而数据作为AI算法的“燃料”,是实现这一能力的必要条件,因此,为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为了这一人工智能热潮中必不可少的一环。如果说计算机工程师是AI的老师,那基础数据服务就是老师手中的教材。


人工智能基础数据服务发展历程


行业进入成长期,行业格局逐渐清晰

伴随国内人工智能热潮爆发,大量的AI公司拿到融资,为了不断提高算法精度,数据采标需求也空前爆发,一度催生了行业的繁荣。但早期的AI基础数据服务门槛较低,玩家鱼龙混杂,使行业标准模糊、服务质量参差不齐。随着竞争加快,AI公司对训练数据的质量要求也不断提高,并且当产业落地成为主旋律,需求方对垂直场景的定制化数据采标需求成为主流,众多小型AI基础数据服务公司从数据质量和采标能力上达不到要求,或被淘汰,或依附大平台,行业格局逐渐清晰,头部公司实力逐渐凸显。随着算法需求越来越旺盛,目前机器辅助标注、人工主要标注的手段需要改进提升,增强数据处理平台持续学习和自学习能力,增加机器能够标注维度、提升机器处理数据的精度,由机器承担主要标注工作将成为下一阶段的行业重心。未来,越来越多的长尾、小概率事件所产生的数据需求增强,人机协作标注的模式性价比不足,机器模拟或机器生成数据会是解决这一问题的良好途径,及早研发相应技术也将成为AI基础数据服务商未来的护城河。



人工智能基础数据服务的行业价值


目前有监督的深度学习是主流,标注数据是其学习根本

人工智能是研究如何通过机器来模拟人类认知能力的科学,机器学习是现阶段实现人工智能的主要手段。机器学习方法通常是从已知数据中学习规律或者判断规则,建立预测模型,其中,深度学习可以通过对低层特征的组合,形成更加抽象的高层属性类别,自动从信息中学习有效的特征并进行分类,而无需人为选取特征。凭借自动提取特征、神经网络结构、端到端学习等优势,深度学习在图像和语音领域学习效果最佳,是当今最热门的算法架构。在实际应用中,深度学习算法多采用有监督学习模式,即需要标注数据对学习结果进行反馈,在大量数据训练下,算法错误率能大大降低。现在的人脸识别、自动驾驶、语音交互等应用都采用这类方法训练,对于各类标注数据有着海量需求,可以说数据资源决定了当今人工智能的高度。由于应用有监督学习的AI算法对于标注数据的需求远大于现有的标注效率和投入预算,无监督或仅需要少量标注数据的弱监督学习、小样本学习成为了科学家探索的方向,但目前无论从学习效果和使用边界来看,均不能有效替代有监督学习,人工智能基础数据服务将持续释放其对于人工智能的基础支撑价值。



人工智能基础数据服务的主要产品形式


定制服务为主要服务形式,数据集产品集中于语音类赛道

目前,国内AI基础数据服务主要为数据集产品和数据资源定制服务,数据集产品往往是AI基础数据服务商根据自身积累产出的标准数据集,以语音数据集为主,主体偏普通话语音、英文语音、方言语音等;为保证算法优势,客户更多采用定制化服务,由客户提出具体需求,数据服务商或直接对客户提供的数据进行标注、或对数据进行采集并标注。大型的需求方,为保障数据的安全,往往提供Web形式的自有标注平台给执行方,以此对整体项目进行把控,也有一些AI基础数据服务商向客户提供私有化平台建设服务,或将自身平台与甲方系统兼容;除以上两种形式外,部分AI基础数据服务商还向算法服务进行拓展,提供算法训练、模型搭建等服务。



人工智能基础数据服务的发展背景


人工智能经济崛起为基础数据服务提供长期向好的基本面


2010年语音识别和计算机视觉领域产生重大突破,国内开始萌生AI概念。到2015年,国内迎来人工智能创业热潮,独角兽不断涌现,融资记录被不断打破。2012年-2019年8月人工智能领域共发生2787件投融资事件,总融资额达4740亿元,人工智能成为最炙手可热的融资热点,百度、阿里、腾讯、京东、华为等科技企业也纷纷加注。2017年至今,产业落地成为AI行业的主流,人工智能赋能实体经济保持高速发展态势,涉及行业包括安防、金融、零售、交通、教育、医疗、营销、工业、农业、企服等众多领域。下游的爆发式增长为人工智能基础数据服务的发展提供了长期向好的基本面。




数据量呈指数式增长,非结构化数据的应用依赖于清洗标注


PC、互联网、消费级移动设备的兴起宣告了数据时代的来临,物联网的发展更使线下业务产生的大量数据被采集起来,数据量呈指数式增长,据IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非结构化数据。过去计算机主要处理结构化数据,人工智能模型却以处理非结构化数据见长,但“玉不琢不成器”,数据经过清洗与标注才能被唤醒价值,这就产生了源源不断的清洗与标注需求。在我国,每年需要进行标注的语音数据超过200万小时,图片则有数亿张。


人工智能基础数据服务市场现状


人工智能基础数据服务产业链


AI基础数据服务方是行业核心环节



人工智能基础数据服务产业图谱


产业上下游普遍存在交叉

AI基础数据服务方的上游是数据生产和外包提供者,下游是AI算法研发单位,AI基础数据服务方通过数据处理能力和项目管理能力为其提供整体的数据资源服务。 AI基础数据服务方整体有两大类,一种是具备自有的标注基地或全职标注团队,这类企业也参与产业上游部分直接提供产能资源,另一种是依靠众包或外包模式,专注于数据产品的开发与项目执行。下游部分AI公司拥有自己的标注工具,也可通过AI中台获取一些通用标注工具,同时一些数据需求大的企业还孵化了自己的数据服务团队。整体而言,产业上下游普遍存在交叉关系。


人工智能基础数据服务行业投融资


融资规模集中于千万量级,早期融资项目居多

从融资规模来看,人工智能基础数据服务市场的融资多集中在千万级别。从时间维度来看,2015年人工智能基础数据服务商获得的融资金额相对较高,标志着行业初露头角,受到资本的认可。从获得融资的企业数量来看,目前获得融资的玩家并不多,资本市场表现的活跃度不高。从融资轮次来看,大部分融资仍然集中于早期融资,目前上市的企业仅挂牌新三板的数据堂一家(不考虑科技公司内部孵化的基础数据服务商)。人工智能基础数据服务毛利率普遍较高,但为保持与人工智能市场前沿算法的匹配,需要投入大量研发成本进行数据处理平台与工具的研发升级,因此对融资仍有较强依赖。


人工智能基础数据服务行业商业模式


生产、获客、部署合力驱动发展

人工智能基础数据服务行业是典型的To B型业务,商业模式较为稳定。在生产方面,主要通过自建标注基地或标注团队、搭建众包平台、采购供应商外包服务(BPO)等模式实现生产运营,大多企业主要采取众包与外包模式,百度数据众包、倍赛等企业自建标注基地或全职标注团队,对于培训较高素质工作人员、完善团队管理有积极意义;在获客方面,主要通过口碑传播、学术会议与展会及代理渠道等模式进入市场,对销售人员熟悉市场趋势、客户需求的要求较高;在实施交付方面,有私有化部署和公有部署两类,能够较为灵活地应对客户对数据安全、交付周期与成本的个性化需求。



人工智能基础数据服务市场规模


2025年市场规模将突破百亿,行业年复合增长率为23.5%

2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%,数据集产品占比12.9%,其他数据资源应用服务占比0.9%;行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。从整体增速来看,行业发展较为稳健,下游人工智能行业持续发力将形成长期利好。



人工智能基础数据服务细分结构


纯标注服务为主体,由供应商提供服务占79%

2018年中国人工智能基础数据服务市场以语音、视觉、NLP领域的标注服务为主,同时提供采集与标注服务占比较少,这是由于数据由需求方提供的情况较多,但这并不意味着市场中数据采集需求弱,相反,人工智能技术落地后产生了大量新兴垂直领域的数据需求,然而这些数据采集难度大,能够提供相关采集工具和服务的供应商将获取竞争优势。市场供给方主要由企业自建或直接获取外包团队的形式以及供应商组成,又以供应商为行业主要支撑力量,占比79%



人工智能基础数据服务市场格局


行业将提升至较高集中度,CR5占26%市场份额

目前人工智能基础数据服务行业CR5占26%市场份额,行业集中度较为适中,既非寡占型市场也非充分竞争市场,这一方面是由于百度数据众包、海天瑞声、数据堂等企业进入市场较早,积累了较多客户资源,另一方面则是由于下游企业之前多采用公开数据集训练模型,对数据的高精度要求由来尚短,受生态传导效应滞后影响,市场门槛还不显著,资金与研发实力较为薄弱的中小企业还有较强的发展土壤。然而未来,随着下游企业发展壮大,直接使用外包团队成本低廉、数据安全可控性强,一些基础性需求将由下游企业自给自足,外部的数据服务商现有的存量市场面临下降,因此必须承担高难度、前沿独特性任务,这就要求其自身投入高精度、专业化数据处理工具的研发和人工智能算法基础研究,以把握客户需求,开拓增量市场,因此资金与研发实力成为较高行业门槛,同时受近年资本市场冷却影响,一批中小型厂商面临业务收缩,再者部分厂商如倍赛开始在业内并购,参考海外数据服务市场发展情况(海外行业巨头Appen多次并购其他企业),并购也将成为市场趋势,多种因素叠加影响下,行业集中度将提升。



人工智能基础数据服务场景分析


视图基础数据服务市场现状


人像与OCR数据是视图基础数据服务的主流


在不考虑自动驾驶的前提下,2018年视图基础数据服务市场达到6.6亿元,人像与OCR数据是视图基础数据服务的主流,尤其人像数据占市场的42.9%。OCR占27%,其他的人体识别数据、商品识别数据、工业质检数据、医学影像数据及其他新场景数据等较为分散,合计占市场30.1%。



视图基础数据服务技术趋势


针对算法研发方向判断数据需求,挖掘增量市场

按照数据使用方向,可以划分为新算法模型搭建与研发、在已有算法基础上增加新模块、解决方案交付过程中定制优化等三类,其中新算法模型搭建与研发和在已有算法基础上增加新模块类型的数据需求是可以根据相应机器视觉算法的前沿研发方向来判断预测的。例如,就智慧城市场景而言,针对汉族的人脸识别和视频结构化已较为成熟,在实际应用场景中还需针对少数民族和其他人种进行优化以提升整体算法准确率,此外,跨镜追踪成为场景研发热点,相应的跨摄像头数据如何标注对算法训练也会产生较大影响,再及,深度相机可以帮计算机读懂三维立体的监控视频,还能够较好地解决复杂光照条件下视图数据采集的问题,也将在未来成为重要的研发方向,综上,多民族、多人种数据、跨摄像头数据、3D数据的采集与标注服务将为视图基础数据服务市场的发展带来增量空间,OCR、手机、零售等其他领域也同理可针对算法研发方向挖掘增量市场。


自动驾驶基础数据服务应用场景


算法尚未成熟,对数据有长期需求,且缺口仍在

L3级别以上的自动驾驶系统主要有感知、定位、预测、决策和控制五部分,其对于计算机视觉技术的需求度远高于ADAS,系统需要对雷达、摄像头等传感器采集的点云和图像数据进行抽取、处理和融合,构建车辆行驶环境,为预测和决策做依据,这对于算法的准确性和实时性有极大考验。目前自动驾驶的视觉技术主要应用有监督的深度学习,是基于已知变量和因变量推导函数关系的算法模型,需要大量的标注数据对模型进行训练和调优。在世界级无人驾驶大赛中,主办方往往提供近亿张图片、数十万张标注图片供参赛团队训练使用;在路测或真实道路驾驶时,如人车混杂、分布稠密、行为多变等复杂环境问题更需要海量的真实路况数据不断对算法进行优化,才能保障无人驾驶车辆正常可用。如今国内自动驾驶飞速发展,AI公司、科技公司、高精地图厂商、车厂等参与者众多,该领域的数据采集和标注需求已经成为AI基础数据服务的主要项目之一,且自动驾驶算法应用仍待优化,数据需求缺口仍在,市场远未饱和。


自动驾驶基础数据服务市场现状


2025年采标规模将超24亿,科技公司和车厂是主要需求方

自动驾驶基础数据主要是道路交通图像、障碍物图像、车辆行驶环境图像等,需求方以科技公司、汽车厂商和高精地图厂商为主,2018年自动驾驶行业基础数据服务规模为5.76亿元,预计2025年将超24亿元,三方规模占比分别为49%、47.2%和3.8%,行业数据总任务量超一亿张,2D图像标注与3D点云标注任务量基本为2:1。其中高精地图厂商算法较为成熟,数据自动化标注程度可达90%左右,外包需求较少;以百度、图森未来为代表的自动驾驶科技公司一直是该领域基础数据服务的主要买方,平均各家算法训练图像数据累积需求在千万级以上,随着落地项目进程加快,将会有更多细分场景的需求产生;近几年,汽车厂商在ADAS和自动驾驶方向的投入明显,上汽、吉利等厂商年投入均可达数亿元,对于数据的采集和标注需求也逐年增加,预计未来3年中,汽车厂商将成为需求主力。



智能交互基础数据服务市场现状


远场语音交互成为主流需求,中文类数据仍占据市场核心

2018年语音交互相关数据服务市场规模达到13.5亿元。语音交互主要分为近场交互、中场交互和远场交互,以智能影音家居、可交互机器人和车机为代表的中远场交互类数据服务需求合计占到智能交互基础数据服务的68%,成为当前智能交互基础数据服务的主流需求,因此针对远场语音交互的低噪声环境服务具有较强发展潜力和议价能力。在服务语种上,中文(含方言)服务占据71%的市场份额,外语种资源相对稀缺,采集和标注难度较大,成本相对更高,目前占29%的市场份额。



智能交互基础数据服务技术趋势


实现跨语音识别、语义理解的复合数据标注

目前企业在智能交互系统的建设中,对单纯的语音识别或合成方面技术能力相对较完善,而在上下文理解、多轮对话、情绪识别、模糊语义识别、意图判断等方面的研发痛点更强,根据智能交互系统算法的发展,迭代并设计符合算法需求的NLP数据产品,有助于从数据层面推动智能交互系统的发展。特别的,对话系统的效果对标注数据的质量和规模依赖性很强,但目前受标注数据和模型能力的双重制约,对话流程还无法对语音、语义整个交互流程打通,而实现跨语音识别、语义理解的复合数据标注可以帮助减轻语音信息与文本信息之间的信息误传导,对整个对话流程效果增强能够产生积极影响,将增加智能交互基础数据服务探索的可能性。


人工智能基础数据服务需求分析


人工智能基础数据服务客户定位


客户分为AI公司、科技公司、科研机构、行业企业四类


从需求方来看,AI公司和科技公司占主要份额,AI公司更聚焦于视觉、语音等某一类型的基础数据服务,而科技公司结合集团优势,向人工智能整体发力,不同部门会产生多类型数据需求,科研机构需求占比较小。此外传统意义上的行业企业,如汽车厂商、手机品牌商、安防厂商等传统企业围绕自身业务进行技术拓展,也开始产生AI基础数据需求,并且量级逐渐增大,未来将释放更多市场空间。



人工智能基础数据服务核心需求类型


AI应用三大阶段,对基础数据服务产生差异化需求

企业应用人工智能算法要经历研发、训练和落地三个阶段,不同阶段对于AI基础数据服务也有差异化需求。研发需求是新算法研发拓展时产生的数据需求,一般量级较大,初期多采用标准数据集产品训练,中后期则需要专业的数据定制采标服务;训练需求是通过标注数据对已有算法的准确率、鲁棒性等能力进行优化,是市场中的主要需求,以定制化服务为主,对算法的准确性有较高要求;落地场景的业务需求中算法较为成熟,涉及的数据采集和标注更贴合具体业务,如飞机保养中的涂料识别数据等,对于标注能力和供应商主动提出优化意见的服务意识有较强要求。


人工智能基础数据服务需求痛点


五大需求痛点决定AI基础数据服务商的服务标准

目前需求方在选择数据服务时往往会遇到数据安全、采标能力、数据质量、管理能力、服务能力等痛点。对于数据安全,需求方希望基础数据服务商有明确具体的安全管理流程,对数据传输、存储,以及结项后的数据销毁等环节比较重视。在采标能力方面,需求方算法越来越贴近业务,希望数据服务商对于自动驾驶、工业等有一定门槛的领域有采集能力,并且能理解客户意图,配合标注,甚至可以提出标注建议;根据市场反应,大多数数据服务公司首次交付项目时,数据的准确率普遍偏低,都需要一到两次的返工,故需求方对无效数据少、准确率高的公司更加青睐。对于执行效率,一般AI基础数据服务商都能在项目周期内完成,但管理能力较弱的公司很难在兼顾多个项目时做到精力集中、高质量地服务客户,同时执行团队的素养与信誉也是重要影响因素。服务意识是一项软实力,需要AI基础数据服务商能够积极配合、快速响应需求方要求。

人工智能基础数据服务趋势及建议


企业由被动执行向主动服务的意识跃迁


单纯依据客户各个项目的诉求进行数据采集和标注属于被动执行,主观能动性低、行业边界有限,各家公司的产品和服务趋于同质化、竞争呈胶着状态,制约着AI基础数据服务的发展。通过对需求方的研究,发现除安全性、质量、效率等核心关注点之外,越来越多的需求方对数据服务公司产生了主动服务的需求,希望数据公司能够更懂算法技术、更懂需求场景,甚至能参与到算法的研发中来,给出数据采标方面的优化建议,这也为数据服务商形成差异化竞争带来了契机,尤其是在AI落地阶段,在垂直场景中能够形成一套集调研、咨询、设计、采集、标注为一体的AI基础数据整体解决办法,将在收入和业务边界上实现突破。




分享至:
上一篇 下一篇
2019百度云智峰会:数据智能助推产业升级
2019-08-30 百度数据众包

8月29日,ABC SUMMIT 2019百度云智峰会在北京国家会议中心盛大开幕。作为ABC领域最具影响力的行业大会,大会以“AI工业化,加速产业智能”为主题,展示百度ABC从1.0到3.0的转变,以及人工智能从标准化、流程化、规模化走向产业探索与实践。


                                                                       数据智能生态分论坛座无虚席


数据智能,推动产业AI升级


AI的发展和赋能,数据为根本。在大会的数据智能生态分论坛上,业内专家深入解读数据智能及其在产业生态方面的发展情况,分享AI基础数据服务在自动驾驶、智能环境、智能终端等多个典型垂类场景下的应用,为数据智能赋能行业生态提供借鉴。


                                                                百度智能云数据智能总经理高果荣主题演讲


百度智能云数据智能总经理高果荣在“数据智能推动产业转型升级”的主题演讲中指出,现如今数据智能在城市、工业、交通、制造和金融等方面的实践,已充分证明有多少人工智能,就有多少数据智能。数据智能是人工智能时代的炼油厂,已成为产业智能化升级的核心驱动力。百度智能云利用人工智能、云计算、大数据等先进技术和互联网数据优势,深挖产业智能化中的“数据困境”,解决AI应用的数据获取难、管理弱、安全低、应用场景繁杂等技术瓶颈,赋能城市经济大脑、行业营销变革、产业重构升级等领域,扎扎实实地推进人工智能在各个产业领域的渗透,帮助各个领域、各个行业提升效率,提升人们的感受。


                                                               数据智能成为产业智能化升级的核心驱动力


最后,高果荣强调百度智能云打通了AI数据服务的全生命周期,从数据加工、数据开发、数据应用等环节实现对AI产业场景的一站式数据智能服务,助力AI工业化,加速中国产业智能化进程。


                                                                             现场嘉宾认真倾听演讲


人工智能基础数据服务,支撑起AI行业发展的基础

 

百度智能云数据众包业务负责人施佳樑在演讲中阐述,在数据为王的时代,高效安全获取海量结构化数据已成为AI企业继算法算力等技术壁垒之后又一核心竞争力。百度智能云数据采集资源遍及全球40个国家和地区,涵盖中国八大方言区,覆盖15至60岁的各个年龄段人群;在采集过程中,将自动化智能审核和三轮人工质检相结合,满足不同客户的数据交付需求。目前,百度智能云数据众包提供超过30,000张/周的人像和50,000小时/周的语音采集能力。采集服务定制化程度高,客户好评行业第一。


                                                            百度智能云数据众包业务负责人施佳樑讲述数据采集


施佳樑强调百度智能云数据众包在数据标注上拥有四大法宝:即最全场景的标注工具,最高效的流程平台,最智能的自动标注和最丰富的资源能力。我们拥有超过200,000名活跃在众包平台上的标注用户,20,000名专业标注人力,于2018年自建百度(山西)数据标注基地。通过对标注人员的专业化培训和集中制管理,结合产能情况择优进驻了一批标注经验丰富能攻坚克难的标注队伍,目前基地已入驻2,000名全职专业标注人员,标注场景覆盖智能驾驶、计算机视觉、语音识别等AI重点领域,垂类场景标注准确率超过98%。


施佳樑表示,随着人工智能行业的发展,可以预见未来对于数据的质量和场景的要求也将变得越发严苛和复杂,但百度智能云数据众包有信心,凭借自己在AI基础数据行业品牌第一、规模第一、技术第一的综合实力,可持续为人工智能行业赋能贡献自己的全部力量。


                                                          百度(山西)人工智能基础数据产业基地二期启动仪式


                                               2019年度百度(山西)人工智能数据标注基地一期优秀代理商颁奖


质量与安全并重,全面助力AI发展

 

会上,百度智能云质量部技术委员会主席杨斐在阐述智能驾驶数据一体化实践方案中说,智能驾驶场景的落地需要大量高质量数据,百度智能云提供的智能驾驶一体化数据方案,覆盖数据“采”“标”“管”“训”四环节,包含数据采集、数据标注、数据管理、数据训练和缺陷挖掘等产品和服务,保障数据质量,提升数据管理效率,缩短模型训练周期,实现模型迭代的数据驱动。


                                                                       智能驾驶数据一体化实践方案分享


数据安全也是业内十分关注的焦点。百度智能云高级产品经理沈健在解读数据安全的相关法律法规时指出,数据在人工智能中发挥作用的同时,必须注意数据获取和数据加工使用的合规合法,保护信息隐私的安全。百度智能云提供的数据安全机制,从数据收集、数据流转、数据经手,层层技术与流程把控,确确实实从源头确保客户数据安全,让数据放心地为人工智能所用。


                                                                         数据安全规范解读及实践分享


未来可期,数据智能进入加速度

 

人工智能走向工业化新阶段,数据作为人工智能的燃料,其价值需要经过采集与标注才能被唤醒。艾瑞咨询报告指出2017年至今,人工智能赋能实体经济保持高速发展态势,数据智能将技术、业务、数据高效融合,促成产业智能化发展提速,推动企业模式大力创新,推动 AI 技术在安防、金融、零售、交通、教育、医疗、营销、工业、农业等众多领域落地应用,预计2022年AI基础数据服务行业的市场规模将突破60亿元。


                                                                      人工智能基础数据服务行业前景分析


也许三十年后回头看,人工智能将会是不弱于互联网对人类产生深远影响的另一项技术,它所释放的力量将再次彻底改变人类的生产生活。然而,目前人工智能依然充满未知的探索,道阻且长,但所有数据智能的参与者和建设者们,都在满怀信心地努力和憧憬这一天的到来。


                                                                         人工智能的建设者与参与者们


分享至:
上一篇 下一篇
专家专栏 | 基础数据服务,让AI拥有智能的关键
2019-08-07 百度数据众包

如今,人工智能已经深入到日常生活中,春风化雨,喧闹归为平静,正在为人们带来便利。让人不禁感叹,人工智能从概念到产品,再到日常生活的推广,太快了!迅速发展的背后是什么呢?是工程师燃烧的脑细胞,是快速发展的算法?都没错,但别忘了人工智能的基础——数据。


本文将揭秘百度智能云数据众包服务如何成为AI的基石,为其做好数据采集、标注及质量管控的。同时揭示数据众包团队是如何从零起步,逐步成为AI基础数据行业品牌第一、规模第一、技术第一的奥秘。


AI的发展,数据是基础

业内常说一句话,“人工智能,有多少人工,就有多少智能”,建造一个算法模型需要灌入海量标注好的数据去训练机器,让机器学习以达到“智能”的目的。而数据众包团队在做的业务“数据的采集与标注”正是为此需求服务。

 

数据标注就是在帮助机器学习认知数据的特征。举个例子来说,如果要开发一项人脸识别的产品,我们首先要让机器“认识”人脸,但直接给机器一个人脸的图片它是无法识别的,需要先对人脸图片标注,打上关于人脸特征的标签,当机器被灌入海量标注好的图片进行学习之后,我们再给机器一个人脸的图片,机器就能知道这是一个人脸了。

 

AI的发展,数据是基础。用施佳樑(百度智能云数据众包业务负责人)的话来说,“人工智能之初和婴儿是一样的”,AI的成长需要数据,就如同婴儿需要食物一样。但这些“食物”并不能供AI直接食用需要后期的加工。众包团队在做的事就是帮助婴儿获取食物、加工食物。


多模式发展,规模业界第一

通常来说,众包平台的业务模式有两种,众包模式和外包模式。众包模式的优点就是响应快。平台任务一经发布,马上有人响应接单,且没有中间商赚差价,成本较低。但众包模式有一个很明显的缺点,就是质量较难把控,培训不周的人员难免会有“乱标注”的可能。而外包模式是将标注任务外包给专门的数据标注团队,这种模式能保证较高的数据质量。但较众包模式来说,响应速度慢且成本较高。


单一的使用任何一种业务模式弊端都很明显,是不可行的。对此,众包团队一方面签约了大量的下游供应商,一方面建设自己的数据标注基地,培养专业的众包人员。两种模式兼用,保证了标注人员的活跃和标注质量。


目前,在众包团队签约的下游代理商有500多家,平台上的众包用户达到2000多万。其中专业的标注员人力在10-20万,这样的下游代理商能力,在行业内都很难被超越,甚至业内很多竞品都是众包团队的下游。


另外,2018年数据众包团队在山西建立了自己的标注基地,现在已经有1500+人力规模,预估年底突破2000+人,完全由众包团队自己管理,全程监督作业过程中的标注质量与效率。


庞大的众包团队与行业上游地位,让众包团队在性价比方面具有绝对优势。施佳樑说:“之所以性价比如此高,与内部的产品积累和发展规模是分不开的。除此之外,技术与管理也是关键,我们拥有一整套的线上管理系统,能够对用户进行合理调度,这样能确保我们的产品能够帮助客户压缩成本的同时,保证质量。”


技术加管理,质量与效率并重

当然,在性价比方面,给用户提供高价值的数据服务也是首要思考的问题。


有人工智能基础数据处理需求的客户,都是AI领域的企业,其发展主要依赖三方面的能力:算力、算法和数据,对于算力,整个市场基本无壁垒,所有的硬件都是通用的;对于算法,每家公司各不相同、各有利弊,但短时期内一个公司的算法产生质变,有极大地提高或转变是不可能的,这就使得数据成为每家公司竞争的关注点。获取更大规模、更高质量的数据就是众包团队带给客户的价值,这样就能最终做到提高AI应用的效果,提高它的准确率与召回率。


数据众包自身有一套产品机制确保数据服务的质量。在标注期间,众包团队全程监督,其自身研发的系统可以自动化的分析标注人员的行为,比如说一张照片在标注人脸时,系统会监控标注所有时间、每一次打点标注的时间间隔、鼠标的移动轨迹等细节,从而可以判断和预测出这张照片标注的是否正确,是否有遗漏等。


数据质量与后期的多重质检也是相关的,数据在标注后不是直接交给客户,需要经过两轮到三轮质检的手续,这中间要经过自动化抽检手续、自动化加人工抽验手续等,可以极大程度确保数据质量。

打通上下游,业务向纵深发展

当前业内还有一个疑问,如果随着AI逐渐成熟,对数据服务的需求量会不会逐渐降低?


未来很长一段时间内,数据服务都是刚需。如众包团队今年的重点智能家具与无人驾驶两个领域,对数据服务的需求量一直是增长的。加之百度是一家人工智能公司,品牌的力量让数据众包在数据安全、数据隐私和项目交付时间等方面都给与了客户更大信心。”施佳樑说。


业务量有保证之后,数据众包将考虑进一步把业务向纵深发展,从偏人力密集型劳动数据标注往上下游延伸。往上游扩展就是数据的采集,尤其是车辆道路信息采集,百度作为全国为数不多具地图测绘资质的企业,相较其他头部互联网公司优势明显,“这一块市面上几乎只有百度能做”。而往下游延展,就是提供数据管理、数据模型训练、数据应用、数据迭代方面的软件和平台服务。


自2010年起步,众包团队专注如一,采集无序混乱的数据,进行清洗标注,支撑了无数精密智能产品的诞生,除了支撑百度的内部业务,也将数据处理能力对外赋能到物联网、无人车、智能语音等各行业标杆客户,服务能力获得一致好评。


未来,百度智能云数据众包将打通AI数据服务的全生命周期,从数据获取、加工、模型训练等环节实现对AI商业化场景的一站式数据支持服务,帮助人工智能企业提升产品竞争力。


分享至:
上一篇 下一篇
百度(山西)人工智能基础数据产业项目列入山西省2019 年大数据领域重点推进项目
2019-07-29 百度数据众包

百度(山西)人工智能基础数据产业项目是在山西省综合改革示范区支持下,由百度智能云数据众包团队(百度众测)全力筹建的专业化、集中管理的AI数据标注基地。目前,基地拥有近1万平方米的办公场地,专业标注员和审核员达1500人,预计2019年内将增至2000人。届时,基地将成为全国专业领域规模最大的数据标注单一载体。


                                            百度(山西)数据标注基地坐落于山西综改示范区唐槐产业园区内


目前,基地业务全方位覆盖了无人车、语音、人脸、图像、NLP、地图测绘等数据类型的标注和加工处理服务,并具备完善的人员管理、项目管理、质量管理的方法。针对重点大客户,基地可以配置10到200人规模的专属标注团队,以封闭的场地和专属的网络环境,为大客户提供长期、稳定、专业的优质服务,确保客户数据安全和项目质量按期交付。


基于百度(山西)数据标注基地稳定的专业标注人员及业内领先的质量保障机制,百度智能云数据众包业务得以持续服务行业及内部各产品线,提供优质的数据标注及清洗等服务,协助AI算法表现提升,持续输出的效率、质量、安全并重的服务能力得到了内外部客户的高度认可。



                                                                 百度(山西)数据标注基地内景(部分)


基地于2018年成立至今,先后接待了包含山西省省长等多位领导的参观指导。百度(山西)人工智能数据标注基地作为百度在山西的品牌窗口,积极响应山西省加快发展数据标注产业的相关政策,吸引青年人才就业,培养多层次的数据标注人才,构建了山西省人工智能发展的优势,带动了工业、医疗、交通等相关产业的全面转型升级。


                                                              2019年7月21日山西省省委书记骆惠宁一行参访基地


                                                           2019年6月28日中国工程院周济院士一行参观基地


                                                       2019年6月20日山西太原常务副市长王立刚一行参观基地


                                                               2019年5月7日山西省省长楼阳生一行参观基地


                                                           2019年3月26日山西省副省长王一新一行参观基地


未来,基地将与山西转型综改示范区启动进一步的合作方案。在山西省政府的支持下,百度将主导建设专业数据标注产业园,搭建线上数据交易平台,建设无人车、方言语音等专业数据集等,持续助力山西数据标注产业的发展。


分享至:
上一篇 下一篇
产业智能化升级过程中,智能数据众包如何发挥催化作用?
2019-07-04 百度数据众包

2019年7月3日,百度AI开发者大会在北京国家会议中心开幕。大会设置了“百度智能云ABC+X,加速产业智能开发”为题的主论坛,以及以“智能云与物联网论坛”为代表的数十场分论坛,将持续到4日。



数据在AI时代所扮演的重要角色


随着物联网、5G等新技术的持续推进,我国大数据产业市场保持高速增长态势,并逐步深入渗透到各行各业,推动着我国迈向智能化强国的行列。不容质疑,数据正是AI时代的燃料,决定了AI应用的使用效果,是加速产业智能化升级的重要基础。作为国内领先的AI数据服务平台,百度数据众包致力于打造一流的、完整的AI数据服务,满足各行业客户的个性化需求,以助力我国各产业的智能化升级。


面对产业智能化升级中企业无法自行破解的数据困境,百度数据众包可根据特定领域、特定场景的客户需求,提供一站式、定制化的数据获取与加工方案的设计和执行服务,向客户交付标准化、结构化的可用数据。数据类型涵盖最全的应用场景,满足文本、图像、音频、视频、网页等类型。


优化三步曲催化可用AI数据的诞生


在“智能云与物联网论坛”中,百度智能云数据众包业务负责人高果荣发表“智能数据众包加速产业智能化升级”的主题演讲,深度解析百度数据众包在数据采集、数据标注以及数据使用三个方面所进行的智能优化,并有效的催化了可用AI数据的诞生。


                                                      百度智能云数据众包业务负责人高果荣发表主旨演讲


数据采集是AI数据诞生的第一步。百度数据众包采取全维度多媒体数据的无缝采集,并匹配最为严格的隐私合规机制,该机制符合各国数据法规的要求,曾获得众多客户安全部门的高度认可。但是更值得圈点的,是数据采集过程中更具智能化和效率的质量检测步奏。百度数据众包坚信质量是AI数据的生命线,在对采集数据进行三轮人工审核之前,引入了自主研发的智能预审核技术。这样,不仅有效的节省了人力、提高了效率,使最终采集成果的准确率也高达100%。


                                                             百度与山西政府共建数据标注基地进程


紧随数据采集之后,百度数据众包的标注业务具备场景全、质量高、效率高及专业性强的特征,可为各类产业的智能化需求提供高质、快速、专业的全场景标注服务。据高果荣介绍,百度数据众包拥有业内最强标注资源,该最强特征主要呈现在众包资源和自建标注基地相结合的模式。百度数据众包与山西省政府合作共建数据标注基地,被山西省工业和信息化厅列为“2019年重点推动项目”。山西省副省长王一新在视察该数据标注基地时曾提出,基地建设资金不少于1亿元。在此颇受重视的政企合作标注平台上,百度数据众包以连续帧自动预测、物体分割自动贴边等智能辅助标注技术强力加持,打破了传统视觉标注的盲区与瓶颈,大幅度提高标注效率,或不止20倍。


                                                                       百度智能辅助标注技术


从数据标注的质量方面来看,百度2D视觉检测算法、3D点云检测算法等自动质检算法有效的保证了标注质量。据有效数据显示,该系列自动监测可检测出标注错误的比例约为70%。


                                                                            百度自动质检算法


继数据获取与加工之后,数据应用于驱动模型迭代也是非常有效的。百度数据众包采取智能挖掘数据的方式评估已构建模型,及时发现模型明显缺陷,有效指导模型迭代。高果荣以人脸识别的例子进行详解:在已采集的数据源中,百度数据众包通过评测结果的下钻找到当前模型的主要缺陷,即暗光场景下整体的识别准召率不够。因此,标注员将更多暗光场景的人脸标注数据加入到迭代流程,最终这个长尾问题得到了高效的解决,也取得了满意的落地效果。


                                                             评测结果发现暗光环境下人脸识别不准确


智能数据众包催化产业智能升级

综上,百度数据众包是国内领先的AI开发者数据平台,在AI数据开发的整个链条上融合线上众包资源、线下代理商资源和数据生态产业园,并配合高效、高质、专业的数据采集和标注,形成包含数据管理、模型管理、模型训练、模型评估以及资源调度的完整性、规范性数据平台,以数据、计算资源、加速模型迭代来有效的降低AI开发周期,可加速各行各业的智能化升级。



分享至:
上一篇 下一篇
纯视觉城市道路闭环标注方案
2019-06-26 杨雪

在刚刚结束的世界顶级计算机视觉会议CVPR2019上,百度Apollo技术委员会主席王亮披露了一套纯视觉城市道路闭环解决方案—百度Apollo Lite,该方案用10路摄像头实现360度实时环境感知。


相比需要激光雷达、毫米波雷达、车载摄像头等的传感器融合方案,纯视觉闭环方案主要有以下几方面优势:一是获取的数据和人眼感知的真实世界最为相似,二是摄像头安装成本低且避免了车检不合规的问题;三是摄像头采集的视频数据中包含的信息更为丰富。本期就来讲一下这套方案所需的10摄基础结构化数据是如何产生的。


百度拥有500辆装载智能设备的专业采集车辆,可以覆盖全国主要城市的行车道路。采集车将采到的视频数据回传平台后,首先将数据进行清洗以及10-200帧/秒的抽帧处理。


抽帧图片转入数据标注环节,进行障碍物、定位元素、红绿灯等元素的标注。标注环节主要分两部分,第一步是对单路抽帧数据进行分段连续标注,段与段之间通过重叠帧进行关联,既保证了抽帧图片的连续性又降低了标注难度。通过智能预测算法,人工标注第一帧,算法自动识别后续帧,大大提高了标注效率以及标注精确度。数据标注完成后根据重叠帧将标注结果归一化处理后转入第二步。



第二步是对10路摄像头数据进行关联标注,根据道路场景以及标注需求复杂度,确定一次关联标注的摄像头数量,一般为2-4个。关联标注环节不仅可以保证360度环视感知,而且再一次校验了第一环节的标注质量。在该环节,通过智能视觉算法识别关联摄像头的相同元素进行关联预标注,人工来检查并修正预标注结果。



每个标注环节均有对应的前验/后验算法,加上审核阶段的3人拟合策略,多方位保证标注数据的质量。所有标注环节完成后,支持导出多种格式的标注数据,以满足不同客户算法的需要。


百度数据众包-智能驾驶数据解决方案


  1. 拥有甲级测绘资质采集团队和设备,能够完成指定城市道路场景下的数据采集;

  2. 支持多类型标注服务,如障碍物框选、跟踪(tracking)、语义分割以及2D/3D的融合标注,高并发高质量提供长期稳定的训练数据;

  3. 研发无人车数据开发管理平台,实现智能驾驶数据集的存储、管理和应用,支持模型迭代训练并根据模型缺陷提出对应解决方案;




分享至:
上一篇 下一篇
AI数据服务系统架构变迁
2019-06-19 王光浩

综述


百度众测(http://zhongbao.baidu.com/)作为全国最大的AI数据标注平台,自2011年成立,至今已有8个年头。随着业务的不断发展和壮大,整个站点架构也发生了翻天覆地的变化。本文基于这些年的一些经验和积累,详细描述一下属于众测的架构变迁史。


只有不断的总结,才能找到前进的道路。本文脚踏实地,回首历史长河,仰望星空。


阶段1 基于单点的网站架构


一般网站初期,常见的都是单机把所有的应用和数据库都囊括了。这种环境配置说实话有条件的话是绝不推荐的,当然有时候我们机器比较拮据的情况下也出现过应用和数据库同机部署的情况,那么代价是什么呢?


那就是难免会出现宕机的命运!


应用常见的情况都需要执行脚本,而一些脚本有可能出现内存泄露亦或是大内存占用的情况,数据库本身就是内存占用大户,一旦机器的内存过载,linux就会很聪明的kill掉数据库,让你不知所措。


因此考虑到机器容灾,建议至少把数据库和应用进行分开部署。


至于部署的话,之前已经提过经典的LAMP方式就ok。众测建站早期容器化docker并不是非常成熟,因此搭建机器都是通过脚本的方式进行。现在毫无疑问docker搭建就很方便快捷,也利于管理,也不太容易出现由于系统版本问题造成的编译调试崩溃问题。不过建议有条件还是重头装一下所使用的web各个组件,简单了解下各种编译配置的效果,以备不时之需。


目前整体的架构可以如图所示:



阶段2 数据库读写分离


能跑起来的应用是好应用,但机器难免出问题,为此数据库本身的容灾尤为重要。


本身随着业务发展,数据库难免出现因为错误代码或是误操作而导致的数据错误,甚至是物理机宕机等问题。因此数据库的灾备算是重中之重。


Mysql自带的mysqldump可以非常简单的导出数据,供数据恢复。如果有条件还可以进一步备份binlog,以此可以达到秒级别的数据恢复。不过需要注意的是mysqldump时会出现数据库锁表,单库的话,你的服务可就再见了。


这时候就轮到mysql自带的master+slave闪亮登场了!


从库(slave)的好处都有啥?


简单总结就两点:


  1. 从库主要进行读取服务,可以极大减少主库的服务压力。

  2. 专门部署的备份从库,可以放心地进行数据的备份。


不过引入slave后,烦躁的问题也有不少:


首先,需要对数据库前架设一个读写代理服务。我们使用了厂内自研的dbproxy组件,使用时完全感知不到其存在。开源的话可以使用mycat,甚至一些框架已经支持配置主从。


其次,主从引入后,主从不一致必然成为业务代码中需要考虑的一个问题。一般常见的错误场景是写入主库后,直接读取该条数据,由于主从瞬间的不一致,会出现读取不到case。当然,建议尽量减少业务代码如此实现,但是一些特殊场景下可能避免不了。建议使用对操作加事务或是强制访问主库连接的方式来处理这一case。


加上了从库,感觉越来越稳定了呢:




阶段3 负载均衡+多应用服务器


随着访问量继续增加,单台服务器基本无法满足需求了。一般会选择增加机器的方式用钱来换稳定性。但是加机器不能简单说说就加上了,会碰到以下这些问题:


1、第一个问题用什么技术做负载均衡:


首选是使用反向代理服务器。请求由反向代理服务器根据算法转发到具体的服务器,常见的apache和nginx都可以配置转发规则到其他机器上。部署相当简单,但是代理服务器可能成为性能的瓶颈,同时也有单点问题。


另一种更加底层的方案是使用IP层负载均衡。在请求到达负载均衡器后,负载均衡器通过修改请求的目的IP地址,从而实现请求的转发,做到负载均衡。整体比反向代理性能更好,但是也存在单点问题。


当然更复杂的情况下会选择DNS等方式做负载均衡,不多做展开。


2、第二个问题是选择集群调度算法。


首先,最常见的rr 轮询调度算法和wrr 加权调度算法,简单实用。


其次,使用散列方式的进行转发。常用用户ip等信息作为散列值,保证用户每次访问到的都是同一台服务器。


最后基于连接数进行数据分发。比较基础的有lc 最少连接,即连接请求较少的服务器。wlc 加权最少连接,在lc的基础上,为每台服务器加上权值。算法为:(活动连接数*256+非活动连接数)÷权重 ,计算出来的值小的服务器优先被选择。


当然还有更多更复杂的算法可以应用,这里不再多做介绍。


3、最后有别于单台服务器,session的共享是需要考虑的。


一般框架都提供了基于redis或是数据库的session共享配置,简单配置即可使用。不过需要注意的是在访问量较大的情况下,单redis和单库存在连接数打满的风险,需要进行进一步的扩容。


我们实际使用中,一般直接使用开放云架构的BLB。其提供http层和tcp层两类负载均衡的方式,可使用wrr方式进行负载均衡。同时,具备心跳检测,有效剔除了失效服务。


到目前为止,一个集群已经初具规模:



阶段4 数据库拆分


进行到本阶段,很有可能出现的问题有两个:单库维护了上百张表,维护起来十分头大;单表的数据已经达到了千万级别,查询出现性能问题。针对这两种情况,就需要引入水平拆分和垂直拆分:


垂直拆分的意思是把数据库中不同的业务数据拆分到不同的数据库中,例如我们会拆分标注、问卷等不同的场景,将数据库分开放,也因此可以避免单库性能拖垮全站的情况。


带来的新问题是如何处理跨库事务,目前我们一般使用代码控制,一些重要逻辑在每个库都支持自己独立的回滚。


数据水平拆分就是把同一个表中的数据拆分到两个甚至多个数据库中。一般用于解决单表过大的性能问题,同时方便扩容。


不过如何拆分是一个需要好好设计的点,目前如mycat模块可以根据配置对sql进行转发到库的操作,以此达到拆库的目标。


而在我们业务初期,这些组件还刚刚起步。我们最初使用的简单按月拆库的设计方案。简单来讲就是按照任务的发布月份,放到不同的月份库。按照过期时间,将冷数据灌入只读数据库来压缩存储容量。


不过随着业务量指数级别上升,单库的容量逐渐失控,我们进一步调整了分库的策略。目前我们自行设计了一个更细粒度的分库策略,基于任务-数据库映射表来实现,在任务创建初期有分库算法分配对应数据库,之后任务的生命周期中都会基于被分配的数据库进行CURD。


有了分库分表之后,我们的业务框架呈现如下:



阶段5 应用和模块拆分


上阶段我们已经将数据库进行了拆分,而实际上业务代码的拆分也应该随着数据库的拆分同时进行。


和数据库类似,我们按照业务模块拆分了包括问卷和标注在内的多个模块。本身业务代码是各不相同的,这种拆分比较顺理成章,但是比较痛苦的是业务代码会需要很多公用的逻辑,例如一些通用的string和array处理。一种建议是将这些通用逻辑放到framework的component里,以此来达到公用的目的。


另外此阶段可能一些公共服务模块(如用户信息)在理想情况是需要独立部署维护的。不过作为一个过渡阶段,考虑到开发的工作量,我们将公共模块在部署时拷贝至各个集群,后续阶段再计划进行独立拆分。


业务拆分后,我们的拥有了多个子系统:



阶段6 数据缓存


随着系统的不断复杂,渐渐会发现使用mysql处理很多应用场景有比较大的困难,如以下几种case:


用户时常会提交一些验证码等信息,如果都用数据库存储这些短效大量数据,似乎杀鸡用了牛刀;


一些复杂的分页信息很难用数据库直接计算,需要内存中组合数据进行计算。但是对于这种case,换页操作也不可避免,因此需要大量在内存中频繁读取数据库的值。


以上这些问题,引入缓存nosql解决起来会舒服很多,目前比较常用的就是redis了。


验证码信息可以使用key-value的方式直接存入redis,设定key的过期时间来避免redis存储过多的冷数据。


而复杂的分页信息,可以把页id信息存储到redis中。能够在换页时直接拿取redis中的分页信息,不必再进一步计算。


Redis还可以用来做一些消息队列、session存储以及数据缓存的功能,是必不可少的一层数据存储方案。


引入redis后,模块大致如下:



阶段7 微服务化


随着业务拆分的进行,会发现模块的组织切分尤为高深,这也是目前我们正在面对和解决的阶段。常见的一种设计思路是微服务架构:系统中,每个服务都有自己的处理和轻量通讯机制,能部署在单台或多台机器上,达到快速扩容。


一个优秀的微服务系统会具备如下几个特性:


  • 松耦合:由于服务自治,有一定封装边界,服务调用交互是通过发布接口。这意味着应用程序不感兴趣的服务如何被实现。

  • 利于测试,可并行开发,拥有较高可靠性和良好可伸缩性。


如何搭建微服务系统并不是简单几句可以说清的,有需要请另行深入阅读学习。我们目前推行的微服务架构简图如下:


和上一阶段看上去非常接近,不过其实主要区别是:上一阶段中各个集群中实际都会部署全量的代码,只是通过区分路由方式来保证请求进入到不同集群。例如外测服务需要调用标注服务的功能,只需要直接调用其代码即可工作。


而在微服务阶段,各个服务本身的代码尽量精简,几乎不会相互交叉。相互之间的调用需要使用接口的方式进行通讯。


总结


网站架构是一直长期发展的,如今先进的技术早晚也难免被过时淘汰。所以在搭建架构的时候脚踏实地,搞懂每一个设计的前因后果,才能夯实基础,仰望星空。


切忌不可以为了先进的架构而跃进式地升级,如果没有想清楚如何拆分、如何设计,只凭一股勇气,只会撞得头破血流折戟沉沙。


参考:


《浅谈web网站架构演变过程》:

https://www.cnblogs.com/xiaoMzjm/p/5223799.html


《大型网站技术架构:核心原理与案例分析》——李智慧著


《mycat权威指南》



分享至:
上一篇 下一篇
无人驾驶数据场景下的3D点云标注
2019-06-06 韩沛根

在无人驾驶技术中,环境感知系统充当无人驾驶车的“眼睛”,主要是通过无人驾驶汽车所装载的外部传感器获取外部环境信息,对其进行建模,将汽车所处的地理信息、障碍物信息等准确快速地传输给计算机控制系统。


在无人驾驶系统上通常搭配了多种传感器,常用的有激光雷达、毫米波雷达、车载摄像头,如下所示:



【LIDAR】激光雷达

它是一种用于精确获得三维位置信息的传感器,其在机器中的作用相当于人类的眼睛,高频激光可在一秒内获取大量(106-107数量级)的位置点信息(称为点云)。激光雷达探测距离远,可实时对周围环境精准建模,但造价相对较高。


【RADAR】毫米波雷达

毫米波雷达分辨目标主要是基于目标对电磁波的反射能力,穿透雾、烟、灰尘能力较强,可以适应如沙尘、大雾等恶劣天气,其造价相比于Lidar更便宜,目前在自动紧急制动系统功能应用较广。但探测距离受到频段损耗的直接制约,并且对行人感知较弱。


【CAMERA】车载摄像头

车载摄像头是用摄像头捕捉车辆周边信息。其大致原理如下:1)图像处理,将图片转换为二维数据;2)模式识别,通过图像匹配进行识别,如车辆、行人、车道线、交通标志等;3)利用物体的运动模式,或双目定位,估算目标物体与本车的相对距离和相对速度。


目前无人驾驶中主要是通过激光雷达对车辆周围环境的进行3D建模,从而为无人车的驾驶决策提供依据。


本期重点介绍基于激光雷达生成的3D点云图像标注。


3D点云图像标注

3D点云标注是在激光雷达采集的3D图像中,通过3D框将目标物体标注出来。目标物体包括车辆、行人、广告标志和树木等,如下所示:



当激光雷达搭配车载摄像头后,能够生成对应点云图像的2D图像,进行对比参考。



百度众测当前拥有3D标注工具集,支持包括3D点云、2D-3D融合、3D连续帧等标注场景。标注工具主要分为三个模块,分别为2D图像、点云信息、标注框三视图,如下所示:



2D图像:将点云中标记的框对应到2D图像中。

点云窗口:3D点云图像标注操作窗口。

框三视图:将点云中选中框映射到三视图中显示更细节的信息。


标注规则

在点云中俯视图下拉框后(如下左图),根据算法自动生成一个立体框(如下右图),再对对应立体框的大小、方向进行微调后使框满足要求。




框的要求:


1. 框贴合:框的6个面贴合被标注物体,框内不应有超过3px的空隙,框外不应有属于此物体的点。




2. 框方向平行:框体方向需与车身方向平行,并注意车头方向。



3. 框类型:当标记出3D框后,此时对应的2D图像上会自动框出对于位置,可通过2D图像确认的物体标记类型及车头方向。


百度众测作为百度无人驾驶业务的标注数据提供方,拥有包括3D点云、2D-3D融合、3D连续帧在内的标注工具集,积累大量3D点云数据标注经验,通过高效的标注工具及流程化的质量管理体系,为客户提供高质量的训练数据。




分享至:
上一篇 下一篇
百度数据众包:AI数据质量管理探索和实践(二)
2019-06-04 张晓晓

上期我们说到百度数据众包的五维立体质控系统:


  1. 自动化先验过滤

  2. AI加持自动化审核

  3. 执行项目经理自检

  4. 多轮众包质检

  5. 百度项目经理抽检及小流量预交付


今天,我们着重讲一下有着技术赋能加持的自动化审核。


自动化审核,顾名思义,非人工介入的程序自动筛选流程。

百度作为国内AI研究应用的领头羊之一,公司内部积累了很多AI技术平台化的应用/接口。百度数据众包也能借助这些技术积累和开放的东风,将AI技术反哺到数据采集阶段。


按照审核过滤阶段区分,自动化审核分为先验过滤和后验审核。


先验过滤

质控,是数据采集开始就存在的。百度自有采集工具,在实际采集之前就可以灵活的设定过滤条件。可以对人脸、机型等信息综合判定,过滤重复用户,解决了传统众包分包模式可能导致的样本重叠问题;可以通过机器信息采集和基于百度账号的大数据人像标签,过滤非目标用户;甚至在数据提交阶段,在本地就对数据参数合法性、数据重复性等进行基础过滤……以上措施,不但大幅度提高采集阶段的数据质量,同时减少了20%+的冗余采集工作和质检工作,大大提升了整个采集阶段的效率。


后验审核

例如人脸识别、人脸查重、音频空白截断检测等等都陆续添加到自动化审核框架中,过滤筛查明显不合格的数据和重叠样本。大大提升审核效率,减少人工质检量,甚至完成人工质检员无法完成的质检要求。


除了审核阶段不同,自动化技术起到了不同的作用。我想大家也会好奇,现在已经有哪些自动化技术/人工智能技术,已经或将要应用在我们的自动审核中呢。


1. 人脸查重、人脸识别

调用百度内部人脸识别的平台化API接口,我们在现有算法精度的限制下,对召回率和准确率做出一定权衡,自动过滤掉完全重复的人脸(同一个样本用户),对于其他中高相似度的人脸数据再交由人工二次判断。目前,该算法对亚洲人脸有着较为出色的表现,在2018年也在欧洲白人等其他人种做出了应用尝试。并对大规模人脸数据的机器算法查重和人工判断查重的准确率进行对比,实验发现机器算法非常明显的更胜一筹。这给我们对AI技术反哺数据业务的尝试,提供了更多信心。人脸查重、人脸识别在采集先验和后验阶段都有不同的应用,先验时直接帮助项目执行经理判别用户是否重复参与此项目,而后验则有更多的灵活的应用,例如性别判别等。


2. 商品条形码查重

对于在售商品的物品采集,我们首度在先验框架中加入了商品条形码识别查重。这使得我们可以同时在全国范围内铺展商品采集成为可能。避免了由于采集人员分散、信息同步困难、品类拆分监控困难等原因,造成的采集资源和审核资源大量浪费、以及项目管理人员的低效能投入。同时,数据质量也得到进一步的提升。


3. 音频空白检测、截断检测

语音采集时,难免因为一些操作不当等原因,用户上传了空白音频,或前/后截断音频。技术上已经有非常成熟且准确率高的手段,轻松判别音频文件是否是空白、或前后无适量空白直接截断。此技术在2018年初开始应用在后验自动化审核中,在审核效率提升方面起到了很好的效果。


4. 文件参数过滤

众包采集肯定很难像专业化采集团队那样好管理,人员文化水平参差不齐,业务素质高低悬殊,使用设备五花八门。可能我们觉得非常简单的数据参数要求,在投入众包采集时,管控都变得困难。图片的尺寸、比例、像素、体积、格式……音频的采样率、时长、分贝……视频的时长、帧率、格式……这些文件参数的要求,我们固然可以通过采集工具(软件)的优化,提高采集有效率。但是一方面安卓手机复杂的兼容问题,另一方面,无法避免的线下集中采集回传,也要求我们对采集上传数据进行再过滤。试想,在整个后验框架内,我们可以灵活配置文件参数要求,在采集开始产生第一个文件后,系统立即日夜兼程的自动化过滤掉不合格数据,我们将节省多少项目经理的工作量和质检人力、时间投入。也进一步的提升了采集、审核效率。


5. 复杂审核规则的系统化支持

对于复杂的审核规则,我们往往进行拆解。在人工审核的时候,只做简单的单一方向判断(以减少人工审核难度和误判率),而复杂的审核结果再匹配,则是由系统运算回写的。我们后验框架也开始尝试支持研发定制化脚本的插入,这是一个高度灵活、可扩展的自动化质检系统。


未来,随着越来越多AI技术在人工智能基础数据生命周期管理中的运用,百度数据众包将持续为AI企业降低管理运营成本,提高数据质量,实现数据资产价值最大化提供关键支持。



分享至:
上一篇 下一篇
百度数据众包:AI数据质量管理探索和实践(一)
2019-05-28 张晓晓

近两年人工智能的浪潮席卷全球,传统互联网公司纷纷投入资源进军AI产业,更有大量AI创业公司纷纷涌入并崭露头角。AI技术三大要素:算力,算法,数据。算力不必多说,符合摩尔定律,GPU、TPU性能突飞猛进,中国“芯”也在不断崛起,在算力方面国内的各家很难拉开明显差距。而算法,目前大热的依旧是深度学习,深度学习算法的精度需要大量的高质量数据进行训练。目前,AI领域任何一个伟大产品都需要超大量级的训练数据支持,数据是AI发光发热的基本要素。


目前数据来源基本有下几种方式:

  1. 网络公开资源抓取

  2. 学术、政府、企业等行业数据集购买(或免费获取)

  3. 自建团队采集

  4.  众包人工采集/标注

  5. 自有产品获取数据


随着我们AI产品的深入发展,简单场景下的算法精度趋同且数值较高。但是,在复杂场景、高难度场景下,算法精度则拉开了明显差距。AI公司越来越注重指定场景的算法训练,算法对数据有着更多个性化的要求,网络抓取or已有数据集很多已经无法满足现在企业的需求。举例来说:图像方面的昏暗、逆光、强光、遮挡等,音频方面的嘈杂环境、办公室环境、车内等。这些都是已有数据很难一一涵盖或筛选出来业务场景。


与此情况类似的是,使用本公司已投放市场的产品所产生的数据。虽然采集不花钱了,但是由于大量冗余数据,却要花上几十几百倍人力投入进行数据清洗和再标注。所以,拿某些成熟公司举例,哪怕他们数据库每天都新增几十万上百万的图片、音频数据,他们都不会想去在这批数据里挑出有用数据进行算法训练,更何况,这还涉及了隐私等法务问题。


而自建采集团队不但需要较长的准备期,也往往面临着高昂的人工设备成本,和持续的管理投入。尤其随着产品的迭代,数据需求的变化也对自建团队带来了较高的要求,对大多数企业来说这是笔“亏本买卖”。


众包人工采集,成了企业低成本获取大批量、高精度数据的不二选择。


公认的,众包有着人力成本低、分布范围广、涵盖场景丰富等诸多优势,与此相对的,人员管理困难,对于高难度数据采集支持度差,人员质量参差不齐导致数据质量把控难……也是众包的缺陷。实际上,越来越多专业的数据公司,通过建设自己的项目执行团队,和培养一大批有经验的优秀的项目经理,来解决以上种种问题。略有成效,但远不足以满足AI算法所需的数据对准确率的要求。

如果在阅读这篇文章的你,从事过AI算法相关的业务,或许对数据准确率这件事有非常大的感触,也许只是百分之几甚至百分之零点几的区别,就决定了产品的成败。拿智能语音市场举例,语音识别准确率甚至达98%以上,就更别提对其算法训练数据的准确率要求了。我们经常能听到客户这种声音,我们需要正确率达99.x%以上。


同为众包数据公司,我们也会经常和客户交流,为什么最终选择了百度数据众包。

“数据质量有明显优势”。这是我们经常听到的答案。


2019年第二季度伊始,我们将推出一系列文章,为大家解密百度数据众包采集业务在质量保障方面做出的种种努力。


市面上大多数数据公司目前的采集业务质检模式是怎样的呢?

——接到项目,将项目分包给多个项目执行经理,或者分包其他小型资源公司/工作室,数据返回后,由公司内部质检团队进行人工抽检or全检。看起来好像是一个合理的数据采集质检流程,实际上确是非常粗糙、原始的质控手段。先来解读下其中的“坑”有多少吧!


  1. 项目分包给其他小资源渠道时,意味着采集对象可能有重叠,这是很难杜绝与避免的。而数据审核环节仅对数据准确性做出判断,这部分重叠对象是无法检测出来的。拿着这种“有水分”的数据去训练算法,事倍功半。


  2. 依赖单一的人工质检,面临着两方面问题,一个就是效率问题。由于内部质检人员数量限制,意味着公司并发的上限,面临大规模数据采集质检需求or突发紧急的业务需求,质检团队将捉襟见肘。


  3. 依赖单一的人工质检,另一个问题也是最重要的,数据精度全依赖某个质检员人工判断。人工这种事情,会疲劳、会理解出错、会偶尔走神……”人工质检”恰恰是最需要深度建设才能起到质量保障效果的手段,但很多质检团队只是非常基础搭建起业务流程。


百度数据众包建立7年有余,有着非常丰富的众包数据业务经验。尤其区别于大多数传统数据公司——通过小型自有数据采集标注团队起家,百度数据众包从创建伊始就剑指众包。作为国内老牌众包品牌,我们更早的遇到了众包业务的种种困境,也不断积累解决方案,优化业务流程,沉淀技术与产品,构建了国内领先的众包业务系统。


以采集数据质控为例,百度数据众包是国内首家也是唯一对采集数据进行多维立体质控的公司系统质控措施丰富,流程覆盖全面,数据质量业界领先。主要涵盖以下5个方向的质控措施:


  1. 自动化先验过滤

    质控,是数据采集开始就存在的。百度自有采集工具,在实际采集之前就可以灵活的设定过滤条件。可以对人脸、机型等信息综合判定,过滤重复用户,解决了传统众包分包模式可能导致的样本重叠问题;可以通过机器信息采集和基于百度账号的大数据人像标签,过滤非目标用户;甚至在数据提交阶段,就在本地对数据参数合法性、数据重复性等进行基础过滤……

    以上措施,不但大幅度提高采集阶段的数据质量,同时减少了20%+的冗余采集工作和质检工作,大大提升了整个采集阶段的效率。


  2. AI加持自动化审核

    百度作为国内AI研究应用的领头羊之一,公司内部积累了很多AI技术平台化的应用/接口。百度数据众包也能借助这些技术积累和开放的东风,将AI技术反哺到数据采集阶段。例如人脸识别、人脸查重、音频空白截断检测等等都陆续添加到自动化审核框架中,过滤筛查明显不合格的数据和重叠样本。大大提升审核效率,减少人工质检量,甚至完成人工质检员无法完成的质检要求。


  3. 执行项目经理自检

    还是那句话,质检质控,从数据采集的开始就存在。在数据真正扭转到人工质检团队审核之前,它最先由这个项目的执行的项目经理看到。这道环节打通的意义不只在于执行项目经理能过滤掉多少无效数据,而在于,他能够及时通过发现现有数据问题,即时修改执行策略,积极沟通积极调整,减少在错误方向的投入,减少无效执行和质检的人力投入,提升项目效率和数据质量。


  4. 多轮交叉众包质检

    无法避免的人工审核环节,接触过数据业务的人都知道,数据的生产到清洗到标注最终都离不开人。AI技术无论发展到何种程度,如果它想进步想进一步提升精度,就必须有高精准度的人员工作投入。而众测的人工质检对比其他团队有何种区别呢?那可太多了,从流程到工具,从人员到制度。容我在这卖个关子,留待下回分享。


  5. 百度项目经理抽检及小流量预交付

    采标(审)全流程线上化,数据流转及时,内部透明,给了项目交付灵活的空间。采集首日的数据,次日就可推送审核并尽快出具审核结果,百度项目经理可以随时从系统中抽取小批量数据,抽检质量并线上流转交付客户确认。及时发现问题,及时进行后续调整。这极大的避免了因为沟通不畅or需求变更 导致的大批量数据返修甚至重采的状况。减少客户的等待成本甚至资金人力损失。


除了对于每批次的数据质量控制,百度数据众包也在努力打造一个更具生命力的数据采集交付生态。每一次采集的数据质量、效率等评估数据,都会跟随项目执行经理和其渠道资源终生,成为他们后续的综合评定依据。后续项目经理可以承接的项目难度、范围……也都依赖于以往的履历积累。一方面我们在整个采集项目执行方面,以项目经理为核心,进行正向的优胜劣汰循环,另一方面也积极传播“重视质量”“重视履约”“重视沟通”的业务价值取向。这也会成为百度数据众包采集长久生命活力的根系所在。


分享至:
上一篇 下一篇
代理商智能招标平台,构建公平开放的众包标注生态
2019-05-05 钟平

百度数据众包团队作为行业领先的AI基础数据服务提供商,致力于为智能驾驶、计算机视觉、语音识别等AI行业客户提供最专业的一站式数据标注和采集服务。


AI智能算法的高精度模型依赖着海量的训练数据支持,在百度数据众包团队的数据生产链中,有百余家合作代理商,旗下数以万计的员工参与数据标注生产,在这个从业人员基数下对于代理商的甄选管控无疑是百度构筑成熟的数据众包模式解决方案的重中之重。


智能招标,打造公开透明的合作生态


为构建更透明、高效的代理商招标环境,百度数据众包团队自主研发了全自动的项目智能招投标系统,项目启动时,招标系统会根据数据标注的实际工作场景发起限时模拟测试,有竞标意向的代理商可自主报名参与,并组织员工在模拟系统中进行项目实操,模拟测试结束后,系统会结合自动审核算法计算出所有参与模拟的代理商产能及质量等指标,按照项目预先设定的中标条件,将模拟测试中指标达标的代理商选中,并根据测试中的实际表现数值计算分配每家中标代理商可承接的标注数据配额。


资源循环,护航新代理快速成长


为保障新成立的代理商能够在平台稳定成长,众包团队在项目系统中研发引入了资源循环机制为新代理商提供了最大化的项目承接机会,当项目中已承接任务的代理商达到一定数量时,系统会开启循环周期,并综合周期内所有代理商的交付次数、交付质量、验收通过率等指标进行项目表现评分,评分最低的代理商将在每个周期结束时失去项目资格,若想继续承接,需重新参与并通过模拟测试,该机制的引入保障了项目不会被大代理垄断,给了新代理更多的成长空间。


总结


百度数据众包,目前已拥有万人规模的代理商资源池,与政府合作自建行业内最大的下游代理商生态-百度(山西)人工智能数据标注基地,通过标准化的质量管控流程,专业的软硬件设施满足不同客户对于数据安全的等级需求,帮助企业在智能驾驶、计算机视觉、语音识别等垂类领域提升算法质量,持续为人工智能行业赋能。


分享至:
上一篇 下一篇
专家专栏|蒋志坚:数据标注-调度系统设计
2019-04-30 百度数据众包

引言


得数据者得AI的天下。百度智能云-数据众包平台,成立于2012年,通过高效的众包模式满足客户对数据的需求,可采集大量的原始数据,通过数据加工,为客户交付标准化结构化的可用数据。帮助客户训练算法模型、开展机器学习,提高AI领域的竞争力。

 

数据标注发展的几个阶段


阶段一:萌芽期


在百度智能云-数据众包成立初期,主要承接百度内部的一些产品线的评测工作以及算法策略团队的模型训练相关的标注数据的积累工作。


阶段二:发展期


随着各条业务线对于机器学习的持续投入,数据标注的相关需求越来越多,这段时间大约持续3年左右。在这期间,百度数据众包完成了原始方法论以及相关技术的积累。


阶段三:爆发期


2016年9月1日,在当年的百度世界大会上,Robin(李彦宏)对外宣布人工智能是百度核心中的核心。随着公司内AI核心地位的确立,同时市场上对于AI的期待以及关注程度愈发强烈。当大家都认为AI是移动互联网后的下一个风口的时候,整个AI最底层的数据标注行业,迎来了一个前所未有的爆发期。


阶段四:成熟期


2018年,中国AI公司的总融资规模达到千亿元以上,数据采标的市场约为100亿元—300亿元。随着AI逐步进入了各个公司,无论是互联网还是传统企业的战略发展目标中,数据标注行业迎来了成熟期。


数据标注的几个关键要素


标注员:标注员是第一生产力,如何提升标注员的能力和效率是整个数据标注领域需要解决的核心问题。

数据:如何投放数据、加工数据、保证数据质量是另一个整个数据标注领域需要解决的核心问题。

标注工具:提供标注规则以及交互方式。标注工具是解放标注员生产力的重中之重。

综上,数据标注的本质就是一个合适的标注员通过标注工具按照指定规则对一份数据进行加工。


那么,如何将数据分发给标注员进行加工?


调度系统的演化


标注调度系统就是为了解决数据标注几个关键元素的串联,即将数据分发给标注员进行加工。

在数据标注发展的不同阶段,我们对标注调度系统的定位和要求也是不一样的。


萌芽期


萌芽期的标注要求和过程都很简单,一般以客观选择题或者主观题为主,只需要提供一个平台,能够让标注员找到自己感兴趣的数据进行主动标注即可。同时数据的投放方式都是由运营同学进行手工投放的。在这个阶段,基本不需要标注调度系统


发展期

1.    背景:随着数据需求量的进一步增加,传统的人工投放方式已经无法满足数据标注的需求。因此开发一套能够自动投放任务的系统是这个阶段技术的一个方向。这个阶段也就是标注调度系统的雏形。


2. 解决思路:全流程自动化



爆发期


1. 背景:


需求方的变化:


a)随着无人车、视觉、语音等领域的标注需求越来越多,标注的题型和过程也越来越复杂

b)模型的成熟度提升之后,更多的标注数据是用于模型效果的提升而非简单的原始数据积累,因此需求方对于数据的质量要求越来越高


标注员的变化:


a)随着行业前景的明朗化,越来越多的新生代标注员井喷式地涌入数据标注这个朝阳产业


2. 综上,当前阶段主要矛盾点在于:


a)对于数据质量的管理要求

b)对于大量人员的管理需求


3. 针对以上问题,业务上的解决方案如下:


a)传统的数据标注,是通过多人拟合完成最终结果生成的。例如一例选择题,只有当3个人选择了C之后,系统才会认为C是一个正确的选项。但这之中往往会存在一些bad case。因此除了标注,增加审核环节。让专业知识更强的审核员加入进来,针对不合格的数据,进行一个有效的返修是快速提升数据质量的手段。

b)对于大量人员的管理,通过增加一些层级,引入虚拟组织进而更好地管理,类似于“公会机制”。


4. 解决思路:审核环节以及对应的人员管理机制—公会。




成熟期


1. 背景


业务持续规模化,客户对于数据标注的依赖持续加强,数据标注已经进入到客户的研发闭环中,对于数据质量的要求已经达到极致。

为了进一步提升数据标注的质量。不仅仅通过更加精细化的手段去掌控整个标注过程,更需要进一步解决标注员能力层次不齐的问题。


2. 解决思路:


a)引入数据调度系统:扩展标注数据处理阶段,实现各阶段间数据流转的精细化管理

b)引入人员调度系统:精细化管理标注员的标注生命周期


3.可以看到,当前标注的数据加工阶段已经精细化到如下程度:



4.数据调度系统



5.人员调度系统



标注调度系统主要目标和实现手段


通过以上系统演化角度,我们大致了解了数据标注调度系统的一个发展史。下面主要介绍一些现阶段标注调度系统的几个主要目标以及具体的实现思路。


通用性


1. 调度对象的普适性


数据调度:支持各个维度的数据的流转

a)单条数据:标注系统的最小调度单元

b)任务维度:任务是n条数据的聚合,标注运营的最小管理单元

c)批次维度:批次是n个任务的聚合,客户维度的角度最小管理单元


2. 业务模型抽象    



3. 流转策略的通用性


a)输入:

     决策数据源可以是当前线上实时的数据库,也可以是离线搭建的小时级别的数据仓库
     原始数据(批次、任务、单条数据)

b)计算:决策运算配置,根据决定的数据+策略进行决策,产出最终流转方向

c)输出:流转配置,根据计算结果进行预设的流转.

 

高可用性


1. 模块部署图



2. 高可用性的SLA定义


模块确保99.9%的请求得到正确决策调度,并确保80%的决策延时低于60秒。

 

3. 策略的热加载


由于需要保证服务SLA,因此当策略更新之后,采取热更新方式来加载对应的策略。通过策略版本号进行相应的策略升级以及回滚控制。         

    

4. 基于SLA的监控模块搭建


基于请求日志+过程数据完成基于SLA的指标监控,并设置对应的阈值进行简单的系统自恢复。


总结


在标注业务高速发展的大环境下,标注调度系统的重心逐步从纯手动发展到全自动化。同时通过不断的架构调整,加强通用性设计来满足更加复杂的外部业务变化。下一步,在确保满足流程变更需求的前提下,开始逐步探索如何通过微观调度过程的优化进而提升整个数据交付的效率。


分享至:
上一篇 下一篇
专家专栏|闵楠:构建高质量智能驾驶数据集,为自动驾驶提供“数据燃料”
2019-04-28 新智驾

感知技术是智能驾驶当中的关键一环,尤其是在国内路况比较复杂的情况下,感知技术的突破不能完全通过算法的迭代或者是技术革新来解决。


在这种情况下,经过人工标注的带有丰富语义信息的数据,可以使得算法更好地理解和识别视觉摄像头、激光雷达、毫米波雷达等传感器所传输的画面信息和障碍物信息。


当下,每一个研发团队都面临着一个问题:海量的数据如何高效地从原始数据转化为标注之后带有丰富语义信息的数据。


传感器从真实世界所采集到数据,完成了数据生产的过程。原始数据经过了一定的标定和结构化、非结构化的存储过程后,需要再经过人工标注才能产生出带有标签和语义信息的数据,这样的数据才能够为算法所利用。


相反,如果传感器无法在真实的世界中挖掘到足够多的有用数据,就需要有意生产和收集这样的数据来提升算法的精准度。


从理论层面上说:数据的标注结果越精准,对于算法的运算结果越好。因此数据的采集和标注工作都非常重要。


企业和开发者一般采取两种做法:


自建团队


自建团队需要耗费大量的精力来维护自有的标注团队。通常情况下还需要开发甚至长期地维护一个合用的数据标注的工具或者平台。唯有如此,才能长期系统性实现数据标记工作,以及进行时效性数据的补充工作。


业务外包


业务外包的模式相对于自建团队也有其难点。当下,自动驾驶的研发选型方案不断进化,对数据标注的专业能力要求不断提升。业界对于标注的需求不断进化:从最原始的2D图像的标注需求,慢慢进化到3D点云的标注需求,到全象素的语义分割,甚至多传感器融合障碍物的标注能力。不断进化的需求都对数据标注团队的能力都提出了很大的挑战。


因此,企业需要不断地研发新的标注工具,甚至是寻找标注能力不断进化的团队。百度智能云-数据众包希望能够给合作伙伴提供一个在成本和效率上都优于上述两种方案的解决方案。


关于百度智能云-数据众包 



百度智能云-数据众包成立于2011年,目标是为百度内部的研发团队和业务团队提供AI数据的采集和标注服务。


目前,百度智能云-数据众包已经承接了包括百度智能驾驶事业群在内的绝大部分团队的数据标注需求。2017年下半年,百度智能云-数据众包正式对外开放标注的经验和能力,成为综合性训练数据服务平台。


百度智能云-数据众包通过定制化的流程管理、质量管理、资源/人员管理能够高效地分发和管理大规模数据的数据标注任务,同时保证数据的质量和数据安全。


百度智能云-数据众包在智能驾驶行业上的应用 



智能驾驶的传感器的数据输出一般分为以下三种类型:


第一种是障碍物的检测、跟踪以及多传感器下障碍物融合。


百度智能云-数据众包,从2015年开始从事智能驾驶的障碍物标注,除了具备最基本的单目和双目摄像头障碍物标注、鱼眼摄像头和环视摄像头的障碍物标注能力之外;百度智能云-数据众包还具备了从4线到128线等线束不同的激光雷达点云数据的标注能力,同时还具备多传感器融合障碍物的标注能力,包括激光雷达和摄像头融合、激光雷达和毫米波雷达等传感器融合障碍物的标注能力;在V2X的数据标注方面,百度智能云数据众包团队也具备相关的标注经验。


第二种传感器所输出的车外的环境感知以及车道信息。


在车外环境感知以及车道信息方面,百度智能云-数据众包的数据标注平台也累积了丰富的标注方案,处理了庞大的车道检测、车位识别、路面信息、交通标识、定位元素、可行驶区域和语义分割等类型的数据(包含Apollo平台室外场景集合)。


第三种是对车内环境的感知和对驾驶员驾驶意愿的交互。


车内环境的感知,百度智能云-数据众包具备非常典型的疲劳驾驶的行为检测能力,具备包括驾驶员的面部的关键点标注和面部表情检测,以及客运车辆当中,乘客的位置感知等标注能力。


关于产能规模


百度和山西省政府合作,在太原建立了一个巨大的标注中心,结合经验丰富的线上众包人力,百度智能云-数据众包的标注团队规模超过5000人,障碍物和车道线等2D数据的每日产能峰值达到4万帧左右、点云障碍物标注量在1万帧左右。


大规模的生产节奏下,如何保证标注人员对标注规则的理解和执行是一致、并且保证数据质量,是一个具有挑战性的问题。百度智能云-数据众包在这个问题上进行了不断的摸索和迭代。


首先百度智能云-数据众包建立对标注员和审核人员培训和考试等标准流程。此外,在标注工具里,百度智能云-数据众包也集成了智能算法,比如连续帧的标注算法可以根据上一帧人工标注的障碍物类别,智能地预测和标注下一帧将会出现障碍物类别。


智能算法能够极大地解放标注人员的压力,标注人员只需要在算法识别的基础上进行一些修整,这样能够极大地降低在标注过程中人工的参与和主观判断产生的引入人工错误的可能性。


百度智能云-数据众包标注完每一条数据,都会经过一个人工的审核和自动化的脚本检测过程,这样能够有效保证标注结果符合标注规则。


此外,数据安全也是百度智能云-数据众包非常重视的方面。除了标准的合同条款以及保密协议之外、还有技术上的手段进行保证——百度智能云-数据众包会进行任务封装、数据加密、专线传输、专利的反爬。


对于对数据安全有特殊要求的客户,百度智能云-数据众包准备了私有化部署的标注平台、专属的数据标注团队、和封闭的标注场地,确保数据的安全。


多种的方案能够满足对数据安全有不同级别需求的客户。在整个项目进行过程中,百度智能云-数据众包的项目经理和商务经理会进行全程的对接。一般情况客户只需要提供标注规则和待标注数据,在项目结束后对标注结果进行验收即可。


总结


数据是人工智能的燃料,数据在智能驾驶领域的重要性是不容置疑的。绝大部分企业对数据是非常重视的,但都共同面临着缺乏有效获得大量且高质量数据渠道的困境。因此,针对国内路况较为复杂和国内智能驾驶起步稍晚的现状,百度智能云-数据众包通过多年的经验,以及多年建立起来的高效的管理方案以及专业的软硬件设施,能够不断地为智能驾驶提出新的思路。


分享至:
上一篇 下一篇
百度数据众包,中国人工智能数据质量引领者
2018-12-19 吴泽衔

2018年12月14日,由百度数据众包主办的“AI之道数聚为赢”沙龙在三亚召开,来自百度内部产品线、行业内领跑企业以及人工智能学术圈的多位代表共同出席,就AI行业基础数据服务的现状及趋势展开了深度讨论。


                                                                     百度众测数据业务总经理——曾虹云


首先,百度数据众包数据业务总经理曾虹云以“人工+智能,引领数据行业的质量新标准”为主题发表演讲, 他表示目前各地区政府、各个行业都在积极拥抱AI,AI数据需求规模会越来越庞大,使用场景也会更加多样化,同时对数据质量的要求也会越来越严苛,如何能够在单位时间内提高数据的准确度是行业的核心诉求,而百度数据众包在数据质量把控上具备了独一无二的优势。


百度数据众包是从百度内部成长起来的AI数据服务平台,自2011年起一直致力于服务百度内部产品线对人工智能数据的采集和标注需求,累计服务了131条内部产品线,涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。凭借着多年丰富的内部项目经验及百度内部技术能力的支持,百度数据众包可以高质量完成各类项目。


以人像采集为例,百度数据众包在接到客户需求后会制定采集方案并进行小流量测试,将小流量测试结果反馈客户并与客户沟通验收标准,反复磨合确认最终方案后开始正式采集。在采集前百度数据众包会采用百度的人脸识别技术对被采者进行拍照入库去重检测,保证被采者的唯一性。同时百度数据众包对用户隐私的保护也非常严格,要求所有被采者均需签订数据授权协议后才可开始采集,采集结果通过百度微任务APP实时回传后会经过MD5技术检测做一道防止重复提交的技术把控,再由百度的标注基地人员进行多轮比对质检,最终将高质量的数据反馈给合作伙伴。



                                                                       百度数据众包合作伙伴(部分)


正因为百度数据众包在定制服务、业务规模、数据质量、数据安全这四个维度的强大竞争力使得百度数据众包能够承载和满足AI客户落地应用99%的场景需求。在2018年的成绩单上,百度数据众包年收入2.25亿元,合作伙伴覆盖了以华为、小米、OPPO、ViVO为代表的知名手机品牌,以蔚来汽车、小鹏汽车、Momenta、奔驰为代表的知名汽车厂商,以旷世、爱笔、云从科技为代表的知名AI公司及以腾讯、网易、ebay为代表的大型互联网企业。成功支持了众多合作伙伴的新品上市,并与政府合作建立标注基地解决9000+人就业问题。


                                                               “行业数据需求分析及趋势展望” 圆桌讨论


在接下来的圆桌讨论环节中,各AI代表围绕着数据需求、数据精确度的痛点、对未来数据处理平台的展望等要点展开讨论。


                                                             天津大学智能与计算学部教授、博士生导师——王文俊


在数据需求上,天津大学智能与计算学部教授、博士生导师王文俊教授表示由于其研究学术方向为智慧城市及公共安全,因此数据需求主要来自政府数据、运营商数据及开源数据。而小米AI实验室高级产品经理张和则从商业领域上论述了目前小米的数据需求,一是小爱同学智能音箱的语音数据,二是基于小米手机拍照功能优化的图像数据。对于公开数据集这一数据来源渠道,其认为公开数据集因数据获取壁垒太低,无法实现算法的差异化。对于竞争激烈的市场环境,需要定制化的数据才能构建技术、产品的差异,所以其更倾向于找百度数据众包平台合作做定制化采集及标注。


                                                                 百度技术体系技术委员会主席——杨斐


在数据精确度上,各家看法一致,百度技术体系技术委员会主席杨斐认为AI时代是数据驱动的时代,数据质量对算法模型精准度的提升作用非常大,他以自动驾驶举例称,在过去与百度数据众包的合作中,百度数据众包提供的高精准数据对百度无人车算法模型的提升起到了很大的帮助作用。小米的张和也表示小米最看重的还是数据的精确度,“小米以前也采用过其他的众包平台,但因为这些平台无法满足质量要求,因此今年小米将大部分数据预算都投在了百度数据众包上,百度数据众包也不负所托高质量完成了众多项目。”


                                                                          小米AI实验室高级产品经理——张和


对于未来的数据平台期望,张和从小米手机国际化需求及更新迭代角度出发,希望未来的平台能具备国际化的采集能力,持续提高采集速度,以及支持更加定制化的标注需求。而百度数据众包在全球22个国家的采集能力、私有化的标注平台部署都恰好能满足小米的需求。百度杨斐则希望数据平台可以通过与一些技术手段结合来大幅提高产能,将AI时代的“铁锹”升级为“挖掘机”,从而降低标注的成本。关于自动化标注能力的建设正是百度数据众包平台目前正在大力研发的,未来百度数据众包将通过“自动化机器标注+人工标注”结合的方式进一步提高准确度及降低标注成本。而天津大学的王教授看到了百度与山西政府在标注基地等方面合作,期望百度数据众包也能有机会与天津政府合作,加快人工智能产业在天津的落地。


百度数据众包凭借着完善的流程管理及先进的技术和平台能力,目前已经处于行业领先位置。在未来2年,百度数据众包将继续围绕AI战略,持续提高平台在人工智能数据领域的专业度,致力于做中国人工智能数据质量的引领者,为AI时代添煤加水。  



分享至:
上一篇 下一篇
百度人工智能基础数据产业项目落户太原综改示范区
2018-07-02 百度数据众包

6月28日,百度与山西转型综合改革示范区就“百度(山西)人工智能基础数据产业项目”成功完成签约!EBG&TG QA总监高果荣代表公司,和综改区相关领导完成了协议的签署。



百度高级技术经理众测业务负责人施佳樑、百度公共事务部政务合作部总监段超、山西省政府副秘书长、综改示范区党工委书记、管委会主任张金旺等人见证了合作协议的签订,会后高果荣与张金旺主任进行了亲切友好的洽谈,并对下一步工作进行了安排。综改示范区管委会副主任刘勇主持签约仪式。



随着人工智能的应用越来越广泛,数据标注产业作为人工智能产业链上非常重要的一环,已经成为整个产业链的支撑产业。而百度作为BAT(中国互联网公司三巨头:百度、阿里巴巴、腾讯)中的搜索领导者,以此为基础建立的人工智能建构,在数据标注业务上的需求增长强劲。因此,数据标注产业不仅能给企业、政府带来经济收益,也给社会的发展带来收益。同时,还能解决地区就业问题。


高果荣表示,未来的数据标注会从单一的感知型标注向多层次分级的认知型标注发展、从低门槛的大众型标注到高门槛的专业性标注发展、从人力驱动型标注向技术驱动型标注发展。这一系列的发展表明了标注企业不能仅仅持续固守原旧有的模式发展,如何尽快的从人力密集型的普通外包模式企业转型成为以技术驱动的综合性标注企业发展是目前困扰企业发展的难题,而入驻百度数据标注产业基地可帮助企业优化原有的运营模式,积累并建立数据标注的运营体系,培养AI时代下的“人工智能训练师“。加入百度数据标注产业基地不仅可以享受百度独家业务扶持,为招募的数据标注企业提供培训、运营活动支持及初期业务导入同时可以抓住成为未来数据标注产业的领军者的机遇。


百度人工智能基础数据产业项目设立在综改示范区唐槐产业园区,商务办公楼建筑面积达3,000平方米,可容纳1,000人同时办公。未来将建立从普通标注企业到专业标注企业的分级数据标注产业集群,打造人工智能时代数据标准产业高地,形成新业态。一期计划引入首批数据标准产业联盟企业,打造百度数据标注产业样本企业;二期依托产业园,吸引标注产业合作伙伴入驻,带动物联网、BIM(建筑信息模型)等上下游企业和相关延伸产业的加入,并开展创新型企业孵化工作,从而带动山西省人工智能产业发展,促进就业。 



分享至:
上一篇 下一篇
热门推荐