去定制服务 联系我们
评价信息分类

【项目需求】:

长期项目,每天至少20,000条(总量达到4,000,000+条)产品的评价数据,一天内完成标注且回收数据。

每条产品及其评价信息需要标注出:正面评价、负面评价、中性评价、不相关评价、垃圾广告几种类别。

由于项目周期长数据量大,保证稳定的标注速度和质量、流程定制化自动化是众包平台的极大优势。


【实际效果】:
该项目已经持续半年,需求方每天稳定投放约20,000数据,当天实时标注产出,投放回收流程全自动化,数据100%通过客户验收,至今累计总产出达3,300,000+条数据。

数据标注平台标注工具展示如下:

中文词法判别校正

【项目需求】:

140,000条短文本(完整句子),按照规则进行词性切分的校正,一个文本中需正确区分:主、谓、宾、副词、动词、名词、修饰词等中文语法词性。


【实际效果】:

针对该词法校验类型,平台快速定制化开发了相应标注工具,用以提高标注质量及标注效率。数据由平台的核心标注小组人员进行1次标注2次审核标注校验机制,项目为期2个月,最终100%验收通过。

下图所示为该项目的标注题型:


音频内容转写、分类

【项目需求】:

对10,000条语音数据进行文本转义,并对语音录制质量进行分类清洗(清晰、有噪声、语音不完整等),且语音文件保密需求高(不可被下载获取)。


【实际效果】:

从需求确认到数据交付,仅用10天时间完成了项目设计、定制开发、标注转写、多次审核的整个流程,实际标注时间为3天时间,标注能力达到3000+条有质量的数据/天。最终数据100%验收成功。

针对保密需求,为客户定制了加密的语音播放器,保证了语音资源不外泄。

下图所示为语音转写标注的题型实例:


道路图片交通元素分类提取

【项目需求】:

需要对500,000+张道路图片进行内容实体标注。

标注的实体为多种类型的交通元素,包括:小汽车、客车、大货车、面包车、行人、自行车、三轮车、摩托车、手推车等地面元素,并对图片中有遮挡或截断的元素进行属性标记。另需单独针对图片中的红绿灯进行标注且区分红绿灯属性(形状、颜色、方向等)。

该项目难度非常大,不仅图片数量庞大,标注类型多、规则复杂、质量要求非常高。


【实际效果】:

针对客户的复杂需求,定制开发了框标注工具,并在标注中不断升级功能,以提升标注员的标注速度和质量。
对于标注员的能力,也有严格把关,每位最终进行正式标注的人员都需要经过3轮标注练习及1轮标注考试,只有通过标注考试的人员才能正式标注。

整个标注流程采用1次标注、1轮自检、1轮交叉互检、1轮审核的方式,检查及审核覆盖率均为100%,强有力的保证了标注质量。

整个项目分多个批次验收,数据标注准确率高达99%,客户方非常满意!

以下为路面元素及红绿灯标注的题型实例:

花卉图片分类标注

【项目需求】:

客户有3,300,000+张花卉图片,这些图片已经通过图片识别算法进行了初步的自动化分类,现在希望对图片中的花卉类型进行进一步的人工筛选,用于训练优化客户方的图片识别算法模型。

该项目要求在一个月内完成所有图片的筛选,并且图片中的花卉类型很多为非常见花种,即使是人工辨别起来也有很大难度。


【实际效果】:

考虑到花种识别本身难度也比较大,项目人员通过多次考试筛选,培养了100名左右的有植物识别基础的标注员,进行专职的图片筛选。同时,建立了3轮审核机制,保证每张图至少由3位不同标注员进行过筛选或者审核。

最终在22天内,完成了共计3,380,796张图的筛选工作,验收正确率高达96%,客户非常满意。

下图为该项目标注的题型实例:

粤语方言语料采集

【项目需求】:

客户方需要通过已有的文本语句采集大量的方言语音。

已其中一期项目为例,该项目需要采集粤语声纹,由于数据需要用于客户的粤语识别算法模型训练,因此需要尽可能多的声纹(不同的人的语音),同时需要录制者包括女性、男性、儿童、成人、老人等。经核算,需求方训练所需的1000小时语料大约需要2000人提供录制。

该项目由于采集语音量大(1000+小时),采集局限性强(粤语地区),要求严格(至少2000人的参与),导致难度非常大。


【实际效果】:

项目人员基于众测平台的用户基础,又在粤语地区(商场、高校等地)进行特殊招募,分批对采集人员进行培训,保证了采集能力。

通过众测平台APP“百度微任务”,进行原始粤语声纹的第一轮采集,采集到的语音会通过语音清洗的方式进行第一轮审核,不合格的语音筛除掉重新进行相应文本的采集。多轮采集-审核保障了数据的高质量。

最终项目耗时20天,采集到1100小时粤语语音,且成本比一般外包低很多。

下图所示为百度微任务语音采集工具实例:

 


银行卡图片采集

【项目需求】:

客户方需要2000+张16家主流银行的银行卡照片。

由于网上的银行卡图片质量参差不齐,很难应用到图片识别算法的模型训练中,因此需要进行实物的拍摄,且对照片清晰度要求很高。


【实际效果】:

由于银行卡归属银行达16家,要将每一家银行的卡都采集够足够数量,需要很大的采集群体。基于众测平台的用户,加上特殊招募等其他渠道,保障了可提供照片的采集人群。

其次银行卡照片对于每个人来说都是比较隐私的东西,因此项目人员特地邀请银行任职人员为可能的采集人群进行安全相关讲解,最终顺利推动整个采集。

最终,项目在2周内,完成了16家银行的2800张银行卡、共计30,000张图片(每一张相同银行卡的各种拍摄角度)。

采集的银行卡如下面图片所示:


O2O门店数据采集、清洗

【项目需求】:

客户为O2O应用平台开发方,需要对160,000家门店数据进行清洗,确认每一家店面当前的状态,以筛除大量倒闭或搬迁的商铺,提升消费者体验。


【实际效果】:

由于需要清洗的门店数据非常庞大,而实地确认的方式消耗太大,因此,需要一个操作容易且能保证清洗质量的方案。最终与客户达成一致,用电话确认的方式进行清洗。

为保障电话确认的质量、速度,项目人员专门定制了模板化电话确认流程,确保呼叫、录音、提问等流程规范化。同时为尽可能降低整个项目的费用,调研了呼叫方式及费用,以最大化客户利益。

在众测平台用户及招募的基础上,组建了100人左右的呼叫团队,在一个月内完成了所有的门店的电话清洗。

初次,针对TOP15的城市,专门组建了线下确认团队,对电话失效的门店进行线下确认,保证所有门店信息的状态都是可靠的。

最终客户通过我们提供的数据,顺利核查了大量虚假店铺。同时,也与客户达成了长期合作意向,随时响应门店的合适需求。