数据采集
数据标注
采集速度:55-100小时/天
累计采集时长:18万小时(约216万条)
【案例】粤语方言语料采集
项目需求:
录制2,000人累计时长1,000小时粤语方言语料。录制者需包含:女性、男性、儿童、成人、老人等。
实际效果:
20天完成1,100小时粤语语音采集。成本比一般市场价格低30%,节约用时约10天。
效果展示:
采集速度:70-120小时/天
累计采集时长:2万小时(约186万条)
【案例】唤醒词采集
采集不同年龄段人群(着重区分儿童、老人)语音,目标采集300人的机器录制和3万人手机录制唤醒词语音。希望环境最大程度还原家居环境。
2周内,采集语料覆盖全年龄段,共计采集382人机器录制语音,32,665人手机录制语音。成本比一般市场价格低30%,节约用时约3-5天。
效果展示
采集速度:1.5-3万张/天
累计采集图片量:1,200万张
【案例】多表情人脸照片采集
10万张人脸照片采集,每人的人脸照片包含至少20种不同夸张表情、各种不同角度和动作。
9天内采集129,248张人脸照片,照片涉及6,000余人,每人20个不同表情及动作。成本比一般市场价格低30%,节约用时约1-2天。
标注速度:290-300小时/天
累计音频标注量:50万小时(约3,000万条)
【案例】语音数据转写与分类
对10,000条语音数据进行文本转义,并对语音录制质量进行分类清洗(清晰、有噪声、语音不完整等)
3天内标注10,000条语音数据,通过率100%
标注速度:15-18万张/天
累计标注量:2,000万张
【案例】花卉图片分类标注
经过自动化初步分类的3,300,000张花卉照片进行进一步人工分类。
22天完成3,380,796张图的筛选,准确率达96%。
标注速度:11-15万张/天
累计标注量:7,000万张
【案例】人脸照片标注
300万张人脸照片分类、检测及定位标注,部分图需标出600余个定位点。
27天完成300万的人脸照片打点标注,准确率99%以上,成本为外包公司的1/4。
标注速度:19.8-23.4万帧/天
累计标注量:800万帧
【案例】道路图片交通元素分类提取
500,000+张道路图片进行内容实体标注。标注的实体为多种类型的交通元素,包括:小汽车、客车、大货车、面包车、行人、自行车、三轮车、摩托车、手推车等地面元素,并对图片中有遮挡或截断的元素进行属性标记。另需单独针对图片中的红绿灯进行标注且区分红绿灯属性(形状、颜色、方向等)。
分批次交付,准确率99%,合作方肯定交付速度与质量。
标注速度:2.5-3万帧/天
累积标注量:500万帧
【案例】自动驾驶数据集标注
点云数据标注,部分单帧图片中含有多达162辆交通工具或80名行人;同时需将路段对应的室外稠密点云数据按照19个分类进行精确分割标注。
在20天内交付了正确率高于98%的22344帧图像语义标注与1.5km点云分割结果,工作效率是需求方自有标注人员的2倍,并陆续以高度的弹性与专业的快速反应能力应对了七次标注规则变更。