大数据时代,如何让你的大数据变成有效的数据是更为重要的事情。大量的产品评价信息、搜索关键词、实体词汇都需要去冗余处理、分类处理。使用该场景,可快速创建针对文本的归类任务,点击预览可以查看该场景提供的标注题型。
例如,如果您有数量庞大的产品评价信息等待处理,而您需要筛选出其中明确好评及明确差评的信息进行分析,该场景下可为每条评价信息配置多个选项(如:明确差评,明确好评,中立,广告),最终您的原始数据会按照选项分类标注。
如果您需要从网页、文章、文本集合中提取出符合需求的文本,甚至是撰写新的文本(如网页摘要),都可选择该场景。
例如,如果您现在有大量的网页链接,需要通过网页展示的信息提取出三个网页的内容关键词,该场景下可以配置一个网页展示区域及多个文本输入框,您最终回收的数据为所有网页链接及与其一一对应的关键词集合。
在文本的处理中,人工的校正总是更为准确。特别是针对中文这种语法多变、词义复杂的语种,人工校正当然是必不可少的一步。选择该场景,创建可以完成文本词法、准确用词等校正工作的任务。
假如,您正在做自然语言处理,有一些机器分析的文本词法需要进行人工校验,则可以用该场景,将您的词法规则描述清晰,按照特定样式展示出您的原始数据,众包平台将为您返回校正后的文本。
与文本相似,大量的图片数据也有分类处理、有效图片筛选等需求。该场景设计了非常简洁的图片筛选题型,让图片分类处理更加高效、快速。您只需提供图片链接及筛选条件即可快速创建发布任务。
假如,您是电商平台开发方,有大量图片需要根据关键词归类,该场景提供了非常高效的筛选方式,您只需要提供图片链接集合及对应需筛选的类别关键字,可以很快回收分类后的图片数据。
为菜品图片标记口味和烹饪方式信息,为服装图片标记花色、款式等信息,是一种为图片打标签的需求,图片标签化场景可以很好地满足这种需求。
如果您的电商平台有大量的图片数据,需要进行多维度的标签标注,那这个场景将非常满足您的需求。
在百度无人车交通元素识别,图片文字识别中,需要大量的原始识别数据支持。该场景很好地支持图片中实体内容的识别标注,提供简单的框选标注工具让数据回收效率、准确度更高。
对于正在做图像识别的您来说,这个场景将能为您快速地提供相当准确的框标注数据,如图片中的人脸框标注、文字框标注等。
特定物体、实体图片采集,基于地理位置的图片信息采集,无论是需要大量的图片数据或者是需要特定条件下收集的图片数据,都可以通过这个场景实现。
如果您正在开发LBS相关服务,需要大量的基于地理位置信息的图片,如商场、门店、景点等图片,该场景则是最好的选择。
机器往往不能完全准确地识别出语音的内容,但人工可以做到,而要优化语音识别也需要人工的介入。该场景通过人工转义,可以实现高质量的音频内容文本化。
如果正在研发语音识别的您有大量的语料需要做文本化处理,这个场景将为您提供无语种限制的人工转义,可很大程度保障转义的正确性。
如果您的机器学习已经有了对音频的识别但需要校验结果,或者您采集的音频数据需要进行一轮清洗以提高采集质量,则可以使用语音筛选场景实现。
如果您已经采集了大量规定内容的语音,可以通过该场景进行语音文件的有效性筛选(如:内容是否清晰,是否为规定内容的语音),或者语音提供者的属性筛选(如:男声、女声、孩童、老人等)。
与图片采集不同,语音采集的难度更大,尤其是对特殊内容及语种的语料采集。在众包平台这些问题都能得到解决,您只需要定义好采集需求,我们的语音采集场景将能快速支持。
如果您的语音技术研发需要大量特定条件的语音(如:女声阅读特定内容)或者普通语音,这个场景则可完全满足您的需求。
该场景支持嵌入iframe,您只需提供网页链接及相关query,即可发布网页有效性筛选的任务。该场景可以处理的类型包括搜索结果相关性判断、网页内容与query匹配度判断、网页搜索内容对比选择等。
假如,您是搜索引擎开发方,需要人工判断分析您的产品搜索结果与query的匹配程度,在该场景下,嵌入搜索网页展示,及相应的匹配程度选项(如:非常符合,一般符合,不太符合等),标注员会按照您设定的判断规则进行归类处理。