提供多线程并发的网页抓取服务。抓取的实例包括:指定url的网页抓取、指定站点的全站抓取、指定板块的增量抓取等。
通过对特定的新闻评论、论坛、博客等站点的文章以及评论内容进行抓取解析,
根据关键词抽取敏感信息。多采集终端保证抓取数据的时效性和并发量,确保对关注的敏感信息抓取
的准确性。下图是具体返回格式:
对特定的科普类网站或者带有数据标签类型的电商、社交、游戏、音乐等
网站进行抓取,提取其中的科普知识,包括标签、内容介绍等。下图是具体返回格式:
对特定场景中用户个体间进行交流的文本语料进行抓取,包括问答类、
对话类、辩论类等,抓取后的文本语料可进一步进行标注清洗,从而作为人机对话训练的素材样本。
提供互联网各种细分领域的图片数据抓取,包括动植物百科图片、电商商品图片、
论坛博客配图等。下图是植物类图片具体返回格式: