|
发表于 2021-11-3 09:40:02
|
显示全部楼层
本帖最后由 zhengborui 于 2021-11-3 14:06 编辑
{
"crawlWorkCompleted": {
"enable": true,
"cron": "0 0 * * * ?",
"count": 1000.0,
"excludeAttachment": [],
"excludeSite": [],
"maxAttachmentSize": 5242880.0,
"###enable": "是否启用###",
"###cron": "定时cron表达式.###",
"###count": "每次处理的数量,默认每小时处理所以默认为500,同时每次将重爬最旧的25%,按时间轮询25%.###",
"###excludeAttachment": "忽略附件名称.###",
"###excludeSite": "忽略附件位置.###",
"###maxAttachmentSize": "最大附件大小.###"
},
"crawlWork": {
"enable": true,
"cron": "0 0 * * * ?",
"count": 500.0,
"excludeAttachment": [],
"excludeSite": [],
"maxAttachmentSize": 5242880.0,
"###enable": "是否启用###",
"###cron": "定时cron表达式.###",
"###count": "每次处理的数量,默认每小时处理所以默认为50,同时每次将重爬最旧的50%,按时间轮询50%.###",
"###excludeAttachment": "忽略附件名称.###",
"###excludeSite": "忽略附件位置.###",
"###maxAttachmentSize": "最大附件大小.###"
},
"crawlCms": {
"enable": true,
"cron": "0 0 * * * ?",
"count": 300.0,
"excludeAttachment": [],
"maxAttachmentSize": 5242880.0,
"###enable": "是否启用###",
"###cron": "定时cron表达式.###",
"###count": "每次处理的数量,默认每小时处理所以默认为30,同时每次将重爬最旧的50%,按时间轮询50%.###",
"###excludeAttachment": "忽略附件名称.###",
"###maxAttachmentSize": "最大附件大小.###"
},
"extractOffice": true,
"extractPdf": true,
"extractText": true,
"extractImage": false,
"tessLanguage": "chi_sim",
"planQueryBatchSize": 500.0,
"###crawlWorkCompleted": "已完成工作收集器设置.###",
"###crawlWork": "工作收集器设置.###",
"###crawlCms": "内容管理收集器设置.###",
"###extractOffice": "抽取office中的文本.###",
"###extractPdf": "抽取pdf中的文本.###",
"###extractText": "抽取文本中的文本.###",
"###extractImage": "抽取图像中的文本.###",
"###tessLanguage": "tess使用语言.###",
"###planQueryBatchSize": "查询批次大小.###"
}
这个是query.json的配置,这样配置我理解再怎么有延迟也应该能爬到最新的workCompleted了吧,一个小时执行一次,最新的cms和work都可以看到,就是workCompleted数据库里面一个都没有,旧的新的数据都没有,但是我在后台api中直接执行下面这个方法传一个workCompletedId进去之后,那个Entry表中就有这条数据了
crawlWorkCompleted
path: jaxrs/segment/crawl/workcompleted/{workCompletedId}
您能不能给解释一下,这是什么原因 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|