1.频道和模板的配置错误
①输入为空或不合法:频道配置的采集地址为空或不合法。
解决方法:
A.检查模板采集源地址和各层级模板示例地址填写是否正确,重新填写采集地址。
【采集源地址】
【各层级示例地址】
B. 检查各层级模板关联是否正确,保证每层模板关联对应层级模板,一般为关联下一层级模板。(关联模板教程:http://www.forenose.com/view/help/course/spider/30.html?cId=12&type=1)
【关联模板】
②模板分类错误:分类器错误。
解决方法:
A. 查看分类器是否正确,分类器配置是否正确
咨询技术支持(http://www.forenose.com/view/about/contact.html)
③地址错误:采集地址不存在或已经失效。
解决方法:
将采集地址,用浏览器打开,查看是否失效,如果失效更换有效地址。
④模板错误:模板不存在或已经损坏。
解决方法:
检查模板配置情况,修改配置模板。
⑤频道入口配置错误:关键词搜索配置错误。
解决方法:
检查模板配置情况,修改配置关键词搜索。
⑥文档类型错误:采集对象是不能够识别的文档。
解决方法:
检查页面中采集对象的数据类型,配置时选择对应类型进行配置。
⑦频道配置不合法:频道配置错误。
解决方法:
检查频道模板配置情况,修改配置。
⑧禁止访问
解决方法:
A. 将采集源地址用浏览器打开,查看是否能够正常浏览。
B. 如果不能正常浏览,更换IP,查看是否正常。
2.http下载错误
①服务器繁忙:采集对象的服务器繁忙。
②域名解析错误:域名解析出现错误。
③网页重定向:采集对象重新定向了新的地址,这是一种常见的反爬手段。
解决方法:
A. 减慢采集速度
B. 更换代理IP
C. 使用代理IP
④网页未找到:未找到请求资源。
⑤权限访问错误:方法禁止操作或权限不够。
⑥服务器错误:本机服务发生错误。
⑦网络错误:网络发生错误,可能是由网络不稳定或者被封IP导致。
解决方法:
A. 更换一个稳定的网络环境进行测试。
B. 更换IP。
C. 使用代理IP。
⑧https协议错误:ssl错误。
⑨代理服务器错误:代理错误。
⑩内容错误:下载的页面内容发生错误。
⑪用户取消下载:下载过程中用户过滤或取消。
3.文档类型无法识别:
文档后缀与实际类型不符。
4.脚本执行出错
脚本配置出错。
5.数据错误:
数据库插入、更新、删除、查询等发生错误。
6.未知错误:
发生其他各类错误。