1,百度有爬虫限制,频繁查询需进行图片验证,可采集中进行验证后,再次采集;
2,百度搜索结果,在登录百度账号的状态下,有的查询结果比无账号的更加精准;
3,八爪鱼,提取数据如果不在循环中,则只有绝对路径;
4,列表链接循环点击,属性配置新标签打开;如果循环正常,但数据为空或全部默认,则可能是循环过快,数据来不及加载,在提取数据前插入移动鼠标,等待1-2秒即可,注意指定一个xpath,否则后续的预览无法显示。
5,自动登录:有的网站cookie有时间限制或只能用一次,再次采集时,打开任务取消cookie,保存后退出,重新打开任务,重新绑定cookie。
6,八爪鱼识别的翻页循环并不完全适用:有的翻页条中间带省略号的,翻到省略号页码,下一页的xpath会变化,需要手工修改,用属性或节点固定,如下列示例: