API优质代理错误问题解决方案

laical · · 3198 次点击 · 开始浏览    置顶
这是一个创建于 的主题,其中的信息可能已经有所发展或是发生改变。

HTTP代理是网络爬虫使用最常见的。HTTP代理的使用方式也分很多种,分为API提取的优质代理和自动转发的爬虫代理。而网络爬虫常见使用就是传统API提取的优质代理。当然使用HTTP代理的时候会遇到许多问题。例如代理IP无法连接,速度慢,无法提取等等问题。 亿牛云API代理常见问题解决方案: (1) 代理提取失败 停止程序访问,直接使用IE浏览器访问代理API,截图看看错误提示: 如果页面访问失败 注意API链接是否复制正确;爬虫服务器是否有防火墙禁止网络访问;服务器是Linux提取api,是需要转义,&符号前面要加\ 页面访问成功,返回错误信息,需要看看错误信息内容 您的IP: 125.69.47.134 没在白名单( 125.69.44.227 222.209.8.0 )中 原因:ip白名单不对,需要添加,注意看看对方服务器IP是不是电信或联通的IP 修改IP白名单太频繁 原因:1、ip白名单不对,需要添加,注意看看对方服务器IP是不是电信或联通的IP,同时注意对方是不是开启了IP自动更新选项,如果对方有多个网络出口,就会导致ip自动更新频繁。 False,没有获取到任何代理,速率超过限制 原因:一条代理API链接只能按照指定时间间隔进行访问,注意程序是不是有多个线程访问或一个服务器下有多个软件运行,超出了代理链接提取速度,请用浏览器访问代理API链接,看看中文提示错误描述。如果服务器每秒请求超过一次,会被判断为DDOS攻击行为,直接黑名单处理,停止该行为一段时间后会自动恢复访问许可。 (2) 代理提取之后,代理不能访问或访问失败率很高 原因:提取和使用代理IP的机器是不是都绑定了IP白名单,注意看看对方服务器IP是不是电信或联通的IP; (3) 代理能访问,偶尔出现访问失败或提取失败 原因:注意看看对方服务器IP是不是电信或联通的IP,同时询问对方是不是多个IP白名单的情况下,开启了IP自动更新出现了冲突;对方是否控制了代理IP的使用时间,超出了2-10分钟,导致IP失效。 (4) 代理能访问,出现大量429 原因:要求对方控制每个代理IP的请求数,最好一个代理IP一个线程,避免出现阻塞,同时建议客户增加IP提取量 (5) 代理能访问,出现大量403、504或503 原因:爬虫程序的采集行为被网站标识并拒绝服务,求对方控制每个代理IP的请求数,并且增加IP提取量。 (6) 提取的代理IP都是相同IP 原因:部分地区为保证网络速度、降低网络延迟,提供IP隧道代理,该代理通过固定IP+随机端口,在一个时间点上随机分配一个外网IP(又称:公网IP),因此统计代理IP的重复率是不准确的。 代理IP是网络爬虫中不可缺少的一部分,以上是关于使用亿牛云代理出现的常见问题的解释。网络爬虫如果想长期稳定采集数据,一定要选择高匿优质代理IP。

有疑问加站长微信联系(非本文作者)

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

3198 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传