有关爬虫好用的代理池方案?

佬们,工作中目前需要Python爬取数百万条网页数据,目前测试的时候都会遇到请求超时限制。

可能需要引入代理池方案来切换ip,有没有推荐好用的方案呢?

13 个赞

学习一下呢

2 个赞

可以从免费的代理池先测试筛选一些代理出来,也可以去购买包次数或者包时的收费代理。还有一种方案,购买重新拨号会切换全国IP的VPS,当爬到有IP限制时,调用api切换拨号换IP。

2 个赞

建议付费购买,免费的基本没法用

2 个赞

有推荐的付费方案吗

1 个赞

付费代理池 时不时都会挂掉一批。以前关注过的一些平台现在已经挂了。

免费的很难顶
要花很多心思维护池子
之前我也是工作需求需要大量持久化爬虫、给的预算又不高
我的解决方案是找一家质量比较好的提供商然后直接写个隧道代理介入提供商提供的API
请求先经过隧道、由隧道转发请求
我之前的降低成本方案是在隧道服务中做个小池子,跟正常代理池差不多通过有效期控制增删,不过可以记录每个域名使用每个代理的次数,通过次数决定是否复用代理
比如请求 a.com使用代理, 如果池子中没有代理就先获取一个,然后转发给代理。如果有代理就判断a.com在使用这个代理的次数、达到阈值就跳过继续寻找下一下
如果高并发来了,比如10个并发进来,请求的同一个域名,使用阈值是10,那么只需要获取1个代理就够用了,10个请求全部转发给同一个代理
这样就可以提高代理的复用率,节省下代理的消耗
之前我们那项目消耗IP很大、每天几十w到一百w多IP消耗量, 转到我的隧道后降低了70%+消耗量, 代理提供商没事就老问我是不是项目关闭了,突然量少了很多。。。

14 个赞

glider+到处嫖代理,像那个github上的机场采集项目

我记得有一个扫代理池的帖子,佬友可以找一找

1 个赞

你也可以找找可以提供代理隧道的服务商,按流量计费,我之前用过这种,性价比还好。
不过国内的代理提供商很少可以支持代理隧道,我之前找的只有几家支持,不过可用率都不是很高,不超过90%,80~90之间吧
国外就比较多了、基本全支持

给你推荐个很便宜的IP代理池试试,我之前用的 http://www.xkdaili.com/

4 个赞

mark 一下,以备不时之需

星空是不是跑路了,官网打不开了

很多家有定期签到送ip的活动 你可以多账号 + 自动签到来获取 第二种就是付费找一些不大不小的代理ip网站 一般来说价格便宜很多的 我就在用一家 ip质量不错 不过覆盖率一般

能分享一下吗

我知道的有品赞和天启

1 个赞

老哥方便说下ip提供商吗,网上太多了,担心踩坑

去bing搜代理IP,批量检测可用性,把有效的代理扔里面轮训

我之前用的可用率最高的是叫小熊ip,没看到过比他家更高的可用率

1 个赞

别用免费的,真不值得折腾,能用的实在太少了