网络爬虫最终要的资源就是IP地址,尤其是在各大网站纷纷把自家数据当初看家宝贝的“大数据时代”。即使IP地址多了,爬虫改成分布式,管理那么多服务器上的爬虫也是够头疼的。一种方法就是配置代理服务器,爬虫只在几台机器是跑就可以啦。
配置多IP地址
Linux(以Ubuntu为例)配置单机多IP地址还是很简单的,编辑/etc/netword/interfaces文件即可:
auto eno1:90iface eno1:0 inet static address 192.168.8.90 netmask 255.255.255.0 gateway 192.168.8.1auto eno1:91iface eno1:91 inet static address 192.168.8.91 netmask 192.168.8.255 gateway 192.168.8.1
以上配置中,eno1是网卡的名字,eno1:90是配置在该网卡的一个虚拟网卡的名字,并给该虚拟网卡配置了IP:192.168.8.90。按照这个规则,可以给eno1这个网卡绑定很多IP,如果这些IP都是公网IP,就可以把它当配置成爬虫的多代理服务。
配置squid3多IP出口
机器有了多IP,如果不对squid做相应的配置,出口IP还只能是一个,其他IP都不能用得上。
编辑/etc/squid/squid.conf配置文件,做相应配置
acl ip_90 myip 192.168.8.90tcp_outgoing_address 192.168.8.90 ip_90acl ip_91 myip 192.168.8.91tcp_outgoing_address 192.168.8.91 ip_91
以上配置就是对每个进来的IP的请求设置出口IP,从而达到一机多IP代理的实现。
© 版权声明
本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!
THE END