用R语言照葫芦画瓢撸了一个简易代理~

2020-06-16 00:00:00 语言时间爬虫代理短评

近正在刻苦的学习爬虫，陆陆续续的学习了正则表达式、xpath、css表达式，基本可以胜任R语言中的RCurl+XML、httr+rvest组合爬虫的需求，对GET请求和POST请求的构造和表单提交以及浏览器抓包、模拟登陆、异步加载也做了一些梳理，因为爬虫知识的通用性，所以在入门Python阶段直接就开始练习urllib+lxml、requests+BeautifulSoup。

爬虫的入门也算有了一点儿小小的心得，下一步计划在不断练习巩固现有知识的同时、对服务器的反反爬进行探索，这里涉及到如何使用随机agent、如何构造匿名代理IP以及如何使用多进程，要走的路还有很长。

之前一直有计划去爬豆瓣热门影视剧短评，试过好几次，豆瓣短评页是需要登陆后查看的，而且热门影视剧的短评通常都不会少于10000+页，这样频次的请求稍有不慎就会被封ip，所以一直在研究如何友好、温和的解决这个问题。

前几天看到Python爱好者社区的大婶们用Python写了代理池的代码，就想着用R语言也撸一个，那个代码提供了多进程检测代理IP有效性的方案，可是我对R语言的多进程还了解不够，只能用笨办法一点儿一点儿检测，很耗时，虽然笨一点，但是后也算运行成功了。

爬取IP代理偷偷给文章刷阅读量

爬的目标网址是国内的西刺高匿代理，很早就听大佬们说免费的代理没有好货，因为匿名代理很多有时限，在加上首页的可能很多开发者都在用，所以即便你爬再多，可用的也有限。我一共爬了前6页，用RCul+XML结合，以百度搜索首页为目标网址，简单筛选了一下，600个ip只筛了13个可用的~_~。

不过话又说回来了，西刺一共有2000+页代理ip，一共加起来差不多20万+个代理，如果你不嫌麻烦，可以慢慢搞一遍，不过要友好一点儿！想要好用的，据说有钱能使磨推鬼！

以下是我个人使用R语言仿照上面那篇文章的思路写的一个简易IP代理抓取与检测代码，仅供参考，不要吐槽文科僧那屎一般的代码风格！

加载扩展包：

library("RCurl")  
library("XML") 
library("dplyr")

相关文章