R语言数据抓取实战——RCurl+XML组合与XPath解析

2020-06-16 00:00:00 数据判断遍历抓取不存在

经常有小伙伴儿跟我咨询，在使用R语言做网络数据抓取时，遇到空值和缺失值或者不存在的值，应该怎么办。

因为我们大多数场合从网络抓取的数据都是关系型的，需要字段和记录一一对应，但是html文档的结构千差万别，代码纷繁复杂，很难保证提取出来的数据开始就是严格的关系型，需要做大量的缺失值、不存在内容的判断。

如果原始数据是关系型的，但是你抓取来的是乱序的字段，记录无法一一对应，那么这些数据通常价值不大，今天我以一个小案例（跟昨天案例相同）来演示，如何在网页遍历、循环嵌套中设置逻辑判断，适时的给缺失值、不存在值填充预设值，让你的爬虫代码更稳健，输出内容更规整。

加载扩展包：

#加载包：
library("XML")
library("stringr")
library("RCurl")
library("dplyr")
library("rvest")
#提供目标网址链接/报头参数
url<-'https://read.douban.com/search?q=Python'
header =c('User-Agent'='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36')

相关文章