如何编写RSCRIPT从Html表格中提取URL

2022-09-02 00:00:00 r rvest web-scraping html

我正在尝试使用https://divvy-tripdata.s3.amazonaws.com/index.htmlrvest库从页面的<;a href=&https://....zip";;>;元素中提取所有类似于rvest的URL:

link <- "https://divvy-tripdata.s3.amazonaws.com/index.html"

library(rvest)
library(xml2)

html <- read_html(link)

html %>% html_attrs("href")

输出:

Html%&>%html_attrs(";href";) Html_attrs(.,";href";)中出错:未使用的参数(";href";)

您能帮我用R从上面的链接中提取所有URL吗?

HTML: https://i.stack.imgur.com/5BiFU.jpg

xml

这些链接来自返回推荐答案的浏览器发出的另一个GET请求。您仍然可以使用rvest并获取关键节点,然后完成URL。

library(rvest)

base_url <- "https://divvy-tripdata.s3.amazonaws.com"
files <- read_html(base_url) |> html_elements('key') |> html_text() |> url_absolute(base_url)

对于较旧的R版本,将|>替换为%>%,并将library(magrittr)添加为导入。

相关文章