利用R语言爬取视频网站数据

2020-06-16 00:00:00 数据爬虫提取课程课时

2014年写过一篇利用R语言爬取团购网数据的文章前几天被大家发掘出来了，如果大家对这篇文章感兴趣可以查看原文地址：

用R抓取拉手网深圳地区的美食数据--增加商店地址信息 - jiabiao1602的专栏 - 博客频道 - CSDN.NET

今天我们就一起来利用简单的R函数做一些爬虫工作，当做是为一些爬虫爱好者提供一些思路。假如想爬取天善社区现在的在线课程数据，查看你感兴趣课程的相关信息（授课老师、课时数、价格、销量）等等。接下来，让我们一步步完成以上的需求。

先看看天善社区的视频首页地址：https://edu.hellobi.com/course/explore?page=1，首页截图如下：

在网页上点击鼠标右键，选择查看网页源代码，查看当前页面的HTML源码：

假如各位看官不懂得爬虫技术，只要懂得运用readLines函数和简单的正则表达式就能完成简单的爬虫工作。

首先我们先利用readLines函数将网页的html信息爬取到R中。

web <-readLines("https://edu.hellobi.com/course/explore?page=1",encoding ='UTF-8')

相关文章