利用R语言爬取视频网站数据

2020-06-16 00:00:00 数据 爬虫 提取 课程 课时

2014年写过一篇利用R语言爬取团购网数据的文章前几天被大家发掘出来了,如果大家对这篇文章感兴趣可以查看原文地址:

用R抓取拉手网深圳地区的美食数据--增加商店地址信息 - jiabiao1602的专栏 - 博客频道 - CSDN.NET

今天我们就一起来利用简单的R函数做一些爬虫工作,当做是为一些爬虫爱好者提供一些思路。假如想爬取天善社区现在的在线课程数据,查看你感兴趣课程的相关信息(授课老师、课时数、价格、销量)等等。接下来,让我们一步步完成以上的需求。

先看看天善社区的视频首页地址:edu.hellobi.com/course/,首页截图如下:



在网页上点击鼠标右键,选择查看网页源代码,查看当前页面的HTML源码:



假如各位看官不懂得爬虫技术,只要懂得运用readLines函数和简单的正则表达式就能完成简单的爬虫工作。

首先我们先利用readLines函数将网页的html信息爬取到R中。

web <-readLines("https://edu.hellobi.com/course/explore?page=1",encoding ='UTF-8')

相关文章