18个R语言教程

2020-06-17 00:00:00 数据 分析 语言 模型 检验

实验楼上有不少的R语言开发教程,这里做一个整理总结,你可以挑选自己感兴趣的教程进行学习,希望对学习R语言的小伙伴有所帮助;

概览如下:1个入门教程 + 4个根据书籍制作的项目教程 + 3个进行股票数据处理的项目教程 + 3个模型学习教程 + 4个数据分析教程 + 3个其他应用教程;

R 语言简介:

R 语言流淌着统计学的血液 , 它内置了海量的统计函数 ,使用者可以利用其对数据进行快速交互分析 。 同时作为一门图灵完备的解释性语言 , R 的使用者比 SAS , SPSS 等统计软件的使用者拥有了更大程度的自由。

与大多用于工程实践的编程语言相比 , R 语言更像是一个灵巧的研究工具 ,在处理大量数据 , 性能方面比较薄弱。但是与其他工具交互就能漂亮地解决问题 , 例如与 Spark 配合 (sparkR) 解决数据量较大的情况 , 与 C++(Rcpp) 配合可以解决性能不足的问题。

R语言教程:

下面是1个基础入门教程;

1.【R 语言基础入门】

该教程主要讲解包括 R 语言的基本数据结构 , tidyverse 生态 , 以及一些用R解决实际问题的案例。属于 R 语言小白入门基础课程,难度简单。十分适合想要学习 R 语言的同学进行入门学习。

涉及知识点:

  • R 语言简介
  • R 语言基本数据结构
  • R 语言学习资源
  • tidyverse 生态链概述
  • ggplot 与可视化
  • dplyr 与数据转换

下面是4个根据R语言书籍制作的项目教程;

1.【基于R的数据管理】

这个项目我们将快速浏览R中的多种数学、统计和字符处理函数。

为了让这一部分的内容相互关联,再通过引入一个能够使用这些函数解决的数据处理问题。在讲解过这些函数以后,为这个数据处理问题提供一个可能的解决方案。后讲解如何自己编写函数来完成数据处理和分析任务。

该项目源自图灵教育的《R语言实战(第2版)》第5章,图灵教育授权发布。

涉及知识点:

  • 数学和统计函数
  • 字符处理函数
  • 循环和条件执行
  • 自编函数
  • 数据整合与重塑

2.【R语言进行商业问卷分析】

该项目将以故事的形式展开对商业街调查问卷的设计进行分析和学习。

在实验中首先会进行数据的录入,然后利用管道处理技术来列联表,接着进行独立性检验,终通过图表的形式得到我们需要的调查问卷。

该项目源来自图灵教育的《菜鸟侦探挑战数据分析》第3章,图灵教育授权发布。

涉及知识点:

  • 数据的录入方式
  • 列联表
  • 独立性检验(卡方检验)及其方法
  • 列联表的图

3.【对英国房屋价格建模并预测】

该项目将通过一些特定应用来介绍一些常用建模技术。

首先考虑如何在 R 中存储和处理时间序列。接着,处理线性时间序列分析,并展现如何将它用于建模和预测房屋价格。其次,通过考虑长期趋势,后使用协整的概念来改进基本的小方差对冲比。

该项目源来自异步社区的《量化金融R语言初级教程》第1章 ,异步社区授权发布。

涉及知识点:

  • 时间序列
  • ARIMA 模型
  • 协整关系
  • 改进基本的小方差对冲比

4.【序列的数据挖掘】

该项目试图使数据遵循一种模式,在此模式中,一个或一系列事件可以通过一致的方式预测另一个数据点。

首先,通过使用 eclat 函数查找数据集模式,以便寻找人口中的相似模式。接着,使用 TraMineR 查找购物篮中的项目频集。使用 apriori 规则确定购物篮中的项目关联。使用 TraMineR 确定成年人职业转换期的序列,并通过序列数据可用的大量图形特征将其可视化。后,用 seqdist 检查序列之间的相似点和不同点。

该项目源来自异步社区的《数据科学:R语言实战》第2章,异步社区授权发布。

涉及知识点:

  • 模式检测
  • 项目共现
  • 关联规则
  • 挖掘序列的R功能包
  • 序列相似点

下面是3个利用R语言来进行股票数据处理的相关应用;

1.【R 语言实现股票数据的预处理及分析】

该项目以几支股票数据作为分析背景,股票数据如何从雅虎财经板块上获取,并观察股票每日价格和成交量数据开始,接着计算某一支股票数据中比较重要的日度收益率。然后通过各种股票线图进行技术分析,后在一支股票的基础上同时分析多支股票的成交量,涨幅时间点,后得出它们之间的相关性等数据特征。

涉及知识点:

  • 股票数据抓取
  • 股票数据线图绘制及技术分析
  • 股票日度收益率计算
  • 多支股票的相关性

实验过程中的部分截图:

技术分析图:

四家公司股票的相关性绘图:

2.【使用R语言基于新浪股票数据分析金融数据的“统计常识”】

项目以网络上的新浪股票数据为代表,研究金融数据的一些简单的统计性质。首先介绍相关的理论基础,然后在 R 上进行相关的操作,这些主要包括加载所需要的 R 包,在网络上直接载入股票数据,绘制股票数据的一些典型图形以及终对股票的收益进行一些简单的分析,为简单的金融数据分析打下一些基础。

实验知识点:

  • 金融数据的统计性质介绍
  • 添加 quantmod 、fBasics包
  • 访问和下载网络上的股票数据
  • 股票数据的K线图、时序、密度函数图
  • 股票收益率的正态性检验

实验过程中的部分截图:

股票数据的时序图:

股票收益率的密度函数图:

3.【R语言分析股票指数的GARCH效应】

GARCH模型是对金融数据波动性进行描述的方法,为大量的金融序列提供了有效的分析方法,它是迄今为至常用的、便捷的异方差序列拟合模型。

项目运用R语言利用上海证券综合指数进行GARCH模型的分析,包括计算股票指数的收益率,实现收益率的可视化 ,计算一些基本统计量,绘制股指收益率的ACF和PACF图,检验收益率序列的ARCH效应,估计GARCH模型以及标准化残差分析等。终通过本次实验检验股票指数的GARCH效应,了解股票市场上的波动聚集效应。

实验知识点:

  • 计算股票收益率
  • 股票指数的可视化
  • 求基本统计量
  • 绘制ACF图和PACF图
  • 检验序列的ARCH效应
  • GARCH模型的拟合
  • GARCH模型的标准化残差分析

实验过程中的部分截图:

上海证券综合指数的日收盘价(上)和日收益率(下)的时序图:

残差和残差平方的自相关图和偏自相关图:

下面是3个模型的相关学习教程;

1.时间序列预测模型——【R语言实现金融数据的时间序列分析及建模 】

该项目主要探讨了几种时间序列的预测模型,首先带领大家对时间序列有一个初步的认识,再在这个基础之上,向读者介绍当下常用的 ARIMA 模型来预测时间序列,接着为读者展示几种指数平滑的方法来预测,后通过几种模型的对比,让大家可以从中选择出一个佳的模型来实现预测。

涉及知识点:

  • 时间序列预测
  • ARIMA 模型
  • 指数平滑

2.向量自回归模型——【R语言建立VAR模型分析联合内生变量的动态关系】

VAR模型是向量自回归模型的简称,是基于数据的统计性质建立的一种常用的计量经济模型,VAR模型把系统中每一个内生变量作为系统中所有内生变量的滞后值的函数来构造模型,从而将单变量自回归模型推广到由多元时间序列变量组成的“向量”自回归模型。

该项目运用R语言来建立两变量的向量自回归模型,首先是检验两变量序列的平稳性,然后进行协整检验,确定滞后阶数,再拟合VAR模型,终对拟合的VAR模型进行模型的预测。通过本实验学会用VAR模型处理多个相关经济指标的分析与预测。

涉及知识点:

  • 平稳性检验
  • 协整检验
  • 滞后阶数的确定
  • VAR 模型的拟合
  • 脉冲响应分析
  • VAR 模型的预测

3.多元回归模型——【基于R语言的多元线性回归--我国经济增长的定量研究】

经济增长一直以来都是我国宏观经济政策的目标之一,研究影响经济增长的因素对促进我国经济快速发展有着重要意义。该项目运用 R 语言编写代码拟合多元线性回归模型,对模型拟合结果进行诊断,即对假设前提进行检验,并选择优模型,终进行区间预测,定性的研究影响我国经济增长的因素。

涉及知识点:

  • 多元回归模型的理论基础
  • 多元回归模型的拟合
  • 多元回归模型的诊断
  • 多元回归模型的优选择
  • 多元回归方程的解释

下面是4个利用R数据分析的相关教程;

1.聚类分析——【R语言实现城镇居民全年人均消费支出的聚类分析】

该项目通过国民人均年消费支出的相关数据来对聚类分析进行学习。

首先通过距离公式认识聚类的基本概念,然后通过两大热门的聚类方法进行实验,主要介绍了系统聚类和划分聚类,其中系统聚类包括了短距离、长距离、类平均、重心和 ward 这五种方法,划分聚类主要介绍了 K 均值法和基于中心的划分方法的实验过程。后,读者通过实验就能对比出每一种聚类方法的优劣之处。

涉及知识点:

  • 聚类距离
  • 系统聚类
  • 划分聚类

2.方差分析——【R 语言实现样本数据的方差分析】

该项目主要介绍了方差分析中的单因素方差分析和双因素方差分析的方法,探讨了一个因素和多个因素对实验结果的的观测值是否有显著性的影响。

其中主要运用到了aov()函数来进行ANOVA 模型拟合以及相应的方差分析。然后,根据假设检验原理,用到了均值的多重检验和方差其次性检验的方法验证假设结果。后,读者可以独立的将方差分析运用在数理统计中去。

涉及知识点:

  • 单因素方差分析
  • 双因素方差分析
  • 均值多重检验
  • 方差齐次性检验

3.主成分与因子分析——【R 语言实现样本的主成分与因子分析】

该项目主要讨论了主成分分析(PCA)和探索性因子分析(EFA)两种多元统计分析,这两种方法表面上有很多相似指出,都是一种降维的统计方法。主成分分析主要是把多个变量化成少数几个主成分,而因子分析则是将多个变量综合为少数几个因子,再现原始变量和因子间的相关关系。

在实验中我们通过 R 语言来学习这两种分析方法,并运用在银行财务数据的分析上。

涉及知识点:

  • 主成分分析(PCA)
  • 探索性因子分析(EFA)
  • 平行分析法
  • 碎石图

4.判别分析——【R 语言实现样本数据的判别分析】

该项目主要任务是根据已掌握的1批分类明确的样本数据,建立好判别函数,选择使产生错判的事例少的模型,进而对给定的待判样本,判断它来自哪个总体。根据不同的判别准则,可以分为距离判别、贝叶斯判别和费歇儿判别。

实验首先简单介绍了每种判别方法的判别准则函数,然后通过自编函数对判别函数进行实现,接着测试每种方法的判对率,选择出适合的模型,后,根据前面的学习运用线性判别对股票数据的涨跌情况进行再次预测。

涉及知识点:

  • 判别分析
  • 距离判别
  • Bayes 判别
  • Fisher 判别
  • 线性判别分析

下面是3个R语言的其他应用教程;

1.【R语言数据分析之正态性检验和平稳性检验】

正态性检验用于研究数据的正态性统计特性;平稳性检验用于研究时间序列稳定性。

该项目使用Kolmogorov-Smirnov 检验、Lilliefor 检验、Cramer-von Mises 检验、Anderson-Darling 检验Pearson 卡方检验、Shapiro-Francia 检验、Shapiro-Wilk's检验、D'Agostino检验、jarque-Bera 检验以及绘制 QQ 图等方法来检验正态性。同时也通过绘制简单的时序图、ACF图、DF检验、ADF检验、PP检验来实现数据的平稳性。

涉及知识点:

1)正态性检验

  • Kolmogorov-Smirnov 正态性检验
  • Lilliefor 正态性检验
  • Cramer-von Mises正态性检验
  • Anderson-Darling正态性检验
  • Pearson卡方正态性检验
  • Shapiro-Francia正态性检验
  • Shapiro-Wilk's正态检验
  • D'Agostino正态性检验
  • jarque-Bera正态性检验
  • 正态 QQ 图

2)平稳性检验

  • 时序图判断
  • ACF图判断
  • DF检验
  • ADF检验
  • PP检验

2.【R语言对高频交易订单流进行建模分析】

该项目利用hawkes process对高频交易的订单流数据进行建模,观察不同订单之间的关系以及整体的动力学。

实验列表:

3.【R语言绘制文字云】

该项目使用R语言中的文本分词包‘Rwordseg’对名著内容进行词频分析,再使用包‘wordcloud’绘制词云,实现数据可视化。

涉及知识点:

  • 数据挖掘的基本原理
  • R代码对《仲夏夜之梦》中关键词提取的具体实现
  • 分词包‘Rwordseg’的基本使用
  • 数据清洗的基本使用

后:

以上R语言教程希望能给你学习R语言带来帮助;

更多IT实战教程,点击实验楼即可查看、搜索自己感兴趣的项目进行学习;

相关文章