一、数据挖掘入门篇
1、R语言快速入门
课程介绍:学完本课程,掌握R及RStudio工具在windows的安装及使用,了解R的工作空间和包。
R语言优势
windows安装R和RStudio
R基本知识
如何查看帮助文档
R的工作空间
R包的安装和使用
2、R语言数据对象
课程介绍:深入了解R语言不同数据对象创建及使用,掌握数据子集提取的不同方法。
向量
矩阵
数组
列表
数据框
3、数据读入
课程介绍:通过本课程学习,掌握文本文件、非结构化文件、excel文件的读入方式;掌握R语言与mysql数据库的连接方式及数据读取及操作;掌握quantmod包爬取金融数据的基本操作。
利用Rstudio导入数据
读入csv/txt格式数据
读入非结构化文本数据
读入Excel数据
读入数据库数据(MySQL)
网络数据爬取技术
4、数据基本管理
课程介绍:掌握常用的数据管理技巧及会编写简单的分支和循环语句。
创建新变量
变量的重新编码
变量重命名
变量虚拟化处理详解
粘贴函数详解
转换函数transform介绍
排序函数(sort、order、rank)详解
选定特定行或者子集的subset函数详解
sqldf包介绍
apply家族
循环和判断语句
5、描述性统计分析
课程介绍:掌握R语言常用的位置度量统计指标,对数据进行描述性统计分析和频数统计。
均值函数的介绍及参数trim详解
median函数详解
百分位数quantile函数详解
方差var及标准差sd函数详解
常用描述性统计函数
分组进行描述性统计分析
频数统计
6、R语言绘图基础之常用参数设置
课程介绍:掌握R常用图形参数(颜色、点、线、文字)的调整。
R语言绘图基础及颜色参数col详解
主题配色函数详解
RColorBrewer颜色扩展包详解
文字元素相关参数设置详解
点元素相关参数设置详解
线元素相关参数设置详解
7、R语言绘图基础之低级绘图函数
课程介绍:低级绘图函数(标题、图例、坐标轴、点、线)的函数使用。
标题设置详解
坐标轴axis函数详解
图例函数legend详解
网格线grid、点point、文字text函数介绍
线函数abline、lines详解
8、R语言绘图基础之高级绘图函数
课程介绍:基础包中常用高级绘图函数的用法和图形解读。
基础包中常见绘图函数
散点图、散点图矩阵、高密度散点图、三维散点图以及气泡图详解
线图、点图、直方图、核密度图箱线图
9、R语言绘图高级篇之ggplot2包
课程介绍:灵活应用ggplot2包对复杂数据进行可视化。
ggplot2包绘图特色
qplot函数
几何对象
图形属性
向图中添加拟合线
分面
主题函数
ggplot作图
简单条形图
绘制簇状条形图
条形图着色
添加数据标签
绘制点图
ggthemes主题包
ggExtra包
10、R语言绘图高级篇之交互式绘图
课程介绍:利用各种扩展包将你的图表动起来。
rCharts包安装及小例子演示
nPlot、hPlot、mPlot函数详解
recharts包介绍及散点图案例演示
rbokeh包介绍及案例演示
其他交互包的介绍
11、玩转shiny--快速搭建数据挖掘平台
课程介绍:掌握shiny及shinydashboard包的知识点,通过实际案例详解让学员达到自行搭建网页app应用的能力。
shiny学习资料
shiny简介
shiny组成
程序运行
HTML5函数
控件函数
K-Means聚类平台搭建
shinydashboard包介绍
改造K-Means的app应用
案例:LTV预测平台
12、R语言之数据探索
课程介绍:通过本课程学习,理解数据质量分析的重要性;掌握缺失值高级处理的方法;通过数据分析手段分析异常值。
缺失值处理的步骤和常用方法介绍
识别缺失值(is.na和complete.cases函数详解)
md.pattern函数详解
探索缺失值模式:aggr函数详解
缺失值处理:行删除和利用缺失值进行替换
利用线性回归和随机森林对缺失值进行插补
异常值处理之qcc质量控制图
异常值处理之箱线图
异常值处理之聚类分析
二、R语言模型篇
介绍:掌握常用经典挖掘算法,包括线性回归、聚类分析及关联规则的基本原理及R语言实现;通过案例带领大家进行实战;并学习机器学习算法,包括KNN近邻、决策树、bagging、boosting和随机森林等分类算法,让大家能掌握多种工具应付日常的预测需求。
13、R语言模型篇:线性回归模型
线性回归原理介绍
线性回归模型案例演示
逻辑回归基本原理及R语言实现
利用logit回归对病患者进行识别
利用logit对信用卡评分模型进行研究
14、R语言模型篇:聚类分析
聚类算法及聚类知识介绍
常用聚类算法及R语言实现
K-Means聚类案例演示
层次聚类案例演示
15、R语言模型篇:关联规则
关联规则原理及R语言实现
关联规则可视化包arulesViz介绍
关联规则案例演示
16、R语言模型篇:KNN近邻分类
KNN近邻算法基本原理及K值的选择方法
KNN算法距离准备及KNN R语言实现
案例一:用KNN算法对鸢尾花分类进行识别
案例二:用KNN算法诊断乳腺癌
案例三:用KNN算法对汽车类型进行识别
17、R语言模型篇:决策树分类
决策树算法基本原理
ID3算法举例
决策树R语言实现
决策树案例演示
18、R语言模型篇:组合方法
组合方法基本原理及adaboost算法R语言实现
agging分类R语言实现
随机森林及R语言实现
三、Rattle篇
介绍:作为优秀的统计软件包,R语言也提供了强大的数据挖掘工具,但是这些工具分散在数以百计的R 包之中,而且写脚本和编程往往也会成为快速解决问题的障碍。rattle包的出现很好的解决了这个问题。
19、数据挖掘可视化工具:Rattle篇
Rattle工具介绍
Rattle的常用功能介绍
Rattle 导入数据
Rattle数据探索
Rattle建立模型
Rattle模型评估
综合案例演示
四、案例篇
20、行业案例分享
案例一:航空公司客户价值分析
项目背景
数据解读
数据处理
数据探索
用户分群
结果解读
案例二:对玩家付费行为进行预测
项目背景
数据解读
数据转换
构建模型
模型评估