数据科学家进阶之路:3个月成为R语言数据分析师 报名中
¥1999 (原价¥4999)

课程介绍

秒杀价:1999元

开班时间:2017年9月8日

上课周期:3个月共72课时(1课时=40分钟)

上课时间:暂定每周一、周五晚8:30-10:30

学习形式:直播视频讲解 + 交流答疑

学习环境:专属学习微信群 + 在线直播教室


从零开始,包括R语言入门、数据基本统计分析、数据探索、数据可视化、数据建模、模型评估等内容,涵盖了整个数据挖掘解决方案的整个过程。

大咖导师


微软MVP,资深R语言用户,有九年以上数据挖掘工作实战经验,多次在中国R语言大会上作主题演讲。业界知名讲师,曾培训过《R语言基础培训》,《数据分析之R语言实战》,《R语言十三式》,《Rattle:可视化数据挖掘工具》。《R语言与数据挖掘》和《数据实践之美》著者之一,新书《R语言游戏数据分析与挖掘》一书也即将出版。

课程大纲

一、数据挖掘入门篇

1、R语言快速入门

课程介绍:学完本课程,掌握R及RStudio工具在windows的安装及使用,了解R的工作空间和包。

  • R语言优势

  • windows安装R和RStudio

  • R基本知识

  • 如何查看帮助文档

  • R的工作空间

  • R包的安装和使用

2、R语言数据对象

课程介绍:深入了解R语言不同数据对象创建及使用,掌握数据子集提取的不同方法。

  • 向量

  • 矩阵

  • 数组

  • 列表

  • 数据框

3、数据读入

课程介绍:通过本课程学习,掌握文本文件、非结构化文件、excel文件的读入方式;掌握R语言与mysql数据库的连接方式及数据读取及操作;掌握quantmod包爬取金融数据的基本操作。

  • 利用Rstudio导入数据

  • 读入csv/txt格式数据

  • 读入非结构化文本数据

  • 读入Excel数据

  • 读入数据库数据(MySQL)

  • 网络数据爬取技术

4、数据基本管理

课程介绍:掌握常用的数据管理技巧及会编写简单的分支和循环语句。

  • 创建新变量

  • 变量的重新编码

  • 变量重命名

  • 变量虚拟化处理详解

  • 粘贴函数详解

  • 转换函数transform介绍

  • 排序函数(sort、order、rank)详解

  • 选定特定行或者子集的subset函数详解

  • sqldf包介绍

  • apply家族

  • 循环和判断语句

5、描述性统计分析

课程介绍:掌握R语言常用的位置度量统计指标,对数据进行描述性统计分析和频数统计。

  • 均值函数的介绍及参数trim详解

  • median函数详解

  • 百分位数quantile函数详解

  • 方差var及标准差sd函数详解

  • 常用描述性统计函数

  • 分组进行描述性统计分析

  • 频数统计

6、R语言绘图基础之常用参数设置

课程介绍:掌握R常用图形参数(颜色、点、线、文字)的调整。

  • R语言绘图基础及颜色参数col详解

  • 主题配色函数详解

  • RColorBrewer颜色扩展包详解

  • 文字元素相关参数设置详解

  • 点元素相关参数设置详解

  • 线元素相关参数设置详解

7、R语言绘图基础之低级绘图函数

课程介绍:低级绘图函数(标题、图例、坐标轴、点、线)的函数使用。

  • 标题设置详解

  • 坐标轴axis函数详解

  • 图例函数legend详解

  • 网格线grid、点point、文字text函数介绍

  • 线函数abline、lines详解

8、R语言绘图基础之高级绘图函数

课程介绍:基础包中常用高级绘图函数的用法和图形解读。

  • 基础包中常见绘图函数

  • 散点图、散点图矩阵、高密度散点图、三维散点图以及气泡图详解

  • 线图、点图、直方图、核密度图箱线图

9、R语言绘图高级篇之ggplot2包

课程介绍:灵活应用ggplot2包对复杂数据进行可视化。

  • ggplot2包绘图特色

  • qplot函数

  • 几何对象

  • 图形属性

  • 向图中添加拟合线

  • 分面

  • 主题函数

  • ggplot作图

  • 简单条形图

  • 绘制簇状条形图

  • 条形图着色

  • 添加数据标签

  • 绘制点图

  • ggthemes主题包

  • ggExtra包

10、R语言绘图高级篇之交互式绘图

课程介绍:利用各种扩展包将你的图表动起来。

  • rCharts包安装及小例子演示

  • nPlot、hPlot、mPlot函数详解

  • recharts包介绍及散点图案例演示

  • rbokeh包介绍及案例演示

  • 其他交互包的介绍

11、玩转shiny--快速搭建数据挖掘平台

课程介绍:掌握shiny及shinydashboard包的知识点,通过实际案例详解让学员达到自行搭建网页app应用的能力。

  • shiny学习资料

  • shiny简介

  • shiny组成

  • 程序运行

  • HTML5函数

  • 控件函数

  • K-Means聚类平台搭建

  • shinydashboard包介绍

  • 改造K-Means的app应用

  • 案例:LTV预测平台

12、R语言之数据探索

课程介绍:通过本课程学习,理解数据质量分析的重要性;掌握缺失值高级处理的方法;通过数据分析手段分析异常值。

  • 缺失值处理的步骤和常用方法介绍

  • 识别缺失值(is.na和complete.cases函数详解)

  • md.pattern函数详解

  • 探索缺失值模式:aggr函数详解

  • 缺失值处理:行删除和利用缺失值进行替换

  • 利用线性回归和随机森林对缺失值进行插补

  • 异常值处理之qcc质量控制图

  • 异常值处理之箱线图

  • 异常值处理之聚类分析

二、R语言模型篇

介绍:掌握常用经典挖掘算法,包括线性回归、聚类分析及关联规则的基本原理及R语言实现;通过案例带领大家进行实战;并学习机器学习算法,包括KNN近邻、决策树、bagging、boosting和随机森林等分类算法,让大家能掌握多种工具应付日常的预测需求。

13、R语言模型篇:线性回归模型

  • 线性回归原理介绍

  • 线性回归模型案例演示

  • 逻辑回归基本原理及R语言实现

  • 利用logit回归对病患者进行识别

  • 利用logit对信用卡评分模型进行研究

14、R语言模型篇:聚类分析

  • 聚类算法及聚类知识介绍

  • 常用聚类算法及R语言实现

  • K-Means聚类案例演示

  • 层次聚类案例演示

15、R语言模型篇:关联规则

  • 关联规则原理及R语言实现

  • 关联规则可视化包arulesViz介绍

  • 关联规则案例演示

16、R语言模型篇:KNN近邻分类

  • KNN近邻算法基本原理及K值的选择方法

  • KNN算法距离准备及KNN R语言实现

  • 案例一:用KNN算法对鸢尾花分类进行识别

  • 案例二:用KNN算法诊断乳腺癌

  • 案例三:用KNN算法对汽车类型进行识别

17、R语言模型篇:决策树分类

  • 决策树算法基本原理

  • ID3算法举例

  • 决策树R语言实现

  • 决策树案例演示

18、R语言模型篇:组合方法

  • 组合方法基本原理及adaboost算法R语言实现

  • agging分类R语言实现

  • 随机森林及R语言实现

三、Rattle篇

介绍:作为优秀的统计软件包,R语言也提供了强大的数据挖掘工具,但是这些工具分散在数以百计的R 包之中,而且写脚本和编程往往也会成为快速解决问题的障碍。rattle包的出现很好的解决了这个问题。

19、数据挖掘可视化工具:Rattle篇

  • Rattle工具介绍

  • Rattle的常用功能介绍

  • Rattle 导入数据

  • Rattle数据探索

  • Rattle建立模型

  • Rattle模型评估

  • 综合案例演示

四、案例篇

20、行业案例分享

  • 案例一:航空公司客户价值分析

  • 项目背景

  • 数据解读

  • 数据处理

  • 数据探索

  • 用户分群

  • 结果解读

  • 案例二:对玩家付费行为进行预测

  • 项目背景

  • 数据解读

  • 数据转换

  • 构建模型

  • 模型评估

课后收获

新手完全能够通过学习本课程,变身成为数据挖掘分析师,能胜任数据挖掘工作;数据从业者也可以通过本课程进行查漏补缺,掌握更灵活的数据挖掘方法。

  • 掌握数据预处理和数据探索能力

  • 掌握数据可视化的基本和高级技能

  • 掌握数据挖掘建模及模型评估能力

适用人群

数据从业者、数据挖掘工程师、数据爱好者、高校老师、有志从事数据挖掘分析的大四学生/研究生

联系我们

扫一扫,加小助手咨询课程详情

image