数据挖掘与分析 已结束
¥5600

课程介绍

  • 开课时间:2017 年 4 月 8-9 日

  • 上课时间:上午:9:00-12:00,下午13:30-16:30

  • 学习环境:线下小班

  • 课程周期:2天

  • 开课地点:广州


本课程基于开源大数据技术,如:Hadoop、Hive、Spark、R等,培养基于实战性数据分析和挖掘应用型人才为目标,结合实际案例,以金融、保险、电信、客户管理、互联网六个行业的数据分析/挖掘应用案例,基于实战需求,详细讲解整个案例的完整分析过程,并将分析/挖掘模型融于案例讲解之中,帮助学生突破方法和工具的局限,聚焦于对数据分析精髓的领悟和掌握。学生学习完毕,既能掌握常用的大数据分析工具的使用,又能掌握数据分析/挖掘的方法和实施过程,能胜任初级数据分析师岗位。

基于开源大数据分析和挖掘的市场需求是非常庞大,也是未来几年大数据领域的重要角色。

大咖导师


多年大数据分析类大型项目的架构实施经验,先后服务于北京大学软件研究所、高德软件、阿里巴巴和Teradata,实施过基于Hadoop平台PageRank算法的实现、高德大数据中心的建设(300+的Hadoop集群开发、优化、运维和提供服务)、阿里巴巴OPDS大数据平台维护、内蒙移动大数据平台试点(Hadoop)、台湾远传Hadoop平台开发和优化、兰州银行大数据平台的架构和开发(Hadoop)、招商银行的大数据咨询规划和设施。在大数据架构、数据集成、数据挖掘/机器学习、实时推荐和营销方面有丰富经验,了解大数据在互联网的使用场景。写过书,获得过专利。

课程大纲

一、基于Hadoop的数据分析

  • HDFS和MapReduce介绍

  • Hive介绍

  • Hive实战

  • Sql on Hadoop 介绍

  • 基于Hadoop数据分析步骤

  • 基于Hive的数据建模

  • 数据源的采集

  • 数据治理介绍

二、分析结果展示

  • 大数据展示工具介绍

  • Echarts使用介绍

  • Tableau工具介绍

  • Zepplin工具介绍

三、基于Spark 数据挖掘介绍

  • Spark框架介绍

  • Spark ML和Spark Mllib介绍

  • Spark GraphX介绍

  • SparkR介绍

四、聚类分析

  • 聚类分析的模型介绍

  • 数据源来源

  • 创建与配置聚类模型

  • 基于Spark Mllib Kmeans实现

  • 参数的调优

  • 基于SparkMllib用户分析案例实现

五、回归分析

  • 回归分析模型介绍

  • 数据来源

  • 基于SparkMllib LR实现

  • LR模型的参数调优

  • 基于SparkMllib用户打标签案例实现

六、推荐实现

  • 基于mllib的推荐系统实战

  • 基于Spark Mllib实现电影推荐案例

  • 推荐模型的优化

七、Spark Graphx数据挖掘

  • Spark Graphx介绍

  • 复杂社交网落分析实战

  • 图分析实战—银行担保圈案例实战

八、SparkR介绍

  • SparkR介绍和原理

  • 基于SparkR实现Kmeans案例

  • 基于SparkR实现LR案例

九、Spark Graphx数据挖掘

  • Spark + R实战

  • Spark Graphx介绍

  • 复杂社交网落分析实战

  • 图分析实战

课后收获

  • 了解常用数据挖掘的应用场景

  • 了解基于大数据平台的数据分析和挖掘常用技术

  • 可以使用大数据平台进行数据分析和挖掘

  • 可以基于spark实现数据分析和挖掘

适用人群

  1. 统计分析人员

  2. 大数据工程师

  3. 数据挖掘工程师

  4. 最好熟悉Spark架构、会使用Sql、可以基于Spark编程

  5. 对大数据分析和挖掘感兴趣的人

联系我们

点击预约报名,先占个座儿~

课程顾问: 15002200534

扫一扫,你想了解的都能问到