欢迎来到好培训网!

咨询热线 010-56133998

位置:北京好培训网 > 北京IT/计算机 > 北京软件开发 > 北京数据库开发

Spark大数据处理与案例分析高级工程师实战(北京,12月19-21日)

授课机构:北京曼顿企业管理咨询

地址:北京市海淀区中关村大街59号人民大学

网报价格:¥6800

课程原价:¥6800

咨询热线:010-56133998

课程详情 机构简介 机构地址 预约试听

关键词:Spark大数据处理

Spark大数据处理与案例分析高级工程师实战(北京,12月19-21日)
【举办单位】北京曼顿培训网 ***mdpxb***   中国培训资讯网 ***e71edu***
【咨询电话】4006820825   010-56133998  13810210257
【培训日期】
珠海,2018年11月21-23日;北京,2018年12月19-21日
杭州,2019年1月16-18日
【培训地点】珠海、北京、 杭州
【培训对象】各地企事业单位大数据产业相关人员,运营商 IT信息化和运维工程师相关人员,金融业信息化相关人员,或对大数据spark感兴趣的相关人员。

【课程背景】
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。Spark已经被不少互联网公司采用,大部分数据挖掘算法和迭代式算法在逐步MapReduce平台迁移到Spark平台中,包括阿里巴巴,腾讯,百度,优酷土豆,360,支付宝等互联网公司已经在线上产品中使用spark,且取得了令人满意的效果,另外,部分省份的运营商也正在尝试使用spark解决数据挖掘和分析问题,部分银行,如工商银行,也正在尝试spark平台。因此中心决定开展“Spark大数据处理与案例分析高级工程师”实战培训班,望相关单位收到通知后积极参加。

【课程目标】
1、深入理解Spark计算原理和编程模型,掌握Spark Core和SparkSql、SparkStreaming等上层系统的结合方式
2、深入掌握SparkCore、SparkSql使用调优技巧
3、深入掌握SparkStreaming和SparkMllib使用和调优技巧
4、深入掌握Spark和其他组件的结合使用
5、了解Spark与MapReduce分布式计算模型的区别和各自适合的使用场景。
6、能够使用java、python和scala进行spark应用开发(如果要讲解三种语言开发spark,工作量会非常大,建议只讲解一种(可以根据企业的要求来定,)
7、熟练使用spark、spark streaming、spark SQL、spark mllib
8、深入了解spark在大型互联网的架构和使用场景

【培训特色】
本课程基于最新的spark 2讲解,内容涵盖了企业中大数据处理的四大场景:
离线批处理、流式计算、SQL处理、机器学习。Spark是一个广泛应用的分布式内存计算模型,旨在大幅提升的迭代算法和交互低延迟数据挖掘的性能。Spark更适合于迭代运算比较多的ML和DM运算,one stack rule them all!Spark号称一个平台可以适合所有的应用,如SparkSql可以处理结构化数据,SparkStreaming旨在提供实时的计算能力,而SparkMllib则提供了丰富机器学习算法库。

【课程大纲】
模块一 Spark
2.1概述 
1、Spark产生背景,包括mapreduce缺陷,多计算框架并存等
2、Spark 基本特点
3、Spark版本演化
4、Spark核心概念,包括RDD, transformation, action, cache等
5、Spark生态系统,包括Spark生态系统构成,以及与Hadoop生态系统关系
6、Spark在互联网公司中的地位与应用
7、介绍当前互联网公司的Spark应用案例
 8、Spark集群搭建,包括测试集群搭建和生产环境中集群搭建方法,并亲手演示整个过程
 9、背景知识补充介绍
模块二
Spark Core  
Spark 程序设计与企业级应用案例
 1、Spark运行模式介绍
Spark运行组件构成,spark运行模式(local、standalone、mesos/yarn等)
2、Spark开发环境构建
集成开发环境选择,亲手演示spark程序开发与调试,spark运行
3、常见transformation与action用法
介绍常见transformation与action使用方法,以及代码片段剖析
4、常见控制函数介绍
包括cache、broadcast、accumulator等
5、Spark 应用案例:点击流日志分析
包括:背景介绍,数据导入,数据分析,常见Spark transformation和action用法在线演示
模块三    Spark
内部原理剖析与源码阅读  1、Spark运行模式剖析
 深入分析spark运行模式,包括local,standalone以及spark on yarn
 2、Spark运行流程剖析
 包括spark逻辑查询计划,物理查询计划以及分布式执行
 3、Spark shuffle剖析
 深入介绍spark shuffle的实现,主要介绍hash-based和sort-based两种实现
 4、Spark 源码阅读
 Spark源码构成以及阅读方法
模块三
Spark 
程序调优技巧 
1、数据存储格式调优数据存储格式选择,数据压缩算法选择等
 2、资源调优
如何设置合理的executor、cpu和内存数目,YARN多租户调度器合理设置,启用YARN的标签调度策略等
 3、程序参数调优
介绍常见的调优参数,包括避免不必要的文件分发,调整任务并发度,提高数据本地性,JVM参数调优,序列化等
4、程序实现调优
如何选择最合适的transformation与action函数
5、调优案例分享与演示
演示一个调优案例,如何将一个spark程序的性能逐步优化20倍以上。
模块四 Spark sql
2.1Spark SQL基本原理
  1、Spark SQL是什么
  2、Spark SQL基本原理
  3、Spark  Dataframe与DataSet
  4、Spark SQL与Spark Core的关系
模块五   
Spark SQL
程序设计与企业级应用案例  
1、Spark SQL程序设计
  a.  如何访问MySQL、HDFS等数据源,如何处理parquet格式数据
  b.  常用的DSL语法有哪些,如何使用
  c.  Spark SQL调优技巧
  d.  数据倾斜解决方案
模块六    Spark Streaming程序设计及应用案例 
1、Spark  Streaming基本原理
a.  Spark Streaming是什么
b.  Spark Streaming基本原理
c.  Structured Streaming
d.  Spark  Streaming 编程接口介绍
e.  Spark Streaming应用案例
  2、Spark  Streaming程序设计与企业级应用案例
 a.  常见流式数据处理模式
 b.  Spark Streaming与Kafka 交互
 c.  Spark Streaming与Redis交互
 d.  Spark Streaming部署与运行
 e.  Spark Streaming企业级案例:用户行为实时分析系统
模块七 Spark Mllib
Spark MLlib
企业级案例 
1.  Spark MLlib简介
2.  数据表示方式
3.  MLlib中的聚类、分类和推荐算法
4.  如何使用MLlib的算法
5.  Spark MLLib企业级案例:用户画像之性别预测
模块八 Spark综合案例
信用评分实时分析系统 
1.  背景介绍
2.  什么是Lambda architecture
3.  利用Spark Core+MLlib+构建离线处理
4.  利用flume+Spark Streaming+Redis构建实时处理线
5.  整合批处理和实时处理线
模块八 Spark综合案例
信用评分实时分析系统 
1.  背景介绍
2.  什么是Lambda architecture
3.  利用Spark Core+MLlib+构建离线处理
4.  利用flume+Spark Streaming+Redis构建实时处理线
5.  整合批处理和实时处理线
模块九 典型项目
案例实战 
■基于spark日志分析
■个性化推荐系统:带你揭开其神秘面纱
■在线投放引擎
■揭开淘宝点击推荐系统的神秘面纱
■淘宝数据服务架构—实时计算平台

【讲师介绍】
 张老师,曼顿培训网(***mdpxb*** )资深讲师。 阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。

【费用及报名】
1、费用:培训费6800元(含培训费、讲义费);如需食宿,会务组可统一安排,费用自理。
2、报名咨询:4006820825  010-56133998  56028090  13810210257   鲍老师
3、报名流程:电话登记-->填写报名表-->发出培训确认函
4、备注:如课程已过期,请访问我们的网站,查询最新课程
5、详细资料请访问北京曼顿培训网:***mdpxb*** (每月在全国开设四百多门公开课,欢迎报名学习)

 


北京曼顿企业管理咨询简介

北京曼顿企业管理咨询有限公司(以下简称北京曼顿咨询)成立于2005年,旗下网站为曼顿培训网,是国内较早一批专业的综合性的培训单位之一。是总部位于美国的国际职业认证标准联合会在北京地区授权的培训考试及认证单位[认证号:IOCL086132],同时也是香港培训认证中心授权的培训认证机构[认证号:HKTCC(GZ)A10-11221]。本单位主要从事企业管理、项目管理、市场营销和人力资源管理方面的咨询培训服务。历经多年的发展,已经为近千家企业提供过各种形式的咨询培训服务,客户涵盖了电子电器、通讯、计算机IT行业、金融保险、建材、化工、食品、机械、服装/鞋业、礼品包装、塑胶五金/模具、电线电缆等十几个行业领域,在业界具有广泛的权威和影响力。本单位师资由资深顾问以及业界知名专家组成,顾问师2/3为硕士研究(MBA)以上学历。我们的专家团队基本都来自于财富500企业,具有丰富的实战经验和系统全面的理论知识。

曼顿培训网,是北京曼顿企业管理咨询有限公司(以下简称北京曼顿咨询)旗下网站。是总部位于美国的国际职业认证标准联合会在北京地区授权的培训考试及认证单位[认证号:IOCL086132],同时也是香港培训认证中心授权的培训认证机构[认证号:HKTCC(GZ)A10-11221]。本单位主要从事企业管理、项目管理、市场营销和和人力资源管理方面的咨询培训服务。历经多年的发展,已经为近千家企业提供过各种形式的咨询培训服务,客户涵盖了电子电器、通讯、计算机IT行业、金融保险、建材、化工、食品、机械、服装/鞋业、礼品包装、塑胶五金/模具、电线电缆等十几个行业领域,在业界具有广泛的权威和影响力。本单位师资由资深顾以及业界知名专家组成,顾问师2/3为硕士研究(MBA)以上学历。我们的专家团队基本都来自于财富500企业,具有丰富的实战经验和系统全面的理论知识。


公开课方面,北京曼顿咨询每年在上海、天津、北京、广州、深圳、杭州、苏州、宁波、南京、青岛、合肥、武汉、长沙等城市定期举办公开课程,每年有上千期公开课程成功举办,学员来自各行各业,遍布全国各区域。每年在国内的公开课数量在同类公司中也高居前列,为企业、职业经理人以及爱学习人士提供了有力的培训信息保障。
企业内训方面,自成立以来,一直致力于开发适合中国企业的运营管理实务内训课程,我们已开展了数百场的内训课程。
通过多年的探索与实践,我们的内训课程更加体现个性化需求,内训解决方案更科学合理,具有极强实战性与可操作性。
本公司已为世界500强企业中的120多家企业提供过内训实施及信息服务,典型客户包括工商分行、东风雪铁龙、可口可乐、
本田、上汽、3M、三洋、中石油、中石化、西门子、波音、大众汽车、通用汽车等,满意度高达95%以上。
我们的企业文化:
愿    景:成为倍受社会尊重的专业管理咨询培训机构
使    命:培养经世致用的人才,提升个人与组织的能力
行为准则:严谨   务实    高效
公司地址:北京市丰台区文体路23号世纪商务写字楼

联系电话:010-56028090
公开课方面,北京曼顿咨询每年在上海、天津、北京、广州、深圳、杭州、苏州、宁波、南京、青岛、合肥、武汉、长沙等城市定期举办公开课程,每年有上千期公开课程成功举办,学员来自各行各业,遍布全国各区域。每年在国内的公开课数量在同类公司中也高居前列,为企业、职业经理人以及爱学习人士提供了有力的培训信息保障。

  • 学校名称:北京曼顿企业管理咨询

    固定电话:010-56133998

    授课地址:北京市海淀区中关村大街59号人民大学 免费参观