
王家林的云计算分布式大数据Hadoop最佳实践 本文关键词:分布式,实践,计算,数据,王家林
王家林的云计算分布式大数据Hadoop最佳实践 本文简介:一:课程简介:Hadoop天生是解决大数据高并发问题的,是一个能够对海量数据进行分布式处理的软件框架。互联网企业、金融机构、政府组织和云计算服务企业每天都会产生大量的数据并面临高并发的严峻考验,传统的关系型数据库已经无法满足大数据量高并发的要求,作为云计算实现规范和实施标准的Hadoop应运而生。使
王家林的云计算分布式大数据Hadoop最佳实践 本文内容:
一:课程简介:
Hadoop天生是解决大数据高并发问题的,
是一个能够对海量数据进行分布式处理的软件框架。互联网企业、金融机构、政府组织和云计算服务企业每天都会产生大量的数据并面临高并发的严峻考验,传统的关系型数据库已经无法满足大数据量高并发的要求,作为云计算实现规范和实施标准的Hadoop应运而生。
使用Hadoop,用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的、高效的、可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择。
“云计算分布式大数据Hadoop深入浅出案例驱动实战”基于实务经验萃取而成,从Hadoop开发环境的搭建到到图片服务器、WordCount实现、HBase微博系统、话单查询与统计、Hive数据统计案例、电商业日志流量分析项目理论结合实际案例,祝你轻松驾驭Hadoop以满足大数据的分布式处理与存储。
课程以MapReduce、HBase、Hive为主轴,想理解和使用Hadoop,就必须掌握这三大核心。
二:课程特色
1,
案例驱动教学,全程项目实战训练:图片服务器、WordCount实现、HBase微博系统、话单查询与统计、Hive数据统计案例、电商业日志流量分析;
2,
掌握Hadoop三大核心:MapReduce、HBase、Hive
3,
萃取出实际开发中最常用、最实用的内容并以深入浅出的方式把难点化于无形之中
三:适合对象:
软件工程师;
数据库开发人员;
网络后台开发人员;
运维人员;
四:基础要求
了解Linux系统;
了解网络;
了解Java;
五:讲师简介
Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发中国电信的多次Hadoop培训,花旗银行的Hadoop内训,金立手机的Hadoop内训等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;
Android架构师、高级工程师、咨询顾问、培训专家;
通晓Android、HTML5、Hadoop,迷恋英语播音和健美;
致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;
国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。
HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;
超过10本的IT畅销书作者;
;
六:培训内容
时间
内容
备注
第一天
第1个主题:Hadoop思考
1.Hadoop的设计目标和适用场景
2.Hadoop架构解析
3.MapReduce工作原理和案例说明
第2个主题:Hadoop集群与管理
1、
Hadoop集群的搭建
2、
Hadoop集群的监控
3、
Hadoop集群的管理
4、
集群下运行MapReduce程序
第3个主题:HDFS
1.
HDFS命令行操作实战
2.
HDFS的配置管理
3.
NameNode的工作机制
第4个主题:HDFS案例实战
1.
HDFS案例的分析和设计
2.
环境搭建
3.使用Hadoop
Java
API实现对HDFS写入、读取、删除文件等操作
第5个主题:MapReduce剖析
1.
MapReduce的原理和运行过程
2.
构建MapReduce的开发环境
第6个主题:MapReduce案例实战
1.
使用MapReduce的Java接口实现经典的WordCount
2.
wordcount运行过程解析
3.
MapReduce实现数据去重操作
4.
MapReduce实现数据排序
5.
MapReduce实现数据平均数据的计算
第7个主题:HBase架构设计和实现剖析
1、
HBase定义
2、
HBase与RDBMS的对比
3、
数据模型
4、
系统架构
5、
HBase上的MapReduce
6、
表的设计
第8个主题:HBase集群及其管理
1、
集群的搭建过程讲解
2、
集群的监控
3、
集群的管理
第9个主题:HBase客户端
1、
HBase
Shell以及演示
2、
Java客户端以及代码演示
时间
内容
备注
第二天
第1个主题:HBase案例实战1---使用HBase实现微博系统
1.
项目架构和设计
2.
开发环境搭建
3.
实现用户登录和注销
4.“关注”功能的设计和实现
5.“发微博”功能的设计和实现
6.发布和运行整个基于HBase的微博系统
第2个主题:HBase与MapReduce
1.
HBase与MapReduce的关系
2.
HBase如何使用MapReduce
第3个主题:HBase案例实战2---话单查询与统计
1.
项目架构设计
2.
开发环境搭建
3.
话单入库和查询的设计与实现
4.统计功能的设计与实现
第4个主题:MapReduce高级实战
1.
Split实现剖析
2.
自定义输入的实现
3.
Reduce的partition
4.
案例实战
第5个主题:安装和使用Hive
1.
Hive剖析
2.
安装Hive
3.Hive的基本使用
第6个主题:Hive与HDFS、MapReduce
1.
Hive向HDFS存入结构化数据
2.
使用MySQL作为Hive的元数据库
3.Hive与MapReduce
第7个主题:Hive
1.
Hive的Java扩展开发
2.
Hive
UDF和UDAF开发
3.
Hive常见场景,实战练习
时间
内容
备注
第三天
第1个主题:Hive案例实战---数据统计
1.
项目架构设计
2.
表结构设计
3.数据的插入与统计实现
第2个主题:Sqoop
1.
Sqoop原理
2.
Sqoop使用详解
3.
用Sqoop实现HDFS/Hive与关系数据库的数据交互
4.
用Sqoop实现HBase与关系数据库的数据交互
第3个主题:电商业日志流量分析项目
电商业日志流量分析项目,互联网企业对海量日志的分析是Hadoop应用的一个重要用途,也是对网站流量、客户行为分析的重要途径。该项目整合Hive、Hbase、Sqoop等常用组件,涉及从后台处理到前台呈现的每一个技术环节。包括:
1·业务需求介绍
2·数据建模
3·后台算法设计
4·后台业务处理
5·前台WEB展示等
第4个主题:Hadoop开发者之路
1.
Hadoop技能模型
2.
Hadoop开发者最佳学习路线和方式
3.Hadoop开发者最佳成长路线
