通过Cloudera公司的ApacheHadoop培训将您的知识提升到一个新的水平。
Cloudera大学提供的为期4天的数据分析培训课程专注于ApachePig、Hive和ClouderaImpala,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。Cloudera为数据专业人员提供了基于SQL和其它熟悉的脚本编程语言的工具,用来访问、操作、转换和分析复杂数据集。 学习掌握现代大数据分析工具 学员在本课程中将学习掌握以下现代大数据分析工具: ● ApacheImpala(孵化项目)作为一个SQL运行环境提供对Hadoop里的数据进行即时交互式分析的能力。 ● ApacheHive为数据分析师、数据库管理员以及其他非Java编程人员提供了一个类-SQL的查询语言HiveQL来分析处理Hadoop数据。 ● ApachePig提供脚本编程工具来分析处理Hadoop数据。 一.培训内容 通过讲师在课堂上的讲解,以及实操练习,学员将熟悉Hadoop生态系统,学习主题包括: ● 使用Pig,Hive及Impala获取、存储及分析数据。 ● 使用Hadoop工具执行基本的ETL工作(抽取-extract,转换-transform和加载-load)。 ● 使用Pig、Hive及Impala改善典型分析任务的效率。 ● 关联不同及丰富的数据源以获取全面和真实的商业价值。 ● 对数据集进行交互式和复杂查询。 二.培训对象及学员基础 本课程是专为数据分析师、商业智能专家、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备ApacheHadoop知识。 ● 需具备一定的SQL知识水平。 ● 基本熟悉Linux命令行。 ● 培训学员至少熟悉一种脚本语言知识(例如,Bash脚本编程、Perl、Python和Ruby)将会更有帮助,但不是必需的。 三.认证 结束本课程培训后,我们建议学员准备并注册参加ClouderaCCA数据分析师认证考试。通过并获得该证书是向公司及客户证明个人在Hadoop数据分析领域的技术和专长的有力依据。 四.课程大纲 1. Hadoop基础知识 ● Hadoop动机 ● Hadoop概览 ● 数据存储:HDFS ● 分布式数据处理:YARN、MapReduce和Spark ● 数据处理与分析:Pig、Hive和Impala ● 数据集成:Sqoop ● 其它的Hadoop数据工具 ● 练习分析场景说明 2. Pig简介 ● Pig是什么 ● Pig的特点 ● Pig使用案例 ● 与Pig的交互 3. Pig基本数据分析 ● PigLatin语法 ● 加载数据 ● 简单数据类型 ● 字段定义 ● 数据输出 ● 架构查看 ● 数据筛选和排序 ● 常用函数 4. 使用Pig处理复杂的数据 ● 数据存储格式 ● 复合/嵌套数据类型 ● 数据分组 ● 复杂数据内置函数 ● 遍历分组数据 5. Pig多数据集操作 ● 数据集合并技术 ● 在Pig中联接数据集 ● 集合运算 ● 拆分数据集 6. Pig故障诊断和性能优化 ● Pig故障排除 ● 日志 ● 使用Hadoop的WebUI ● 数据采样及调试 ● 性能概述 ● 了解执行计划 ● 提高Pig作业性能的技巧 7. Hive和Impala简介 ● 什么是Hive ● 什么是Impala ● 为什么使用Hive和Impala ● 架构和数据存储 ● Hive及Impala与传统数据库的比较 ● Hive使用案例 8. 使用Hive和Impala进行数据查询 ● 数据库和表 ● 基本的Hive和Impala查询语言语法 ● 数据类型 ● 使用Hue来执行查询 ● 使用Beeline(HiveShell) ● 使用ImpalaShell 9. Hive及Impala数据管理 ● 数据存储 ● 创建数据库和表 ● 加载数据 ● 修改数据库和表 ● 使用视图简化查询 ● 存储查询结果 10. 数据存储和性能 ● 对表进行分区 ● 分区表的数据加载 ● 何时使用分区 ● 文件格式的选取 ● 使用Avro及Parquet文件格式 11. 使用Hive和Impala进行关系数据分析 ● 连接数据集 ● 常见的内置函数 ● 聚合和窗口函数 12. 复杂数据类型 ● 在Hive里使用复杂数据 ● 在Impala里使用复杂数据 13. 使用Hive及Impala分析文本数据 ● 在Hive及Impala里使用正则表达式 ● 在Hive里通过SerDe加载处理文本 ● 情感分析及n-gram 14. Hive优化 ● 了解查询性能 ● Bucketing(分桶) ● 索引数据 ● HiveonSpark 15. Impala优化 ● Impala如何执行查询 ● 改善Impala性能 16. 扩展Hive及Impala ● 使用SerDe加载特殊格式文件 ● 通过定制脚本来转换数据 ● 用户自定义函数 ● 参数化查询 17. 选择最佳工具 ● 比较Pig、Hive、Impala和关系数据库该选择哪一个 18. 总结
Cloudera大数据课程体系