定 价:48 元
丛书名:
- 作者:廖丽
- 出版时间:2025/9/1
- ISBN:9787121504570
- 出 版 社:电子工业出版社
适用读者:本书可作为培训机构的专业培训教材,以及高等院校大数据技术专业课程的优质教学用书,可助力培养理论与实践统一的大数据专业人才。
- 中图法分类:TP274
- 页码:232
- 纸张:
- 版次:01
- 开本:16开
- 字数:371.200012207031(单位:千字)
本书以项目实战为核心载体,采用任务驱动教学模式,系统且深入地解析Hadoop生态圈中主流的大数据开发技术。全书精心编排 7个项目,从Hadoop的基础理论入门,逐步深入到Hadoop集群环境配置、Hadoop分布式文件系统、MapReduce分布式计算框架,再到 MapReduce离线数据处理、基于Hive的离线数据分析,最后以综合项目实战,构建起完整的知识体系。书中提供了详细且易操作的步骤指引,即便是零基础的读者,也能通过练习,顺利搭建稳定的Hadoop集群,并独立完成复杂的项目开发。本书兼具通俗易懂的语言表达与丰富实用的技术细节的特点,不仅是大数据开发初学者夯实基础的“入门宝典”,也是大数据运维人员优化技能、大数据分析与挖掘从业者提升实战能力的“进阶指南”。此外,本书可作为培训机构的专业培训教材,以及高等院校大数据技术专业课程的优质教学用书,可助力培养理论与实践统一的大数据专业人才。
廖丽,女,副教授,毕业于重庆大学,现就职于重庆城市职业学院,兼任重庆城市职业学院科大讯飞大数据学院发展中心主任一职;主要从事大数据技术专业、计算机应用技术专业的教学、科研工作,曾以第一主编身份编写教材《Java程序设计理实一体化教程》《Java Web程序设计项目实战》;在2024“一带一路”暨金砖国家技能发展与技术创新大赛Python程序开发赛项全国总决赛中指导学生获一等奖,并荣获“优秀指导老师”。
目 录
项目一 Hadoop 介绍 1
【思维导图】 1
【项目导入】 1
任务 1.1 大数据概述 1
1.1.1 了解大数据 1
1.1.2 大数据的特征 2
1.1.3 大数据的应用领域 3
1.1.4 拓展提升 4
任务 1.2 Hadoop 生态圈 5
1.2.1 Hadoop 发展历史 5
1.2.2 Hadoop 的优势 5
1.2.3 Hadoop 1.x 和 Hadoop 2.x 的区别 6
1.2.4 Hadoop 生态组件 7
1.2.5 拓展提升 8
【动手练习】 9
【课后习题】 9
项目二 Hadoop 集群环境配置 10
【思维导图】 10
【项目导入】 10
任务 2.1 安装和配置虚拟机 11
2.1.1 安装 VMware虚拟机软件 11
2.1.2 部署 CentOS 7 16
2.1.3 Linux 操作系统网络配置 29
2.1.4 虚拟机克隆 36
2.1.5 主机名与 IP 地址映射配置 40
2.1.6 虚拟机远程连接 42
2.1.7 关闭防火墙 45
2.1.8 拓展提升 45
任务 2.2 完全分布式集群搭建 48
2.2.1 JDK 安装与测试 48
2.2.2 SSH 免密登录配置 50
2.2.3 时间同步服务配置 53
2.2.4 Hadoop 安装 55
2.2.5 Hadoop 集群配置 57
2.2.6 集群启动与关闭 61
2.2.7 拓展提升 63
【动手练习】 66
【课后习题】 66
项目三 HDFS 分布式文件系统 68
【思维导图】 68
【项目导入】 68
任务 3.1 HDFS 简介 69
3.1.1 HDFS 定义 69
3.1.2 HDFS 体系结构 69
3.1.3 HDFS Shell 命令 70
3.1.4 拓展提升 79
任务 3.2 HDFS 的 Java API 操作 81
3.2.1 HDFS 常见类与接口 81
3.2.2 FileSystem 的常用方法 82
3.2.3 HDFS 创建目录 82
3.2.4 HDFS 创建文件 88
3.2.5 HDFS 文件上传 89
3.2.6 HDFS 文件下载 90
3.2.7 HDFS 文件删除 90
3.2.8 HDFS 文件名更改 91
3.2.9 HDFS 文件详情查看 92
3.2.10 HDFS 文件和目录判断 93
3.2.11 拓展提升 94
【动手练习】 95
【课后习题】 96
项目四 MapReduce 分布式计算框架 97
【思维导图】 97
【项目导入】 97
任务 4.1 MapReduce 简介 97
4.1.1 设计思路 98
4.1.2 任务流程 99
4.1.3 工作原理 100
4.1.4 拓展提升 102
任务 4.2 MapReduce 程序编写 103
4.2.1 MapReduce 编程组件 103
4.2.2 MapReduce 程序编写 104
4.2.3 拓展提升 108
【动手练习】 108
【课后习题】 109
项目五 MapReduce 离线数据处理 110
【思维导图】 110
【项目导入】 111
任务 5.1 酒店数据清洗 111
5.1.1 任务需求 111
5.1.2 设计思路 111
5.1.3 基础准备 111
5.1.4 程序编写 114
5.1.5 程序运行 116
5.1.6 程序打包 117
5.1.7 集群运行 118
5.1.8 拓展提升 119
任务 5.2 MapReduce 计算平均成绩 121
5.2.1 任务需求 121
5.2.2 设计思路 121
5.2.3 程序编写 122
5.2.4 程序运行 124
5.2.5 拓展提升 125
任务 5.3 高考成绩统计分析 125
5.3.1 任务需求 125
5.3.2 设计思路 126
5.3.3 程序编写 126
5.3.4 程序运行 131
5.3.5 拓展提升 132
任务 5.4 MapReduce 在商品推荐中的应用 133
5.4.1 任务需求 133
5.4.2 设计思路 133
5.4.3 程序编写 135
5.4.4 程序运行 147
5.4.5 拓展提升 148
【动手练习】 148
【课后习题】 148
项目六 基于 Hive 的离线数据分析 150
【思维导图】 150
【项目导入】 151
任务 6.1 认识 Hive 数据仓库 151
6.1.1 Hive 体系架构 151
6.1.2 Hive 的三种运行模式 153
6.1.3 Hive 数据类型 154
6.1.4 拓展提升 155
任务 6.2 Hive 部署 156
6.2.1 Hive 部署之内嵌模式 156
6.2.2 Hive 部署之本地模式 160
6.2.3 Hive 部署之远程模式 168
6.2.4 拓展提升 171
任务 6.3 Hive 数据库操作 171
6.3.1 创建数据库 171
6.3.2 显示数据库 172
6.3.3 查看数据库信息 173
6.3.4 修改数据库信息 173
6.3.5 选择数据库 174
6.3.6 删除数据库 174
6.3.7 拓展提升 174
6.4 Hive 表操作 174
6.4.1 创建 Hive 表的语法 174
6.4.2 内部表操作 175
6.4.3 外部表操作 176
6.4.4 分区表的操作 177
6.4.5 分桶表的操作 181
6.4.6 拓展提升 183
任务 6.5 Hive 表的查询 184
6.5.1 select查询 184
6.5.2 join 连接查询 192
6.5.3 拓展提升 194
【动手练习】 196
【课后习题】 197
项目七 综合项目实践 199
【思维导图】 199
【项目导入】 199
任务 7.1 项目基础知识 200
7.1.1 数据清洗简介 200
7.1.2 数据分析简介 202
7.1.3 数据可视化简介 202
7.1.4 ECharts 可视化简介 203
7.1.5 拓展提升 206
任务 7.2 电商数据分析与可视化 206
7.2.1 任务需求 206
7.2.2 设计思路 206
7.2.3 程序编写 207
7.2.4 程序运行 221
7.2.5 拓展提升 222
【动手练习】 222
【课后习题】 222