定 价:59.8 元
丛书名:
- 作者:贾海蓉
- 出版时间:2026/2/1
- ISBN:9787121522161
- 出 版 社:电子工业出版社
适用读者:本书可以作为高等院校电子信息工程、通信工程、自动化、计算机技术与应用等专业高年级本科生相关课程的教材,也可供从事音视频信号处理研究的研究生和科研人员参考。
- 中图法分类:TP317.53;TP312.8
- 页码:272
- 纸张:
- 版次:01
- 开本:16开
- 字数:480(单位:千字)
本书系统地阐述数字音视频技术的原理、标准、技术和应用,同时给出部分内容对应的Python实现程序。全书共10章,第1~3章介绍基本理论,包括数字音视频技术概述、人类发音及听觉基础、人类视觉及感知基础;第4~6章介绍音视频标准,包括经典语音与音频编码标准、新一代语音与音频编码标准、视频编码原理与标准;第7、8章介绍基于深度学习的技术,包括深度学习驱动的视觉技术、多模态音视频处理技术及应用;第9、10章介绍系统实践,包括AR/VR沉浸式交互系统、数字音视频技术开发实践与工具。本书内容全面,重点突出,原理阐述深入浅出,注重理论与实际应用的结合,可读性强。本书可以作为高等院校电子信息工程、通信工程、自动化、计算机技术与应用等专业高年级本科生相关课程的教材,也可供从事音视频信号处理研究的研究生和科研人员参考。
贾海蓉,太原理工大学教授,硕士生导师,CCF专业会员,计算机工程、计算机工程与应用等期刊审稿人,主要从事语音信号处理与人工智能研究,担任并参与国家级"数字音视频技术”课程建设。
第1章 数字音视频技术概述 1
1.1 音视频技术的发展历程 1
1.2 数字音视频关键技术 2
1.2.1 数字音视频系统的处理流程 2
1.2.2 数字音视频关键技术 3
1.3 数字音视频技术的应用 9
1.4 技术挑战和发展趋势 11
习题1 13
第2章 人类发音及听觉基础 14
2.1 人类语音发音模型与特征 14
2.1.1 人类语音发音模型 14
2.1.2 语音信号的预处理 15
2.1.3 语音信号的特征 23
2.2 人类的听觉模型及特性分析 45
2.2.1 人类的听觉模型 45
2.2.2 声音的特性参数 46
2.2.3 人耳听觉特性分析 49
习题2 52
第3章 人类视觉及感知基础 53
3.1 视觉模型与特性 53
3.1.1 人眼构造 53
3.1.2 可见光谱 54
3.1.3 亮度与颜色视觉 55
3.1.4 视觉特性 56
3.2 立体视觉 58
3.3 彩色模型 60
3.3.1 三基色原理与相加混色 60
3.3.2 彩度学模型 61
3.3.3 工业彩色模型 63
3.3.4 HSI模型 64
习题3 67
第4章 经典语音与音频编码标准 68
4.1 语音与音频编码分类 68
4.2 波形编码—ADPCM 70
4.3 参数编码—线性预测编码 71
4.3.1 线性预测分析原理 71
4.3.2 线性预测分析原理和语音信号模型的关系 72
4.3.3 LPC-10编码 73
4.4 混合编码 74
4.4.1 自适应预测编码(APC) 74
4.4.2 CELP编码 79
4.5 感知音频编码原理 81
4.5.1 MPEG-1音频编码 81
4.5.2 MPEG-2音频编码 94
4.5.3 MPEG-4音频编码 98
习题4 100
第5章 新一代语音与音频编码标准 101
5.1 Opus编码 101
5.1.1 Opus编码原理 101
5.1.2 核心编码原理 102
5.2 EVS编码 105
5.2.1 EVS的编码模式与工作原理 105
5.2.2 EVS编码器的信号处理流程 105
5.3 AVS3-P10编码 109
5.3.1 实时通信语音编解码框架 109
5.3.2 AVS3-P10核心技术 110
5.3.3 典型应用场景与未来挑战 114
5.4 端到端神经网络编码 114
5.4.1 神经网络基础模型 115
5.4.2 Lyra架构解析 117
5.4.3 SoundStream架构解析 120
习题5 127
第6章 视频编码原理与标准 128
6.1 预测编码 128
6.1.1 帧内预测编码 128
6.1.2 帧间预测编码 131
6.1.3 运动估计 133
6.2 变换编码 137
6.2.1 整数DCT变换 138
6.2.2 现代视频编码标准中的变换技术 140
6.3 熵编码 140
6.3.1 CAVLC 141
6.3.2 CABAC 141
6.4 主流视频编码标准技术对比与核心差异 142
6.4.1 H.266/VVC 142
6.4.2 AV1 148
6.4.3 LCEVC 150
6.4.4 AVS3 151
6.4.5 主流视频编码对比 154
习题6 154
第7章 深度学习驱动的视觉技术 156
7.1 深度学习视觉基础 156
7.1.1 卷积神经网络架构与视频时序建模 156
7.1.2 视频数据预处理 157
7.1.3 经典模型 158
7.2 高级视觉任务 161
7.2.1 视频目标检测 161
7.2.2 视频语义分割 168
7.2.3 动作识别 171
7.2.4 视频生成 174
7.3 3D视觉 176
习题7 176
第8章 多模态音视频处理技术及应用 178
8.1 多模态技术应用概述 178
8.1.1 多模态感知 178
8.1.2 常见模态及其特征表示方式 179
8.1.3 多模态信息融合 180
8.2 音视频模态在语音增强中的应用 180
8.2.1 基于视觉线索的语音增强 181
8.2.2 基于卷积和门控注意力机制的两阶段视听语音增强算法 181
8.3 音视频模态在情绪识别中的应用 186
8.3.1 情绪识别中的多模态信号及识别模型 187
8.3.2 教育评估、心理健康监测与智能客服 188
8.3.3 基于教师引导的多模态融合对话情感识别网络 189
8.4 音视频模态在工业检测与安全生产中的应用 195
8.4.1 设备故障预警 195
8.4.2 矿山系统安全监控 196
8.4.3 基于音视频模态的输送带撕裂检测算法 197
习题8 198
第9章 AR/VR沉浸式交互系统 199
9.1 公共数据库 199
9.1.1 全景视频 199
9.1.2 点云数据 200
9.2 空间感知与定位 204
9.2.1 全景投影转换 204
9.2.2 视觉定位 206
9.2.3 多传感器融合 209
9.3 沉浸式媒体压缩与传输 215
9.3.1 全景视频编码 215
9.3.2 空间音频压缩 219
9.3.3 点云压缩 220
9.4 沉浸式显示与音频呈现 223
9.4.1 近眼显示技术 223
9.4.2 光场显示技术 224
9.4.3 沉浸式音频 225
9.5 沉浸式交互系统应用 225
9.5.1 工业AR巡检系统 226
9.5.2 VR全景视频传输系统 227
习题9 229
第10章 数字音视频技术开发实践与工具 230
10.1 多媒体处理工具FFmpeg 230
10.1.1 FFmpeg下载安装 230
10.1.2 FFmpeg转码实战(命令行) 232
10.1.3 FFmpeg流媒体推拉实战(命令行) 233
10.1.4 FFmpeg转码实战(Python) 235
10.1.5 FFmpeg流媒体推拉实战(Python) 236
10.2 AI端部署 237
10.2.1 数字识别模型搭建 237
10.2.2 Fibo AI Stack模型转化 239
10.2.3 数字识别模型部署 242
10.3 开源框架—OpenCV和GStreamer 244
10.3.1 OpenCV安装 244
10.3.2 OpenCV模块介绍 244
10.3.3 OpenCV视频简单操作 245
10.3.4 OpenCV人脸识别案例 247
10.3.5 GStreamer的相关组件 253
10.3.6 GStreamer管道设计简单案例 254
10.3.7 OpenCV+GStreamer实现人脸识别 256
习题10 262
参考文献 263