本书是一部系统讲解运用Python实现会计数据智能采集的实战书籍。作者以会计人员的视角,将编程技术与财务场景深度融合,构建了“原理—技术—实例”的完整知识体系。全书以构建智能会计大数据为引领,从零基础开始,循序渐进地讲解相关的网络知识、Python基础语法、网页智能解析、智能数据库存储等核心技术,并通过真实案例串联全书。全书共分为7章:第1章为与会计大数据爬取相关的Python基础,第2章为与会计大数据爬取相关的网络知识基础,第3章为会计大数据爬取与第三方库的使用,第4章为会计大数据的存储与数据库管理系统,第5章为会计大数据爬取的关键事项,第6章为爬取和构建会计信息披露大数据的实例解析,第7章为基于XBRL的会计大数据爬取实例解析。
曾建光
----------------------------
重庆大学经济与工商管理学院会计系教授,博士生导师,重庆市学术技术带头人,《产业经济评论》执行副主编。2005年毕业于北京大学软件与微电子学院,获计算机软件工程硕士学位,2013年毕业于北京大学光华管理学院,获会计学博士学位,2016年香港理工大学会计与金融学院博士后出站。在攻读博士学位之前,从事了8年网络软件开发与嵌入式软件开发工作。目前主要致力于新兴信息技术与会计学的交叉学科研究。在《经济研究》《管理世界》《会计研究》《金融研究》《世界经济》《南开管理评论》、Clinical Psychology Review、 Neuroscience and Biobehavioral Reviews、Psychological Medicine、Translational Psychiatry等学术期刊上发表60余篇论文,持有13项专利,独立拥有2个App版权和著作权。
王尧
----------------------------
重庆大学经济与工商管理学院实验中心计算机技术工程师。毕业于重庆大学计算机学院,具备扎实的计算机知识背景与丰富的技术实践经验。
第1章 与会计大数据爬取相关的Python基础 ………………………… 1
1.1 Python简介、安装及入门 ……………………………………………… 1
1.2 Python中的注释 …………………………………………………… 15
1.3 Python中的代码块…………………………………………………… 16
1.4 Python中的错误报告 ………………………………………………… 17
1.5 Python中的变量 …………………………………………………… 18
1.6 Python中的基本数据类型 ……………………………………………19
1.7 程序的逻辑控制 …………………………………………………… 33
1.8 程序的循环控制 …………………………………………………… 37
1.9 Python中的函数 …………………………………………………… 45
1.10 Python异常捕获 …………………………………………………… 48
1.11 Python模块与第三方库安装使用 …………………………………… 51
1.12 Python与面向对象编程 …………………………………………… 56
第2章 与会计大数据爬取相关的网络知识基础 ……………………… 66
2.1 HTTP介绍 ………………………………………………………… 66
2.2 HTML介绍 ………………………………………………………… 71
2.3 URL介绍 …………………………………………………………… 75
2.4 浏览器开发者工具 ………………………………………………… 76
2.5 网络爬取总结 ……………………………………………………… 81
第3章 会计大数据爬取与第三方库的使用 …………………………… 83
3.1 requests的使用 ……………………………………………………… 84
3.2 BeautifulSoup的使用 ………………………………………………… 88
3.3 selenium的使用 ……………………………………………………… 99
第4章 会计大数据的存储与数据库管理系统 ………………………… 109
4.1 会计大数据的存储文件 …………………………………………… 109
4.2 将会计大数据存储为csv文件 ……………………………………… 115
4.3 将会计大数据存储为Excel文件 …………………………………… 120
4.4 会计大数据与数据库存储 ………………………………………… 125
4.5 MySQL的安装与使用 ……………………………………………… 135
4.6 数据库管理工具 …………………………………………………… 150
第5章 会计大数据爬取的关键事项 …………………………………… 157
5.1 文本编码 ………………………………………………………… 157
5.2 绝对路径和相对路径 ……………………………………………… 160
5.3 会计大数据的爬取与操作系统的兼容性 …………………………… 164
5.4 爬取会计大数据的流程 …………………………………………… 169
5.5 爬取会计大数据的超时问题………………………………………… 170
5.6 养成良好的编程习惯 ……………………………………………… 173
第6章 爬取和构建会计信息披露大数据的实例解析 …………………175
6.1 巨潮资讯网大数据爬取任务分析 …………………………………… 175
6.2 巨潮资讯网大数据的数据库设计 ……………………………………182
6.3 巨潮资讯网大数据的数据库创建 …………………………………… 183
6.4 巨潮资讯网大数据的爬取请求代码解析 ……………………………184
6.5 巨潮资讯网大数据的目标源数据获取解析 ………………………… 187
6.6 巨潮资讯网大数据的数据内容提取解析 …………………………… 191
6.7 巨潮资讯网大数据的信息披露公告PDF文件爬取解析 ……………… 193
6.8 巨潮资讯网大数据的爬取优化 ………………………………………195
6.9 会计大数据爬取的思路 …………………………………………… 197
第7章 基于XBRL的会计大数据爬取实例解析 ……………………… 198
7.1 基于XBRL的会计大数据爬取的任务分析 …………………………198
7.2 基于XBRL的会计大数据爬取的数据库设计………………………… 206
7.3 基于XBRL的会计大数据爬取的公告列表的获取解析…………………… 208
7.4 基于XBRL的会计大数据的请求报告页爬取解析 ……………………… 211
7.5 基于XBRL的会计大数据的内容提取的方法解析 ……………………… 212
7.6 基于XBRL的会计大数据的内容提取的代码实现 ……………………… 219
7.7 基于XBRL的会计大数据存储解析 ……………………………………221
7.8 基于XBRL的会计大数据爬取总结 ……………………………………224
附录A 爬取巨潮资讯网,构建会计大数据的Python源代码……………… 226
附录B 爬取基于XBRL的会计大数据的Python源代码 ………………… 231
后记 …………………………………………………………………… 236