数据的清洗是在大数据的挖掘与分析过程中的一个重要环节,由于数据类型的复杂性,采用传统的清洗脏数据的工作会辛苦和乏味。但是如果能利用好的清洗工具和适当的方法则可以让数据的清洗工作变得有趣并能达到事半功倍的效果。
本书从文件格式、数据类型、字符编码等基本概念入手,通过实例,探讨了如何提取和清洗关系型数据、网页数据,以及如何实现数据的转换与加载。每个知识点都附有案例供读者学习,通过实践让读者掌握所有的数据清洗技术。
如果您是一位数据科学家,或者从事数据科学工作,哪怕是一个对数据科学感兴趣的新手,那么很高兴本书适合您阅读。