我们知道在做数据分析之前、中期都需要做数据预处理,也知道数据预处理不好的话,会严重影响后期模型的分析结果。但不同人口里说的数据预处理,包含的内容往往不一样,甚至把模型结果不好的一切原因都归属于数据预处理没做好,他们经常说:你的数据没做好预处理,所以才。。。。
不同书籍、课程、网站、人在介绍数据预处理的内容上,会有差异,这很正常。不同学科、行业背景的人,拿到不同的数据,做预处理的内容不一样完全正常。
我在这里,将不同学科、行业的数据分析需要做的预处理内容,归纳整理出四个字“三值四化”,这四个字代表的内容,是大多数场景里需要做的预处理。
三值,是错误值、异常值、缺失值。
四化,是数据离散化、数据一般化、数据标准化、数据归一化。
这里面有些特别容易处理,比如错误值,要么修改过来要么删除;再比如数据一般化,通常根据研究者主观经验来处理。
但异常值、缺失值、离散化、标准化的处理稍微有点复杂,对于刚入门的初学者会有不好疑惑的地方,这些内容将在以后的视频里逐个给大家分享。
文章转载自微信公众号见钱言开
