当前位置:首页 > 短视频综合 > 正文

数据预处理主要做“三值四化”这点事(50个系列小视频之11)

2020-06-23 16:13:54 暂无评论 短视频综合


我们知道在做数据分析之前、中期都需要做数据预处理,也知道数据预处理不好的话,会严重影响后期模型的分析结果。但不同人口里说的数据预处理,包含的内容往往不一样,甚至把模型结果不好的一切原因都归属于数据预处理没做好,他们经常说:你的数据没做好预处理,所以才。。。。


不同书籍、课程、网站、人在介绍数据预处理的内容上,会有差异,这很正常。不同学科、行业背景的人,拿到不同的数据,做预处理的内容不一样完全正常。


我在这里,将不同学科、行业的数据分析需要做的预处理内容,归纳整理出四个字“三值四化”,这四个字代表的内容,是大多数场景里需要做的预处理。


三值,是错误值、异常值、缺失值。


四化,是数据离散化、数据一般化、数据标准化、数据归一化。


这里面有些特别容易处理,比如错误值,要么修改过来要么删除;再比如数据一般化,通常根据研究者主观经验来处理。


但异常值、缺失值、离散化、标准化的处理稍微有点复杂,对于刚入门的初学者会有不好疑惑的地方,这些内容将在以后的视频里逐个给大家分享。


文章转载自微信公众号见钱言开

博客主人破茧短视频培训
破茧短视频为你分享抖音、快手等短视频平台的视频拍摄、剪辑和运营技巧,另有短视频培训学习教程,海量干货助你玩转短视频运营!。
  • 51952 文章总数
  • 4875876访问次数
  • 2205建站天数