数据处理吧 关注:621贴子:1,328
  • 4回复贴,共1

关于SPSS数据预处理心得

只看楼主收藏回复

心得1:数据预处理怎么做。
一是 缺失值的处理。我个人有几个看法:
数据样本量足够大,在删除缺失值样本的情况下不影响估计总体情况,可考虑删除缺失值;
二是数据样本量本身不大的情况下,可从以下两点考虑:1是采用缺失值替换,SPSS中具体操作为“转换”菜单下的“替换缺失值”功能,里面有5种替换的方法。若数据样本量不大,同质性比较强,可考虑总体均值替换方法,如数据来自不同的总体(如我做农户调研不同村的数据),可考虑以一个小总体的均值作为替换(如我以一个村的均值替换缺失值)。2是根据原始问卷结合客观实际自行推断估计一个缺失值的样本值,或者以一个类似家庭的值补充缺失值。
心得2:数据预处理第二点异常值的处理。
我大概学了两门统计软件SPSS和Stata,SPSS用的时间久些,熟悉一下,Stata最近才学,不是太熟。关于这点我结合着来说。关于异常值的处理可分为两点,一是怎么判定一个值是异常值,二是怎么去处理。
判定异常值的方法我个人认为常用的有两点:1是描述性统计分析,看均值、标准差和最大最小值。一般情况下,若标准差远远大于均值,可粗略判定数据存在异常值。2是通过做指标的箱图判定,箱图上加“*”的个案即为异常个案。
发现了异常值,接下来说怎么处理的问题。大概有三种方法:
1是正偏态分布数据取对数处理。我做农户微观实证研究,很多时候得到的数据(如收入)都有很大的异常值,数据呈正偏态分布,这种我一般是取对数处理数据。若原始数据中还有0,取对数ln(0)没意义,我就取ln(x 1)处理;
2是样本量足够大删除异常值样本;
3是从stata里学到的,对数据做结尾或者缩尾处理。这里的结尾处理其实就是同第二个方法,在样本量足够大的情况下删除首尾1%-5%的样本。缩尾指的是人为改变异常值大小。如有一组数据,均值为50,存在几个异常值,都是500多(我这么说有点夸张,大概是这个意思),缩尾处理就是将这几个500多的数据人为改为均值 3标准差左右数据大小,如改为100。
总结而言,我个人认为做数据变换的方式比较好,数据变换后再做图或描述性统计看数据分布情况,再剔除个别极端异常值。


1楼2018-08-14 15:18回复
    楼主问下spss能够把异常值替换成0,然后当成缺失值处理。这样怎么操作呢


    IP属地:广东2楼2019-01-02 21:15
    收起回复
      请问:如何用stata对数据分组后删除组内数据异常值?就是按照一个变量分组后,删除组内数据的前1%和后1%


      IP属地:陕西3楼2021-08-14 18:21
      回复