留学海外的小伙伴们多多少少都听说过如下一些统计和计量软件，如eviews, spss, sas, stata, r等等。用哪一款软件来完成自己定量研究论文的数据处理部分呢？本文将给大家做一个简要的介绍。

数据处理插图

1、Stata

Stata 与 SPSS、SAS 并称为当今三大统计软件。与后者相比，Stata 体积小巧、简单易懂且功能强大。Stata 把 EViews, SPSS 的傻瓜式菜单和 SAS 的命令、编程完美结合起来，所以它一推出就受到了初学者和高级用户的普遍欢迎。Stata 不仅在统计方面功能齐全，其在计量分析领域更是有着深刻影响，以至于有人一言以蔽之：“ 关于学习 Stata 的意义，大家只需知道：目前，Stata 是计量经济学，特别是微观计量经济学的主流软件。”

简单易懂，可视化界面类似excel，操作方式多样化（可以通过程序的便携或者鼠标操作来实现操作）；

数据管理能力比SAS弱一些。一般一次主要用于一个数据文件。同时，可以处理的单个数据文件收到内存大小的影响；

优势在于回归分析、Logistic分析、调差数据分析，但是在方差分析、多变量方法上较弱；

作图功能强大；

许多计量分析的程序网上都有丰富的共享资源。

Stata界面

一般用法。Stata以其简单易懂和功能强大受到初学者和高级用户的普遍欢迎。使用时可以每次只输入一个命令（适合初学者），也可以通过一个Stata程序一次输入多个命令（适合高级用户）。这样的话，即使发生错误，也较容易找出并加以修改。

数据管理。尽管Stata的数据管理能力没有SAS那么强大，它仍然有很多功能较强且简单的数据管理命令，能够让复杂的操作变得容易。Stata主要用于每次对一个数据文件进行操作，难以同时处理多个文件。随着Stata/SE的推出，现在一个Stata数据文件中的变量可以达到32,768，但是当一个数据文件超越计算机内存所允许的范围时，你可能无法分析它。

统计分析。Stata也能够进行大多数统计分析（回归分析，logistic回归，生存分析，方差分析，因子分析，以及一些多变量分析）。Stata最大的优势可能在于回归分析（它包含易于使用的回归分析特征工具），logistic回归（附加有解释logistic回归结果的程序，易用于有序和多元logistic回归）。Stata也有一系列很好的稳健方法，包括稳健回归，稳健标准误的回归，以及其他包含稳健标准误估计的命令。此外，在调查数据分析领域，Stata有着明显优势，能提供回归分析，logistic回归，泊松回归，概率回归等的调查数据分析。它的不足之处在于方差分析和传统的多变量方法（多变量方差分析，判别分析等）。

绘图功能。正如SPSS，Stata能提供一些命令或鼠标点击的交互界面来绘图。与SPSS不同的是它没有图形编辑器。在三种软件中，它的绘图命令的句法是最简单的，功能却最强大。图形质量也很好，可以达到出版的要求。另外，这些图形很好的发挥了补充统计分析的功能，例如，许多命令可以简化回归判别过程中散点图的制作。

总结。Stata较好地实现了使用简便和功能强大两者的结合。尽管其简单易学，它在数据管理和许多前沿统计方法中的功能还是非常强大的。用户可以很容易的下载到别人已有的程序，也可以自己去编写，并使之与Stata紧密结合。

2、SPSS

SPSS logo

界面非常人性化，类似excel，容易上手

数据文件最多4096个变量（相信小伙伴们的论文应该也用不了那么多的variables），记录数量由磁盘空间决定；

优势在于统计分析，例如方差分析，没有文件方法，弱点在于计量分析，缺乏对于调查数据的分析；

程序本身比较大；

并非真正的计量软件，主要为统计软件

SPSS logo

一般用法。SPSS非常容易使用，故最为初学者所接受。它有一个可以点击的交互界面，能够使用下拉菜单来选择所需要执行的命令。它也有一个通过拷贝和粘贴的方法来学习其“句法”语言，但是这些句法通常非常复杂而且不是很直观。

数据管理。SPSS有一个类似于Excel的界面友好的数据编辑器，可以用来输入和定义数据（缺失值，数值标签等等）。它不是功能很强的数据管理工具（尽管SPS 11版增加了一些增大数据文件的命令，其效果有限）。SPSS也主要用于对一个文件进行操作，难以胜任同时处理多个文件。它的数据文件有4096个变量，记录的数量则是由你的磁盘空间来限定。

统计分析。SPSS也能够进行大多数统计分析（回归分析，logistic回归，生存分析，方差分析，因子分析，多变量分析，偏相关分析）。它的优势在于方差分析（SPSS能完成多种特殊效应的检验）和多变量分析（多元方差分析，因子分析，判别分析等），SPSS11.5版还新增了混合模型分析的功能。其缺点是没有稳健方法（无法完成稳健回归或得到稳健标准误），缺乏调查数据分析（SPSS12版增加了完成部分过程的模块）。

绘图功能。SPSS绘图的交互界面非常简单，一旦你绘出图形，你可以根据需要通过点击来修改。这种图形质量极佳，还能粘贴到其他文件中（Word 文档或Powerpoint等）。SPSS也有用于绘图的编程语句，但是无法产生交互界面作图的一些效果。这种语句比Stata语句难，但比SAS语句简单（功能稍逊）。

总结。SPSS致力于简便易行（其口号是“真正统计，确实简单”），并且取得了成功。但是如果你是高级用户，随着时间推移你会对它丧失兴趣。SPSS是制图方面的强手，由于缺少稳健和调查的方法，处理前沿的统计过程是其弱项。

3、SAS

功能强大，可以编程；

可以同时处理多个数据文件，处理变量非常多，可以画任何数据分析图；

优质在于方差分析，混合模型分析，多变量分析，比较欠缺的在于有序以及logistic分析，文件方法，以及调查数据分析（如泊松分布等）；

比较难掌握，因为需要自己编织程序来处理分析数据，如果程序由bug，用户需要自己debug找出错误，但是这往往比较难；

占用磁盘空间非常大，大约2-3g；

还是那一句，对于没有编程基础的小伙伴可能入门比较难，容易打击积极性

SAS logo

一般用法。SAS由于其功能强大而且可以编程，很受高级用户的欢迎。也正是基于此，它是最难掌握的软件之一。使用SAS时，你需要编写SAS程序来处理数据，进行分析。如果在一个程序中出现一个错误，找到并改正这个错误将是困难的。

数据管理。在数据管理方面，SAS是非常强大的，能让你用任何可能的方式来处理你的数据。它包含SQL（结构化查询语言）过程，可以在SAS数据集中使用SQL查询。但是要学习并掌握SAS软件的数据管理需要很长的时间，在Stata或SPSS中，完成许多复杂数据管理工作所使用的命令要简单的多。然而，SAS可以同时处理多个数据文件，使这项工作变得容易。它可以处理的变量能够达到32,768个，以及你的硬盘空间所允许的最大数量的记录条数。

统计分析。SAS能够进行大多数统计分析（回归分析，logistic回归，生存分析，方差分析，因子分析，多变量分析）。SAS的最优之处可能在于它的方差分析，混合模型分析和多变量分析，而它的劣势主要是有序和多元logistic回归（因为这些命令很难），以及稳健方法（它难以完成稳健回归和其他稳健方法）。尽管支持调查数据的分析，但与Stata比较仍然是相当有限的。

绘图功能。在所有的统计软件中，SAS有最强大的绘图工具，由SAS/Graph模块提供。然而，SAS/Graph模块的学习也是非常专业而复杂，图形的制作主要使用程序语言。SAS 8虽然可以通过点击鼠标来交互式的绘图，但不象SPSS那样简单。

总结。SAS适合高级用户使用。它的学习过程是艰苦的，最初的阶段会使人灰心丧气。然而它还是以强大的数据管理和同时处理大批数据文件的功能，得到高级用户的青睐。

4、Eviews

界面人性化上相对较弱，使用前最好花一些时间熟悉每个命令操作的程序语言；

数据处理功能比较弱；

优势在于时间序列分析，但是其他的回归分析，例如面板数据分析、数据处理、统计分析都是比较弱的；

软件本身非常小，不占空间

Eviews界面

Q1 如何数据导入？

eviews支持多种格式的数据导入，大体操作步骤：点击file-new-workfile.

Q2 面板数据，面板数据的输入又怎么做呢？

首先要明确是做平衡面板数据分析还是非平衡面板数据分析，先介绍前者：

1.准备平衡面板数据集（如xls.txt文件）;

2. file/new/workfile 建立工作文件;

3. 选择unstructed/undated 填上时间序列数据的个数（observations）;

4.选object/newobject/pool 输入横截面个体的ID;

5.导入数据集。导入数据后即可按照你的需要做各种面板数据分析

非平衡的，比如这个案例：

首先将数据在excel表中按企业排序，第一列为企业标识fcode，第二列为时间

1 1990

1 1991

1 1992

2 1990

2 1991

……

然后在eviews中分别通过object/new object/series 建立fcode 和year 两个序列，将上述已排序的数据导入。下一步，双击菜单栏下方的range,在出现的对话框中左边选择workfile structure type为dated panel, 在ID series后输入fcode, 在date series后输入year, 右边的对话框中保持上半部分不变，下半部分去掉所有的勾，然后点ok. 这样会自动生成dateid序列，建立面板数据。其他变量的数据按一般方法输入即可。

Q3 简单的描述性统计操作，有方法么？

单击某一序列，如"x",双击弹出该序列，在数据界面-view-graph可以进行作图操作，比如线图或者散点图。作图后右键-save graph to disk…选择保存路径即可。右键中还有很多可以对图形做调整的，无论是调整横轴还是添加文本，都需要先冻结作图窗口（freeze)才可操作。

如果是多个变量作图，直接在软件最上端的菜单里选择quick-graph，输入需要作图的变量，然后就和单序列一样操作。如果还想获得诸如均值这类的统计量，同样点击你需要知道的序列-view-descriptive statistics&test，即可得到均值，标准差，峰度等信息。

Q4 为什么要取对数，如何取对数？

平时在一些数据处理中，经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数，取对数后不会改变数据的相对关系，取对数作用主要有：

1.缩小数据的绝对数值，方便计算。例如，每个数据项的值都很大，许多这样的值进行计算可能对超过常用数据类型的取值范围，这时取对数，就把数值缩小了，例如TF-IDF计算时，由于在大规模语料库中，很多词的频率是非常大的数字。

2.取对数后，可以将乘法计算转换为加法计算。

某些情况下，在数据的整个值域中的在不同区间的差异带来的影响不同。也就是说，对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。

3.取对数之后不会改变数据的性质和相关关系，但压缩了变量的尺度，数据更加平稳，也消弱了模型的共线性、异方差性等。

取对数的操作：quick\ generate series\

输入新变量，比如 r=log( )，r就是取完对数后的序列

Q5 如何做相关分析？

在Eview中计算两个序列的的协方差、相关系数和交叉相关系数分别选用covariances、correlations、cross correlation命令（如果版本中没有correlations选项，可以先选择covariances analysis，然后再点correlations）。需要注意的是Eviews在计算协方差和方差时，自由不是样本个数N而不是N-1。

Q6 多元回归分析怎么做?

通过quick-estimate equation可以到达方程估计的界面，在空白处输入方程中所包含的变量，此处输入的是因变量Y，自变量X和常数项C（一般情况下都会加上常数项）。在method中选择LS（最小二乘法），一般点击确定即可（也可以在OPTIONS中对一些细节做选择）。如果要做样本外预测，首先要扩充样本：工作表中PROC/STUCTURE下面将DATA range进行了扩充，然后在equation窗口中点击Forecast。

Q7 怎么检验异方差？有异方差怎么修正？

首先在EVIEWS中建立一个工作文件，然后建立一个序列对象如序列X，然后打开序列X，在VIEW菜单中有个选项CORRELOGRAM.....，选择该选项后会得到另一个对话框，该对话框的左边是选择检验序列本身还是一阶差分、二阶差分后的结果（你自己选择）。右边指定滞后期，EVIEWS会根据你序列数据的多少设定一个数值，你可以使用默认值，再点击OK即可得到检验结果，关键是看检验概率，如果检验概率小于显著性水平就说明有自相关，反之亦然。

Q8 如何进行平稳性检验？

检查序列平稳性的标准方法是单位根检验。有6种单位根检验方法：ADF检验、DFGLS检验、PP检验、KPSS检验、ERS检验和NP检验，其中ADF最为常用。

检验步骤（一般进行ADF检验要分3步）：

1）对原始时间序列进行检验，此时第二项选level，第三项选None.如果没通过检验，说明原始时间序列不平稳；

2 ）对原始时间序列进行一阶差分后再检验，即第二项选1st difference，第三项选intercept,若仍然未通过检验，则需要进行二次差分变换；

3 ）二次差分序列的检验，即第二项选择2nd difference ，第四项选择Trend and intercept.一般到此时间序列就平稳了！

tips:

在进行ADF检验时，必须注意以下两个实际问题：

（1）必须为回归定义合理的滞后阶数，通常采用AIC准则来确定给定时间序列模型的滞后阶数。在实际应用中，还需要兼顾其他的因素，如系统的稳定性、模型的拟合优度等。

（2）可以选择常数和线性时间趋势，选择哪种形式很重要，因为检验显著性水平的 t 统计量在原假设下的渐近分布依赖于关于这些项的定义。

Q9 如何做格兰杰因果检验？

先做单位根检验，如果平稳可直接做格兰杰，如果不平稳，做差分后在将两序列做单位根，如果同阶单整，做最小二成估计，将残差存为新序列再做单位根，如果平稳可将差分后序列做格兰杰。如果不平稳则不可做格兰杰。如果不同阶单整，则将其中一个再做差分，新序列就成同阶单整。格兰杰检验的滞后需要用VAR检验计算，根据AIC或SC选择合适的滞后阶。

在菜单栏里的quick-group statistic-granger causality test 然后会出现series list 在此输入你要检验的变量后点击ok进入lag specification画面,选择适当的滞后长度,点击ok则有结果了。p值小于0.05就是有因果关系。

5、总结

每个软件都有其独到之处，也难免有其软肋所在。总的来说，SAS，Stata和SPSS是能够用于多种统计分析的一组工具。通过Stat/Transfer可以在数秒或数分钟内实现不同数据文件的转换。而Eviews是计量经济学软件。计量经济学更重视模型的建立，也就是用数据验证模型。Eviews在建立模型求解上有许多独特的优势。如果只是做一些应用计量经济模型和实证分析，eviews就比较符合要求，简单易操作。如果你想通过混合模型来进行分析，你可以选择SAS；进行logistic回归则选择Stata；若是要进行方差分析，最佳的选择当然是SPSS。假如你经常从事统计和计量分析，强烈建议小伙伴们把上述软件收集到你的工具包以便于数据处理。

文章分类

最新发布

最多阅读

推荐阅读

四大数据处理软件介绍：Stata、SPSS、SAS、Eviews

最新评论