2019 Stata 寒假班 DAY2

论坛 期权论坛 期权     
Stata连享会   2019-2-9 00:02   3457   0
2019 Stata 寒假研讨初级班第二天
上午 —— 数据处理部分
  • 数据处理
    • 缺漏值的处理
    • 重复样本值的处理
    • 文字变量的处理
    • 离群值的处理
数据的搜集整理是实证分析的基础工作,连老师指出在这一步骤要保证高效准确,比如在处理重复值时需要注意样本的删除方式,首先要确定样本的重复情况以采取正确的方式删除重复值,而不能“不分青红皂白”直接
  1. duplicates drop
复制代码

在处理缺失值时,有很多种方法,比如
  1. duplicates
复制代码
  1. mvdecode
复制代码
  1. replace
复制代码
  1. rmiss()函数
复制代码
。下面就简短的介绍下
  1. rmiss()函数
复制代码

    1. *-rmiss()函数
    复制代码
    1.    sysuse "nlsw88.dta", clear
    复制代码
    1.    egen miss = rmiss(wage industry occupation)
    复制代码
    1.    list wage industry occupation miss if mis!=0
    复制代码
    1.    sum wage industry occupation if miss==0 //排除缺漏值后的统计分析
    复制代码
    1.    *-等价于
    复制代码
    1.    sum wage industry occupation if missing(wage, industry, occupation)
    复制代码
    1.    *-Note: 上面用的是 egen 命令中的 rmiss() 函数;
    复制代码
    1.    *    这里用的是 missing() 函数,二者格式有所不同。
    复制代码
  1. [/code]
  2. 除了了解 [code]rmiss()函数
复制代码
外,请务必
  1. help egen
复制代码
,这是非常有用的一个命令,希望大家能熟悉掌握。
一般而言,离群值是一个主观的概念。如下图所示,我们通常会取1/4分位数作为Q1,3/4分位数作为Q3,经常用到的中位数就被称为1/2分位数。其中 IQR=75th-25th,上界=75th+1.5IQR,下界=max{下界,25th-1.5IQR}(当然这只是老师在课堂上讲的离群值判断的一种方法而已,大家都可以有自己的判断,比如令上界=75th+3IQR )

离群值的概念此外,连老师特别提醒需要注意描述统计结果,应该妥善处理重复值、缺失值、离群值等异常值以保证样本合理,在此基础上与其他学者的研究成果进行比较,如此才能保障实证结果的可比性提高可信度。
连老师还给大家介绍了很多数据处理的程序与函数,能够极大地提升处理效率。当然,在研究中我们遇到的问题千变万化,需要大家不断去探索发现解决方案。
如果大家想要提高数据处理的能力,可以学习下正则表达式,具体可以阅读 游万海老师的正则表达式“宝典”
下午 —— stata 编程与OLS
  • Stata编程
  • 暂元
    • local (存活期的理解)
    • global
  • 循环语句
    • while
    • forvalues
    • foreach
  • 条件语句
  • OLS 的简单介绍与理解



image连老师以豆浆机的组成与运行为比喻向大家介绍了Stata程序
  1. program
复制代码
编写运行的原理以及单值
  1. scalar
复制代码
、暂元
  1. local
复制代码
  1. global
复制代码
等元素的作用。之后又继续向大家介绍Stata编程——Stata程序“神通广大”,比如可以用Stata编写“算命”程序。其实下图就只是是一个简单的判断语句,但初学的同学们需要多注意下
  1. cap program drop sex
复制代码
这一命令。注意点有:
    1. help capture
    复制代码
    了解
    1. capture
    复制代码
    的用法
  • 注意对
    1. stata
    复制代码
    内存的理解,为什么需要
    1. cap program drop sex
    复制代码
    这一命令呢
以上对理解
  1. program
复制代码
有很大帮助。

image之后连老师又以求取极值的例子详细介绍了Stata程序循环语句的精髓。很多人在求函数极值的时候常规做法是求导,但是机器并不能够这样做,或者说函数太复杂时就做不出来。这个时候,可能需要去换一下思维,因为计算机最强大的能力不是思考,而是计算,人最强大的能力恰恰就是思考了,所以可以通过循环的方式求出简单函数的极值。这就是我们要学会
  1. stata
复制代码
写程序的原因了。

while 循环求极值OLS是实证中最基础也是最实用的模型,连老师结合 Stata 的应用给大家补上了一节充实的计量课,主要是利用化肥是否能够增产这一例子来加深对

的理解。由于是计量的内容,大家可以多翻一翻教科书,这里就不多加赘述。

image
课后答疑 —— 又是充实的一天

课后答疑希望同学们能够抓住每一次机会。
[h3]往期精彩推文[/h3]



欢迎加入Stata连享会(公众号: StataChina)
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:190
帖子:39
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP