用sas做logistic回归怎么做single impute

iData_运用SAS对不完整数据集进行多重_省略_的多重填补及其统计分析过程_-博泰典藏网
典藏文档 篇篇精品
iData_运用SAS对不完整数据集进行多重_省略_的多重填补及其统计分析过程_
导读:中国卫生统计2004年2月第21卷第1期?计算机应用?,运用SAS对不完整数据集进行多重填补―――SAS9中的多重填补及其统计分析过程(,第二军医大学卫生统计学教研室(200433)曹阳张罗漫,在所有的实验研究和调查研究领域,数据缺失是一个普遍存在的问题,缺失数据会增加分析任务的复杂性、造成结果偏倚、降低统计工作的效率,完全观测与不完全观测之间存在系统差异的情况下,运用常规统计分析方法对不完整?56?中国卫生统计2004年2月第21卷第1期 ?计算机应用?运用SAS对不完整数据集进行多重填补―――SAS9中的多重填补及其统计分析过程(一)第二军医大学卫生统计学教研室(200433) 曹 阳 张罗漫  在所有的实验研究和调查研究领域,数据缺失是一个普遍存在的问题。缺失数据会增加分析任务的复杂性、造成结果偏倚、降低统计工作的效率。尤其是在完全观测与不完全观测之间存在系统差异的情况下,运用常规统计分析方法对不完整数据集所做出的结果,不能代表整体。在近二、三十年来,多重填补(mul-tipleimputation,MI)方法被认为是解决这一问题的首选方法,该方法由DonaldB.Rubin在20世纪70年代首先提出〔1,2〕。与通常用平均值代替缺失值或其他简单填补(simpleimputation)方法的不同之处在于,MI方法对每一个缺失值用一套可能的值进行填补,以反映缺失值的不确定性,从而产生若干个完整数据集;然后,用针对完整数据集的统计方法对每一个填补数据集分别进行统计分析,把得到的结果进行综合,进而产生最终的统计推断(图1)。这种方法能够反映出由于数据缺失造成的统计推断结果的不确定性〔3〕。随着计算方法的不断成熟和相应统计软件(如Amelia、So-las、Norm、Iveware和Emcov等)的出现,该方法已被越来越多地应用于生物医学、行为科学和社会科学领域。由用户定义)。它所使用的方法结合了这m个数据集中的变异性。在对每一个填补数据集用SAS/STAT中的标准过程进行分析之后,就可以用MIANALYZE过程进行综合统计推断。MI过程中提供了3种方法对缺失值进行填补。对于单调缺失(monotonemiss-ing)模式,可使用基于多元正态性假设的参数回归方法或采用趋势得分(propensityscore)的非参数方法;对于任意缺失(arbitrarymissing)模式,可使用基于多元正态性假设的马尔科夫链蒙特卡罗(Markovchain5〕MonteCarlo,MCMC)方法〔4.。在SAS8中,MI和MIANALYZE过程还只是两个实验过程,所以在SAS的用户参考手册中并没有对其进行介绍。在SAS9中,MI和MIANALYZE已经成为STAT模块中的两个正式过程。和SAS8相比,SAS9的MI过程中,对MCMC和MONOTONE语句新增加了REGPMM选择项,可以用预测均数匹配(predictivemeanmatching)法把一个缺失值用接近预测值的数值进行填补。此外,还增加了CLASS语句,对分类变量进行定义。在MONOTONE语句中,新增加了LOGISTIC和DISCRIM选择项,分别用Logistic和判别方法填补缺失值。DATA=选择项的功能也得到了增强,在输出数据集时可以同时包括每一个观测的参数估计值和相应的标准误。SAS9的MIANA-LYZE过程中,新增加了TEST和CLASS语句。下面,对这两个过程分别加以介绍〔6〕。MI过程简介MI过程的语句构成及语法如下:PROCMI;  BY变量名或变量列表;  CLASS变量名或变量名列表;图1 多重填补步骤及其统计推断原理  在SAS/STAT软件中,从8.0版本中开始引入对缺失数据进行多重填补及其统计分析的MI和MI-ANALYZE两个过程,并在8.1和8.2版本中对这两个过程的功能做了进一步修订。MI过程用于对含有p个变量的不完全数据集产生m个填补数据集(m值  EM;  FREQ变量名;  MCMC;  MONOTONE;  TRANSFORM变换方法(变量名或变量列表)<...变换方法(变量名或变量列表)>;ChineseJournalofHealthStatistics,February2004,Vol.21,No.1?57?  VAR变量名或变量列表;BY语句指明了分组变量,MI过程根据这一变量将数据集分成若干组分别进行多重填补。CLASS语句是SAS9中新增添的语句,它定义了VAR语句中的哪一个变量是分类变量,这一变量可以是数字型也可以是字符型。EM语句是在假设数据集服从多元正态分布的基础上,根据EM(expectationandmaximization)法则计算含有缺失值数据集的极大似然估计。FREQ语句指明了频数变量,该变量表示了数据集中其他变量的每一个观测值出现的次数。MCMC语句指明对于任意缺失模式的数据集,基于数据服从多元正态性假设,采用MCMC方法进行填补。MONOTONE语句用于对单调缺失模式数据集中的连续型变量或CLASS语句中指明的分类变量进行填补,既可以使用参数的回归方法,也可以用基于趋势得分的非参数方法。MCMC语句和MONOTONE语句不能同时使用。如果程序中没有使用这两条语句,默认使用的是MCMC方法。TRANSFORM语句指明了在填补过程之前进行变量变换的变量。在填补数据集之前,填补值被转换回原来的数量单位。VAR语句指明了要进行分析的变量。如果省略了VAR语句,则对所有的数值型变量都进行分析。在MI过程中,可以只使用一句PROCMI语句。MI过程中主要选择项的说明1.PROCMI语句中的选择项(1)ALPHA=α,指明在进行均数的区间估计时,其置信水平为(1-α)×100%,0<α<1,缺省值为α=0.05。(2)DATA=数据集名称,指明MI过程进行分析的数据集,缺省状态下,使用最近一次创建的数据集。(3)MAXIMUM=数值1,指明对变量进行填补时,填补值的上限,如果将要填补的值超了这一上限,MI过程将重新抽取一个填补值。如果只定义了一个数值,则所有变量的填补值的上限都由这一数值决定。如果定义了一个以上的数值,则该选择项必须配合VAR语句一起使用,数值的顺序与VAR语句中的变量名一一对应。缺失值“.”表示对应的变量的填补值没有限制。缺省状态下是“MAXIMUM=.”,即对所有变量的填补值没有上限限制。MAXI-MUM=选择项与MINIMUM=、ROUND=选择项相关联,这些选择项可以让填补值和观察到的变量值更趋于一致。只有在使用单调回归方法或没有PMM选择项的MCMC方法时才能使用这些选择项。如果只对第一个变量定义了填补值的上限,则必须在这个值后面定义一个缺失值,否则MI过程会对所有的变量都使用这一限制。例如“MAXIMUM=100.”表示只对第一个变量设置最大填补值为100的限定,而对后面的所有变量的填补值没有限定。“MAXIMUM=.100”表示只对第二个变量设置最大填补值为100的限定,而对其他变量的填补值没有限定。(4)MINIMUM=数值1,指明对变量进行填补时,填补值的下限,其使用说明同MAXI-MUM=。(5)NIMPUTE=数值,定义填补的次数,默认为5次。可设置NIMPUTE=0,不对数据集进行填补,而只显示数据缺失模式、简单的描述性统计量和期望最大化估计值。(6)OUT=数据集名称,创建经过填补后的数据集。在这一数据集中增加了一个索引变量“-Imputa-tion-”,用于指明是第几次填补。在每一次填补中,原始数据集中的缺失值都被填补值替换。(7)SEED=数值,设定一个正整数值,MI过程使用这一数值作为伪随机数的种子。缺省状态的取值是通过计算机当时的时间计算出的数值。如果为了在同样的条件下重复结果,必须在每次分析时使用同样的种子,而不能依赖于计算机的时间。(8)SIMPLE,显示简单的单变量描述性统计量和通过可利用的观测计算得到的变量间的两两相关系数。(9)SINGULAR=p,这是SAS9中新增添的选择项,它确定了标准化变量的协方差矩阵奇异性评判标准,默认值是SINGULAR=1E-8。2.EM语句中的选择项EM法则是一种用于不完整数据集参数模型中极大似然估计的技术。EM语句要求对一个含有缺失值的数据集,在多元正态分布假设基础上,计算均数和协方差矩阵的极大似然估计。MI过程用可利用观测或完整观测的均数和标准差作为EM法则的初始估计值。在EM语句中可以使用下面的选择项:(1)CONVERGE=p,设置收敛标准,0<p<1。当各次迭代间的参数估计值的变化小于p时,可以认为迭代是收敛的。当参数的绝对值大于0.01时,变化是指迭代间的相对变化,否则指的是绝对变化。缺省状态下,p值为0.0001。(2)MAXITER=正整数值,指定EM法则的最大迭代次数,缺省值是MAXITER=200。3.MCMC语句中的选择项MCMC语句定义了运用MCMC方法进行填补时?58?中国卫生统计2004年2月第21卷第1期 的具体内容,可以使用的主要选择项如下:(1)CHAIN=SINGLE MULTIPLE,指明是对所有的填补使用同一条链,还是每次填补使用单独的链。缺省值是CHAIN=SINGLE。(2)IMPUTE=FULL MONOTONE,指明是对所有的缺失数据进行填补,还是只对部分缺失数据进行填补以把数据集转换成单调缺失模式。缺省值是IM-PUTE=FULL。当指明了IMPUTE=MONOTONE时,按照VAR语句中列出的变量顺序把数据集填补为单调缺失模式。(3)INITIAL=EM,指明MCMC过程中初始的均数和协方差估计值。缺省值为INI-TIAL=EM,即使用EM的估计值作为MCMC过程的初始值。(4)OUTEST=数据集名称,创建一个TYPE=EST的数据集,用于存放每一次填补后的参数估计值。在这个数据集中有一个-Imputation-变量,用于表示是哪一次填补的结果。(5)OUTITER=数据集名称,创建一个TYPE=COV的数据集,其中存放了填补步中每一次迭代使用的参数。数据集中用-Imputation-和-Iteration-分别表示填补的次数和迭代的次数。可使用的选择项有MEAN、STD、COV、LR、LR-POST和WLF,分别表示均数、标准差、协方差、-2logLR值、后验模型的-2logLR值以及最差线性函数值。如果没有对选择项进行定义,数据集中只存放每次迭代所使用的均数。4.MONOTONE语句中的选择项MONOTONE语句中指明了对单调缺失的数据集的填补方法。在使用这个语句时,必须使用VAR语句,而且被填补数据集中呈现单调缺失模式的变量的顺序必须与VAR语句中所列出的变量顺序相一致。当同时使用MCMC语句和MONOTONE时,MI过程不执行MCMC语句。MONOTONE语句中可使用的选择项如下:(1)DISCRIM<(被填补变量)>,用判别函数方法填补分类变量。要与CLASS语句一起使用。(2)LOGITIC<(被填补变量)>,用Logistic回归方法填补分类变量。要与CLASS语句一起使用。(3)REG REGSSION<(被填补变量)>,用回归方法填补连续变量。DETAILS选择项用于显示每一次填补中回归模型的回归系数。当使用回归方法时,可以在ROCMI语句中使用MAXIMUM=、MINIMUM=和ROUND=等选择项,以使填补值与观测值更加一致。用。(4)REGPMM REGPREMEANMATCH<(被填补变量)>,用预测均数匹配法填补连续变量。(5)PROPENSITY<(被填补变量)>,用趋势得分法填补连续型变量或分类变量。5.TRANSFORM语句TRANSFORM语句定义了数据变换的方法和进行变换的变量。在MI过程使用回归方法和MCMC方法时,假设数据服从多元正态分布。有时数据集中有些变量明显不服从正态分布,这时应该把它们转换成服从多元正态分布。使用了TRANSFORM语句之后,指定的变量在填补前进行了变换,过程中显示的所有结果都是变换后的数值。如果定义了OUT=选择项,则相应的变量被反变换后再创建填补后的数据集。可用使用的变量变换方法有:(1)BOXCOX,Box-Cox变换,原变量Y被转换为λ(Y+c)-1,其中c是一个常数,使得Y+c>0,λλ是个大于0的常数;(2)EXP,指数变换,原变量Y被转换为e是常数;(Y+c),c(3)LOG,对数变换,原变量Y被转换为log(Y+c),其中c是常数,使得Y+c>0;(4)LOGIT,logit变换,原变量Y被转换为log(Y/c),c是大于0的常数,并且0<Y/c<1;1-Y/c(5)POWER,幂变换,原变量Y被转换为(Y+λc),其中c是常数,使得Y+c>0,λ是不等于0的常数。涉及c和λ的地方可用C=数值和LAMBDA=数值这两个选择项。实  例结合下面的数据集,对SAS中的MI过程加以应*------一个关于健康状况的数据集-----*
本数据集是根据一些男性健康状况的数据改编的虚拟数据集, 数据集中的变量分别为: Oxygen(氧气摄入量,ml/公斤体重/分钟), Time(跑完2.4公里所花费的时间,单位为分钟), Rate(奔跑时的心率)。*----------------------------*;dataEinputOxygen TimeRate@@;43.509 10.27 175 44.313 10.14 182(下转第63页)ChineseJournalofHealthStatistics,February2004,Vol.21,No.1?63?些国家把它作为国家形象来抓,如美国、英国、日本、荷兰等地区电子病历已有了相当程度的研究和应用。国际上,公认电子病历应当具有三个内涵〔4〕:第一具有信息共享系统:医院的各个部门、科室在任何地方、任何时候都能调阅到病人所在医院的全部病历记录;第二具有预警系统:药物配制禁忌、医疗方法不正当的提示,是医疗的智能化;第三医疗信息资料库支持:内有电子图书、电子杂志以及关于病例治疗最新方法。在国内,电子病历开发和应用虽然频见媒体,但还没有真正意义上的电子病历,尚处起步阶段。电子病历是一个涉及医学、医疗设备、法规、加/脱密技术、计算机和网络技术等多领域的综合性大项目,综合性强、技术性高,需要政府、企业、科技人员等广泛参与,摆脱低层次重复,科学规划,分步实施。参 考 文 献1.卫生部和国家中医药管理局.医疗机构病历管理规定.http://www.moh.gov.cn/yzgl/index.htm.2.中国人民解放军总后勤部卫生部.医疗护理技术操作常规.第4版.人民军医出版社,1998,8.3.刘志文,吴一民.基于XML标准的电子病历实现技术.微型机与应用,-39.4.北京尚无电子病历只是病历电脑化管理.http://health.sohu.com/11/30/harticle.shtml.足病历在存储、传输、操作等方面需要的,特别是具有数据库DBA(DataBaseAdministration)权限的用户可以任意察看、篡改病历内容。一种可行的解决办法是:对病历段的内容、签名、日期等关键字段进行加密和保护,使没被授权的用户看不懂病历―――实现保密,恶意篡改会破坏密文甚至使之不能正确脱密还原―――留下痕迹,从而实现了保密和防篡改。病历的加/脱密算法应该保密性强、速度快,其使用对合法用户而言是透明的、觉察不到的。5.病历检索对数字病历的要求在病历(病案)检索方面,病历检索人员不关心病历被修改了几次、做了什么修改,而关心修改后的终稿。这就要求电子病历系统能够在计算机内部对病历信息进行“组装”:去掉被删除的部分,插入(含增加)修改时增加的部分,替换掉被替换的部分,生成用于检索的内容。文本具有比图片、特殊标记高得多的检索价值。另外,电子病历的开发还要关注到互联网的普及,以便支持医师在互联网上书写病历;不能指望每位医师都是打字高手,应该尽可能减少格式性、重复性、关联性内容的输入工作量,使医疗质量和工作效率都得到提高;电子病历的使用也要得到相关法规和部门的支持和认可。电子病历的研究开发已经得到了国际范围的广泛关注,一(上接第58页)55.018 8.73 163 59.571 .   .48...12.04177.60.24737...13611.02.9.0113.929.04171183.17839.0.724..45.2.1.6..ample进行多重填补的最基本的程序如下:procmidata=Exampleseed=1000out=outEvarOxygenTimeR程序运行结果略。原来的数据集被填补了5次,输出到名为outExp的数据集中。参 考 文 献1.RubinDB.Multipleimputation:aprimer.StatisticalMethodsinMedicalResearch,):3-15.2.RubinDB.Inferenceandmissingdata.Biometrika,):581-592.3.JamesMR.Inferenceforimputationestimators.Biometrika,):113-124.4.BarnardJ,RubinDB.Small-sampledegreesoffreedomwithmultipleim-putation.Biometrika,):948-955.5.RosenbaumPR,RubinDB.Thecentralroleofthepropensityscoreinob-servationalstudiesforcausaleffects.Biometrika,):41-55.6.SASInstituteInc.SAS/STAT9User'sGuide.NorthCarolina:SASIn-stituteInc,2003.46.924.10.13.9.1589.17.13.1.6515117145..45...9.5218647.;50.假设数据集中的数据服从多元正态分布,而且数据缺失模式为任意缺失。运用MI过程对数据集Ex-包含总结汇报、行业论文、高中教育、计划方案、农林牧渔、旅游景点、出国留学、求职职场以及iData_运用SAS对不完整数据集进行多重_省略_的多重填补及其统计分析过程_等内容。
相关内容搜索R与SAS、SPSS的比较
编辑:www.fx114.net
本篇文章主要介绍了"R与SAS、SPSS的比较 ",主要涉及到R与SAS、SPSS的比较 方面的内容,对于R与SAS、SPSS的比较 感兴趣的同学可以参考一下。
&【转】R与SAS、SPSS的比较& 分类:&R与SAS、SPSS的比较R语言R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 R 是统计领域广泛使用的诞生于 1980年左右的 S 语言的一个分支。 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。S-PLUS的使用手册,只要经过不多的修改就能成为 R的使用手册。所以有人说:R,是S-PLUS的一个&克隆&。但是请不要忘了:R is free。 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。 与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。 该语言的语法表面上类似 C,但在语义上是函数设计语言的(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在&语言上计算&(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。 R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。R的主要网站是 http://www.r-project.org。在那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得(http://cran.r-project.org)。 官方网站:http://www.r-project.org/ 以下简述R FOR WINDOWS的安装和使用: 在网址:http://cran.r-project.org 下可以找到R的各个版本的安装程序和源代码。点击进入:Windows (95 and later),再点击:base,下载SetupR.exe,约18兆,此便是R FOR WINDOWS的安装程序。双击SetupR.exe,按照提示一步步安装即可。 安装完成后,程序会创建R程序组并在桌面上创建R主程序的快捷方式(也可以在安装过程中选择不要创建)。通过快捷方式运行R,便可调出R的主窗口(如下图 1-1)。 类似于许多以编程方式为主要工作方式的软件,R的界面简单而朴素,只有不多的几个菜单和快捷按钮。快捷按钮下面的窗口便是命令输入窗口,它也是部分运算结果的输出窗口,有些运算结果则会输出在新建的窗口中。 主窗口上方的一些文字是刚运行R时出现的一些说明和指引。文字下的:& 符号便是R的命令提示符,在其后可输出命令;&后的矩形是光标。R一般是采用交互方式工作的,在命令提示符后输入命令,回车后便会输出结果。 在R朴素的界面下,是丰富而复杂的运算功能。在以后的叙述中,我们将一起去探讨R的强大功能。&1、某好友在参加某社会学领域大型项目的时候,找我去冒充专家,为他向招标单位说明,R与SAS、SPSS相比较的优势何在。结果到了现场,压根不需要我说,对方已经非常认可R了,看来R的优势在社会学领域深入人心。2、然而,直到今天,国内心理学背景的人仍较少接触到R。如同国内绝大多是心理学背景出身的人一样,我们最早接触的都是盗版的SPSS,所以,就一直这么盗版的SPSS、AMOS一路用下去。而在国际一流测量学刊上,用R来说明算法的论文已是层出不穷。3、为什么偏偏是R?让我们看看,Muenchen等人所总结的表格吧,表格原文出处在此:4、我将表格简单翻译如下,如表格所述,R与SPSS、SAS相比较,拥有非常突出的优势:1)产品线齐全。在功能与产品线齐全上已经远远超出SPSS,而与SAS不相上下。有些R的包,比如基因分析常用的Bioconductor 在在线基因数据库连接等众多功能上甚至已经远远超出商业软件。2)免费。请注意,标记为TM或者&符号的软件均需要在SPSS、SAS的基础模块基础之上另行购买,费用往往在千元美元以上。而R的一切功能均是免费。3)开放。由于R本身是一个统计语言环境,再新的统计模型也很快能实现,所以在结构方程模型、项目反应理论、认知诊断等众多心理测量所使用的功能上,没有现成的统计软件包,使用R则完全可以自己编写算法。同样,由于R是完全开源,我们可以很快地基于研究者已经开发出的算法编写更适合自己情况的算法。表:R与SAS、SPSS之比较主题SAS产品线SPSS产品线R语言相关包高级模块SAS/STAT&SPSS Advanced Models&stat, MASS及众多扩展包基础模块SAS&SPSS Base&R联合分析SAS/STAT&: TransregSPSS Conjoint&homals, psychoR , bayesm对应分析SAS/STAT&: CorrespSPSS Categories&homals, MASS, FactoMineRade4, PTAk, cocorresp, vegan, made4, PsychoR自定义表格SAS Base& Report、SQL, TabulateSPSS Custom Tables&reshape数据接口SAS/ACCESS&SPSS Data Access Pack&DBI, foreign, RODBC数据挖掘Enterprise Miner&Clementine&rattle, arules, FactoMineR数据校验Various proceduresVarious procedures,SPSS Data Preparation&dprep, various functionsExact TestsSAS/STAT&: variousSPSS Exact Tests&coin, elrm, exactLoglinTest,exactmaxsel, exactRankTests,及其他许多包基因分析SAS/Genetics&,SAS/Microarray&Solution&, JMPGenomics&无BioconductorGISSAS/GIS&,SAS/Graph&SPSS Maps&maps, mapdata, mapproj,GRASS via spgrass6,RColorBrewer及其他包的部分功能交互图Enterprise Guide&SPSS Base&JGR, R Commander, pmg,Sciviews&SAS/INSIGHT&无GGobi via rggobiiPlots, Mondrian via Rserve统计图SAS/GRAPH&SPSS Base&ggplot, gplots, graphics, grid, gridBase, hexbin, lattice, plotrix, scatterplot3d, vcd, lot, geneplotter, Rgraphics分析向导SAS/LAB&无无矩阵数学SAS/IML&, SAS/IMLSPSS Matrix&R, matlab, Matrix, sparseM缺省值分析SAS/STAT&: MISPSS Missing Values Analysis&aregImpute (Hmisc), EMV,fit.mult.impute (Design), mice,mitools, mvnmle统筹研究SAS/OR&无glpk, linprog, LowRankQP, TSP统计效力检验SAS& Power andSample SizeApplication,SAS/STAT: Power,GLM PowerSamplePower&asypow, powerpkg, pwr,MBESS品质控制SAS/QC&SPSS Base&qcc, spc回归模型SAS/BASE&SPSS RegressionModels&R, Hmisc, Design, lasso, VGAM, pda抽样及调查SAS/STAT&:surveymeans,等SPSS Complex Samples&pps, sampfling, sampling,spsurvey, survey结构方程模型SAS/STAT&: CalisAmos&sem文本分析Text MinerSPSS Text Analysis forSurveys&, Text Minerfor Clementine&Rstem, lsa, tm时间序列SAS/ETS&SPSS Trends& ExpertModeler大量的包可完成时间序列分析预测SAS ForecastStudio&SPSS Trends,DecisionTime/WhatIf&无决策树Enterprise Miner&SPSS ClassificationTrees&, AnswerTree&ada, adabag, BayesTree,boost, GAMboost, gbev, gbm,maptree, mboost, mvpart,party, pinktoe,quantregForest, rpart,rpart.permutation,randomForest,randomForests, treeThis entry was posted on 星期五, 04月 4th, 2008 at 1:57 am and is filed under&. You can follow any responses to this entry through the&&feed. You can&, or&&from your own site.
一、不得利用本站危害国家安全、泄露国家秘密,不得侵犯国家社会集体的和公民的合法权益,不得利用本站制作、复制和传播不法有害信息!
二、互相尊重,对自己的言论和行为负责。
本文标题:
本页链接:&#xe621; 上传我的文档
&#xe602; 下载
&#xe60c; 收藏
粉丝量:29
该文档贡献者很忙,什么也没留下。
&#xe602; 下载此文档
运用sas对不完整数据集进行多重填补
下载积分:1500
内容提示:运用sas对不完整数据集进行多重填补
文档格式:PDF|
浏览次数:404|
上传日期: 03:48:29|
文档星级:&#xe60b;&#xe60b;&#xe60b;&#xe60b;&#xe60b;
全文阅读已结束,如果下载本文需要使用
&#xe71b; 1500 积分
&#xe602;下载此文档
该用户还上传了这些文档
运用sas对不完整数据集进行多重填补
关注微信公众号Figure6.Time-SeriesPlotf;WiththeTIMEPLOT(MEAN(Oxy;Figure7.AutocorrelationF;WiththeACFPLOT(MEAN(Oxyg;CombiningInferencesfromI;Withmimputations,youcanc;?andvarianceestimatesfor;?ofth
Figure6.Time-SeriesPlotforOxygenWiththeTIMEPLOT(MEAN(Oxygen))option,theproceduredisplaysatime-seriesplotforthemeanofOxygen.Theiterationsduringtheburn-inperiodareindicatedwithnega-tiveiterationnumbersintheplot.Theplotshowsnoappar-enttrendsforthevariableOxygen.Figure7.AutocorrelationFunctionPlotforOxygenWiththeACFPLOT(MEAN(Oxygen))option,anautocorre-lationplotforthemeanofOxygenisdisplayed.Itshowsnosigni?cantpositiveornegativeautocorrelation.CombiningInferencesfromImputedDataSetsWithmimputations,youcancomputemdifferentsetspointU?andvarianceestimatesforaparameterQ.LetQ?oftheiandibethepointandvarianceestimatesfromtheithimputeddataset,i=1,2,...,m.ThenthepointestimateforQfrommultipleimputationsistheaverageofthemcomplete-dataestimates:Q=1??mmQ?ii=1LetUbethewithin-imputationvariance,whichistheaver-ageofthemcomplete-dataestimatesU=1??mmU?ii=1andBbethebetween-imputationvarianceB=1??m1(Q?i?Q)2m?i=1ThenthevarianceestimateassociatedwithQisthetotalvarianceT=U+(1+1m)BThestatistic(Q?Q)T?1/2isapproximatelydistributedasat-distributionwithvmdegreesoffreedom(Rubin1987),wherev=(m?1)??1+U??2m(1+m?1)BWhenthecomplete-datadegreesoffreedomv0issmallandthereisonlyamodestproportionofmissingdata,thecom-puteddegreesoffreedom,vm,canbemuchlargerthanv0,whichisinappropriate.BarnardandRubin(1999)recom-mendtheuseofanadjusteddegreesoffreedom,v?m.v?1???1m=??1v+mvobs?wherevobs?=v0+1vv0(1?γ)0+3(1+m?1γ=)BTSimilartotheunivariateinferences,multivariateinferencesbasedonWald’stestscanalsobederivedfromthemim-puteddatasets.MultipleImputationEf?ciencyThedegreesoffreedomvmdependsonmandtheratio=(1+m?1r)BUTheratioriscalledtherelativeincreaseinvarianceduetononresponse(Rubin1987).Whenthereisnomissinginfor-mationaboutQ,bothvaluesrandBarezero.Withalargevalueofmorasmallvalueofr,thedegreesoffreedomvmwillbelargeandthedistributionwillbeapproximatelynormal.Anotherusefulstatisticaboutthenonresponseisthefrac-tionofmissinginformationaboutQ:?λ=r+2/(vm+3)r+16Therelativeef?ciencyofusingthe?nitemimputationesti-mator,ratherthanusinganin?nitenumberforthefullyef-?cientimputation,inunitsofvariance,isapproximatelyafunctionofmandλ.RE=(1+λm)?1Thefollowingtableshowstherelativeef?ciencieswithdif-ferentvaluesofmandλ.Forcaseswithlittlemissinginfor-mation,onlyasmallnumberofimputationsarenecessaryfortheMIanalysis.λm10 0Pp0...40..0...9346200.99500.99010.98520.97560.9662ImputationModelMultipleimputationinferenceassumesthatthemodel(vari-ables)usedtoanalyzethemultiplyimputeddata,referredtoastheanalyst’smodel,isthesameasthemodelusedtoimputemissingvalues,referredtoastheimputer’smodel.Inpractice,thetwomodelsneednotbethesame,asex-plainedbySchafer(1997,pp.139C143),whodiscussestheconsequencesforvariousscenarios.Ingeneral,youshouldincludeasmanyvariablesasyoucanintheimputer’smodel.Toproducehigh-qualityim-putationsforaparticularvariable,youshouldincludevari-ablesthatarepotentiallyrelatedtotheimputedvariableandvariablesthatarepotentiallyrelatedtothemissingnessoftheimputedvariable(Schafer1997,p.143).Thepreci-sionyoulosebyincludingunimportantpredictorsisusuallyarelativelysmallpricetopayforstrengtheningthevalid-ityofsubsequentanalysisofthemultiplyimputeddataset(Rubin1996).However,atthesametime,theprocessofmodelbuildingand?ttingmustbekeptfeasible(BarnardandMeng,1999,pp.19C20).SimilarsuggestionshavebeenmadebyvanBuuren,Boshuizen,andKnook(1999,p.687).Theyrecommendthattheimputer’smodelincludethreesetsofcovariates:variablesintheanalyst’smodel,variablesassociatedwiththemissingnessoftheimputedvariable,andvariablescor-relatedwiththeimputedvariable.Theyalsorecommendtheremovalofcovariatesnotintheanalyst’smodeliftheyhavetoomanymissingvaluesforobservationswithmissingvaluesoftheimputedvariable.Itisgoodpracticetosupplyadescriptionoftheimputer’smodelwiththemultiplyimputeddataset(Rubin1996,p.479).Thedescriptionshouldincludeinformationaboutthevariablesinvolvedintheimputationandrelationshipsamongthevariableswhichhavebeenimplicitlysettozero.TheMIProcedureTheMIprocedureprovidesthreemethodstocreateimputeddatasetsthatcanbeanalyzedusingstandardprocedures.ThefollowingstatementsareavailableinPROCMI:PROCMI;BYEM;FREQMCMC;MONOTONE;TRANSFORMtransform(variables);VARTheEMstatementusestheEMalgorithmtocomputethemaximumlikelihoodestimate(MLE)ofthedatawithmissingvalues,assumingamultivariatenormaldistributionforthedata.TheMCMCstatementusesaMarkovchainMonteCarlomethodtoimputevaluesforadatasetwithanarbitrarymissingpattern,assumingamultivariatenormaldistributionforthedata.TheMONOTONEstatementspeci?esmonotonemethodstoimputevariablesforadatasetwithamonotonemissingpattern.AvailableoptionsfortheMONOTONEstatementincludeREGRESSION,REGPMM,andPROPENSITY.TheTRANSFORMstatementliststhevariablestobetrans-formedbeforetheimputationprocess.Theimputedvaluesofthesetransformedvariableswillbereverse-transformedtotheoriginalformsbeforetheimputation.TheVARstatementliststhenumericvariablestobeana-lyzed.IfyouomittheVARstatement,allnumericvariablesnotlistedinotherstatementsareused.ThePROCMIstatementistheonlyrequiredstatementintheMIprocedure.AvailableoptionsinthePROCMIstate-mentinclude:NIMPUTE=numberspeci?esthenumberofimputations.ThedefaultisNIMPUTE=5.OUT=SAS-data-setcreatesanoutputSASdatasetinwhichtoputtheimputa-tionresults.Thedatasetincludesanidenti?cationvariable,CIMPUTATIONC,toidentifytheimputationnumber.SEED=numberspeci?esapositiveintegerthatisusedtostartthepseudo-randomnumbergenerator.Thedefaultisavaluegener-atedfromreadingthetimeofdayfromthecomputer’sclock.However,inordertobeabletoduplicatetheresultunderidenticalsituations,youmustcontrolthevalueoftheseedexplicitlyratherthanrelyontheclockreading.7Ifthedefaultvalueisused,theseedinformationisdisplayedsothattheresultscanbereproducedbyspecifyingthisseedwiththeSEED=option.Youneedtospecifyexactlythesameseednumberinthefuturetoreproducethesameresults.AvailableoptionsfortheMCMCstatementinclude:CHAIN=SINGLE|MULTIPLEspeci?eswhetherasinglechainisusedforallimputationsoraseparatechainisusedforeachimputation(Schafer1997,pp.137-138).ThedefaultisCHAIN=SINGLE.IMPUTE=FULL|MONOTONEspeci?eswhetherafull-dataimputationisusedforallmiss-ingvaluesoramonotone-dataimputationisusedforasub-setofmissingvaluestomaketheimputeddatasetshaveamonotonemissingpattern.ThedefaultisIMPUTE=FULL.PMMspeci?esthevariablestobeimputedwiththepredictedmeanmatchingmethod.Foreachmissingvalueinthevari-able,thepredictedmeanmatchingmethodimputesanob-servedvaluethatisclosesttothepredictedvaluefromtheimputedmodel.INITIAL=EMINITIAL=INPUT=SAS-data-setspeci?estheinitialmeanandcovarianceestimatestobegintheMCMCprocess.WithINITIAL=EM,PROCMIusesthemeansandstandarddeviationsfromavailablecasesastheinitialestimatesfortheEMalgorithm.Thecorrelationsaresettozero.TheresultingestimatesareusedtobegintheMCMCprocess.YoucanalsospecifyINITIAL=INPUT=SAS-data-settouseaSASdatasetfromwhichtoobtaintheinitialestimatesofthemeanandcovariancematrixforeachimputation.ThedefaultisINITIAL=EM.Thefollowingtwooptionsspecifythenumberofiterationsbeforethe?rstimputationandbetweenimputations:NBITER=numberspeci?esthenumberofburn-initerationsbeforethe?rstim-putationineachchain.ThedefaultisNBITER=200.NITER=numberspeci?esthenumberofiterationsbetweenimputationsinasinglechain.ThedefaultisNITER=100.ThefollowingtwooptionsprovideconvergencecheckingfortheMCMCprocess:ACFPLOTdisplaysautocorrelationplotsofparametersfromiterations.TIMEPLOTdisplaystime-seriesplotsofparametersfromiterations.AvailableoptionsfortheMONOTONEstatementare:REGRESSION<(imputed)>REGPMM<(imputed)>PROPENSITY<(imputed)>speci?estheregressionmethod,thenewpredictivemeanmatchingmethod,andthepropensityscoresmethodofvariables.Youcanusetheneweffectsspeci?cationoptiontouseadifferentsetofcovariatesforeachimputedvariable.AlthoughtheMIprocedurewitharegressionorMCMCmethodassumesmultivariatenormality,theinferencebymultipleimputationmayberobusttodeparturesfromthemultivariatenormalityiftheamountsofmissinginformationarenotlarge.Itoftenmakessensetouseanormalmodeltocreatemultipleimputationsevenwhentheobserveddataaresomewhatnonnormal,assupportedbythesimulationstudiesdescribedinSchafer(1997)andtheoriginalrefer-encestherein.TheMIANALYZEProcedureFrommimputations,mdifferentsetsofthepointandvari-anceestimatesforaparameterQcanbecomputed.PROCMIANALYZEcombinestheseresultsandgeneratesvalidstatisticalinferencesabouttheparameter.Multivariatein-ferencescanalsobederivedfromthemimputeddatasets.ThefollowingstatementsareavailableinPROCMIANALYZE:PROCMIANALYZE;BYMODELEFFECTSSTDERRTESTequation1<,...,>;ThenewMODELEFFECTSstatementliststheeffectsinthedatasettobeanalyzed.Eacheffectisavariableoracom-binationofvariables,andisspeci?edwithaspecialnota-tionusingvariablenamesandoperators.ThisstatementreplacestheVARstatement,whichwasusedinReleases8.1and8.2whereonlyvariablescanbespeci?ed.ThenewSTDERRstatementlistsstandarderrorsassoci-atedwitheffectsintheMODELEFFECTSstatement,whentheinputDATA=datasetcontainsbothparameterestimatesandstandarderrorsasvariablesinthedataset.ThenewTESTstatementtestslinearhypothesesabouttheparametersβ.AnFtestisusedtotestjointlythenullhy-potheses(H0:Lβ=c)speci?edinasingleTESTstate-ment.ThePROCMIANALYZEandMODELEFFECTSstatementsarerequired.AvailableoptionsinthePROCMIANALYZEstatementare:ALPHA=pspeci?esthatcon?dencelimitsaretobeconstructedfortheparameterestimateswithcon?dencelevel100(1?p)%,where0<p<1.ThedefaultisALPHA=0.05.8EDF=numbersspeci?esthecomplete-datadegreesoffreedomforthepa-rameterestimates.Thisisusedtocomputeanadjusteddegreesoffreedom.MU0=numbersspeci?esthemeansunderthenullhypothesisinthet-testforlocation.Ifonlyonenumberisspeci?ed,thatnum-berisusedforallvariables.Ifmorethanonenumberisspeci?ed,youmustuseaMODELEFFECTSstatement,andthespeci?ednumberscorrespondtovariablesintheMODELEFFECTSstatement.MULT|MULTIVARIATErequestsmultivariateinferenceforthevariablestogether.DATA=SAS-data-setnamesaspeciallystructuredSASdatasettobeanalyzedbyPROCMIANALYZE.TheinputdatasetmusthaveaTYPEofCOV,CORR,orEST.Theparameterestimatesandtheirassociatedcovariancematrixfromeachimputeddatasetarereadfromthedataset.PARMINFO=SAS-data-setnamesaninputSASdatasetthatcontainsparameterinfor-mationassociatedwithvariablesPRM1,PRM2,...,andsoon.ThesevariablesareusedasvariablesforparametersinaCOVB=dataset.PARMS=SAS-data-setnamesaSASdatasetthatcontainsparameterestimatesfromimputeddatasets.COVB=SAS-data-setnamesaSASdatasetthatcontainscovariancematricesoftheparameterestimatesfromimputeddatasets.IfyouusetheCOVB=option,thePARMS=optionmustalsobespeci?ed.XPXI=SAS-data-setnamesaSASdatasetthatcontainsX’Xinversematricesrelatedtotheparameterestimatesfromimputeddatasets.IfyouusetheXPXI=option,thePARMS=optionmustalsobespeci?ed.Inthiscase,PROCMIANALYZEalsoreadsthestandarderrorsoftheestimatesfromthePARMS=data.ThestandarderrorsandX’Xinversematricesareusedtoderivethecovariancematrices.InputDataSetsTheappropriateinputspeci?cationdependsonthetypeofinferenceandtheSASprocedureyouusedtocreatethedatasets.Youspecifyinputdatasetsbasedonthetypeofinferenceyourequested.Forunivariateinference,youcanuseoneofthefollowingoptions:?aDATA=dataset,whichprovidesbothparameteres-timatesandtheassociatedstandarderrors.?aDATA=typeEST,COV,orCORRdataset,whichprovidesbothparameterestimatesandtheassoci-atedstandarderrorseitherexplicitly(typeCORR)orthroughthecovariancematrix(typeEST,COV).?PARMS=dataset,whichprovidesbothparameteres-timatesandtheassociatedstandarderrors.Formultivariateinference,whichincludesthetestingoflin-earhypothesesaboutparameters,youcanuseoneofthefollowingoptioncombinations:?aDATA=typeEST,COV,orCORRdataset,whichprovidesparameterestimatesandtheassociatedco-variancematrixeitherexplicitly(typeEST,COV)orthroughthecorrelationmatrixandstandarderrors(typeCORR)inasingledataset.?PARMS=andCOVB=datasets,whichprovidepa-rameterestimatesinaPARMS=datasetandtheas-sociatedcovariancematrixinaCOVB=dataset.?PARMS=,COVB=,andPARMINFO=datasets,whichprovideparameterestimatesinaPARMS=dataset,theassociatedcovariancematrixinaCOVB=datasetwithvariablesnamedPRM1,PRM2,...,andtheeffectsassociatedwiththesevariablesinaPARMINFO=dataset.?PARMS=andXPXI=datasets,whichprovideparam-eterestimatesandtheassociatedstandarderrorsinaPARMS=datasetandtheassociated(X??X)?1ma-trixinanXPXI=dataset.Theappropriatecombinationdependsonthetypeofinfer-enceandtheSASprocedureyouusedtocreatethedatasets.Forinstance,ifyouusedPROCREGtocreateanOUTEST=datasetcontainingtheparameterestimatesandcovariancematrix,youwouldusetheDATA=optiontoreadtheOUTEST=dataset.ExamplesThefollowingstatementsgenerate?veimputeddatasetstobeusedinthissection.procmidata=FitMissnoprintout=outmiseed=3237851;varOxygenRunTimeRunPExample1.ReadingMeansandStandardErrorsfromVariablesinaDATA=DataSetThisexamplecreatesanordinarySASdatasetthatcon-tainssamplemeansandstandarderrorscomputedfromimputeddatasets.Theseestimatesarethencombinedtogeneratevalidunivariateinferencesaboutthepopulationmeans.ThefollowingstatementsusetheUNIVARIATEproceduretogeneratesamplemeansandstandarderrorsforthevari-ablesineachimputeddataset.procunivariatedata=varOxygenRunTimeRunPoutputout=outunimean=OxygenRunTimeRunPulsestderr=SOxygenSRunTimeSRunPby_Imputation_;9ThefollowingstatementsdisplaytheoutputdatasetfromPROCUNIVARIATE:ParameterTheMIANALYZEProcedureMultipleImputationParameterEstimatesEstimate46.634StdError0.95%ConfidenceLimits44.7.019148.DF27..469procprintdata=title’UNIVARIATEMeansandStandardErrors’;OXYGENRUNTIMERUNPULSEMultipleImputationParameterEstimatesUNIVARIATEMeansandStandardErrorsRunPulse171.172.171.826SRunTime0.380.380.26286SRunPulse1.831.671.92357ParameterOXYGENRUNTIMERUNPULSEMinimum46.535Maximum47.655Obs12345_Imputation_12345Oxygen47.146.846.9786RunTime10.110.010.4918SOxygen0.080.650.99090MultipleImputationParameterEstimatestforH0:Parameter=Theta048.ParameterOXYGENRUNTIMERUNPULSETheta0000Pr>|t|<.<.0001Figure8.UNIVARIATEOutputDataSetFigure10.MultipleImputationParameterEstimatesThefollowingstatementscombinethemeansandstandarderrorsfromimputeddatasets,TheEDF=optionrequeststhattheadjusteddegreesoffreedombeusedintheanal-ysis.Forsamplemeansbasedon31observations,thecomplete-dataerrordegreesoffreedomis30.procmianalyzedata=outuniedf=30;modeleffectsOxygenRunTimeRunPstderrSOxygenSRunTimeSRunPThe“MultipleImputationParameterEstimates”tabledis-playstheestimatedmeanandcorrespondingstandarderrorforeachvariable.Thetablealsodisplaysa95%con?denceintervalforthemeanandatstatisticwiththeassociatedp-valuefortestingthehypothesisthatthemeanisequaltothevaluespeci?ed.YoucanusetheTHETA0=optiontospecifythevalueforthenullhypothesis,whichiszerobydefault.Thetablealsodisplaystheminimumandmaximumparameterestimatesfromtheimputeddatasets.Example2.ReadingRegressionResultsfromaDATA=ESTDataSetThisexamplecreatesanESTtypedatasetthatcontainsregressioncoef?cientsandtheircorrespondingcovariancematricescomputedfromimputeddatasets.Theseesti-matesarethencombinedtogeneratevalidstatisticalinfer-encesabouttheregressionmodel.ThefollowingstatementsusetheREGproceduretogener-ateregressioncoef?cients:procregdata=outmioutest=modelOxygen=RunTimeRunPby_Imputation_;TheMIANALYZEProcedureModelInformationDataSetNumberofImputationsWORK.OUTUNI5MultipleImputationVarianceInformation-----------------Variance-----------------BetweenWithinTotal0.0.0.ParameterOXYGENRUNTIMERUNPULSEDF27..469MultipleImputationVarianceInformationRelativeIncreaseinVariance0.FractionMissingInformation0.ParameterOXYGENRUNTIMERUNPULSEFigure9.MultipleImputationVarianceInformationThefollowingstatementsdisplayregressioncoef?cientsandtheircovariancematrices.procprintdata=outreg(obs=8);var_Imputation__Type__Name_InterceptRunTimeRunPtitle’ParameterEstimatesfromImputedDataSets’;The“ModelInformation”tableliststheinputdataset(s)andthenumberofimputations.The“MultipleImputationVarianceInformation”tabledis-playsthebetween-imputationvariance,within-imputationvariance,andtotalvarianceforeachunivariateinference.Italsodisplaysthedegreesoffreedomforthetotalvariance.Therelativeincreaseinvarianceduetomissingvaluesandthefractionofmissinginformationforeachvariablearealsodisplayed.REGModelCoefficientsandCovariancematricesObs_Imputation__TYPE_PARMSCOVCOVCOVPARMSCOVCOVCOV_NAME_Intercept86.-0.535-0..527-0.375-0.355RunTime-2.190.45-2.660.46RunPulse-0.77-0.43-0.12-0.37InterceptRunTimeRunPulseInterceptRunTimeRunPulseFigure11.ESTTypeDataSet10三亿文库3y.uu456.com包含各类专业文献、各类资格考试、幼儿教育、小学教育、应用写作文书、行业资料、外语学习资料、高等教育、生活休闲娱乐、multiple imputation29等内容。 
 rapid fluctuation 队列 cohort 队列研究 cohort study 对象报告偏倚 report bias 多归因步伐的方法 Multiple imputation procedure 多国心血管病趋势和决定因素监测 ...  (五)多重替代法(Multiple Imputation) 多重估算是由 Rubin 等人于 1987 年建立起来的一种数据扩充和统计分析方法,作为简 单估算的改进产物。首先,多重估算技术用...  Multiple imputation 用于完整的数据分析,应当用其他变量分析预告丢失的 数据可能带来的后果 3。如果丢失的数据没有归入,该项条款本身应 当从被调查者积分中去除。 ...  statistics-multiple imputation,出现对话框,选择带有缺失值的变量进入右 边的框,选择 EM 算法或者 MCMC 算法(两种算法的区别可以阅读一些学术文献了解其优 缺点,...  [MI] Stata Multiple-Imputation Reference Manual [MV] Stata Multivariate Statistics Reference Manual [PSS] Stata Power and Sample-Size Reference Manual [P] ...  (multilevel structural equation modeling) 、 recursive modeling 为基 以 础的正式推论、multiple imputation 和非线性多元回归模型以及各式各样操作界面的改进, 包括...  (4)多重插补(Multiple Imputation,MI)。多值插补的思想来源于贝叶斯估计,认为待 插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的...  (4)多重插补(Multiple Imputation,MI) 多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自 于已观测到的值。 具体实践上通常是估计出待插补的...

我要回帖

更多关于 用sas做logistic回归 的文章

 

随机推荐