
R可以从各种统计数据中导入数据,如SPSS、SAS和Stata等。但是最好的导入数据方法还是导入经过初步处理的原始数据,而不是导入可能经过另一种统计软件处理过的数据。
最常用的记录数据和处理数据的软件是Excel。
今天总结下Excel临床数据在最后导入R前需要注意哪些地方。
1.Excel中的数据形式一般建议列表示各种变量,行表示各种观测对象。一般使用Excel的第一行作为变量名称,第二行开始就是观测对象。
2.建议使用可以帮助记忆具体代表什么的变量名称。选择变量名称时需要一定的想象力,如英文名、简写、汉语首字母等。
一些符号是不允许出现在变量名中的,如$、%、+、-、*、\、()、[]、#、!、?、<、>等,因为这些符号中大部分都是运算符,使用这些符号作为变量名,可能在后续计算中出现错误。
3.一般来说,R中的变量名最好使用大写字母开头,这样可以避免变量名和一些内部函数名混淆,因为大部分内部函数都不是以大写字母开头的。
4.变量中尽量避免使用含有空格的名称,尽可能使用简单明确的名称,不要太长,否则将会使图表中因为包含太长名字而不易识别。
5.如果Excel中数据存在缺失值,可以以大写的NA表示缺失值。
6.如果Excel数据中存在批注,在导入R前建议删除批注信息。
7.Excel中的数据不要使用千分位格式显示。
8.Excel文件的名称尽量不要有空格,还要注意文件名中大写字母的存在。
9.建议在C盘新建一个文件夹,命名为Rdata,作为常用的R工作目录文件夹,以后的数据文件都放在这里面处理。通过setwd("C:/Rdata")来设置工作目录。

10.在R中读取Excel数据时,如果需要输入文件路径地址,R支持\\和/两种。如果在读取时出现错误,应注意检查文件名和目录路径是否正确。
11.R中默认使用点"."作为小数点,在read.table()函数中使用dec = "."来识别小数点;如果是使用逗号","作为小数点,应使用dec = ","来识别小数点。
12.在使用read.table()函数读取到Excel数据后,强烈建议使用names()函数和str()函数查看数据框属性,以防读取数据时出错。
参考资料:《R语言初学者指南》
文章推荐
R语言统计与绘图:pROC包绘制ROC曲线
2020-05-25
【资源】分享一本带完整书签可跳转的R语言工具书
2020-05-24
R语言统计与绘图:ggsurvplot()函数绘制Kaplan-Meier生存曲线
2020-05-21
R语言统计与绘图:Kaplan-Meier生存曲线进阶
2020-05-21
R语言统计与绘图:快速绘制临床论文基线特征表
2020-05-05

哈哈,点个在看呗