每天一招R语言(10.一点基础)

社区 dmadmin Founder • 于 2017-06-20 11:21:46 • 429 阅读

通过前面9篇小文的介绍,我们已经初步了解了R,知道了R在应用的时候的大概样子,事实上,这只是R宝库中的一条窄窄的门缝,我们仅仅是管中窥豹而已。
R的功能极其强大,无论是在数据的处理、数据分析还是数据展现上,在现有的科技水平上,只有想不到,没有做不到。很简单,因为它本身是一门编程语言,其功能扩展是无限的。如果说有限制,那就是它本身的效率问题,但是这与其定位有关,效率目前不是统计学家的瓶颈。
前面几节,我们了解了R开发平台的安装,基本使用方法,R最最基础的函数及一点点语法。我们的目的不是让大家通过这个系列就能够学会使用R,而是试图用最通俗易懂的方式告诉大家,对于我们非统计专业的人士而言,我们还有一个免费、开源、功能无比强大的数据处理软件可以使用。
想要用好R,必须经过系统的学习,我们开启了学习R的门缝,对于有需求或者是有兴趣的朋友可以自己打开门去探索R的无穷奥秘。而对于另外一些仅仅需要一些简单统计功能的人士而言,R入门也是如此简单,很快就能够为您的工作贡献力量。

1 数据处理的一般步骤:

file

2 R的获取和安装

R可以在官方网站(https://www.r-project.org)上免费下载。需要注意的是,我们前期介绍的是RStudio,那是一个第三方的平台,使用它的原因就是因为简单好用。而这里才是R的真正门户

3 R的使用

R语句由函数和赋值构成,语句通过逻辑组织到一起,就是程序。R 使用 <- 赋值,而不是 = 号。这点需要注意,因为我们前面说二者可以混用,事实上我想表达的是,当你看到有些程序这样混用的时候,其表达的意思是一样的。但是二者并不相同,详细的原理这里不展开,但是赋值最好使用标准的方式 <- 。
注释使用符号 # 开头,但是注意多行注释就需要每行的行首都要添加 # 。

4 获取帮助:R中的帮助函数

file R中的帮助文档非常丰富,每一个帮助函数建议都试试,你会有惊喜。

5 输入和数出

在当前,我们先学会使用RStudio输入文件和输出文件、图表即可,使用熟练了可以再学习使用命令的方式。

6 包

包功能类似于插件,就好像R是一套房子,包则是不同的电器。包可以自由开发供更多的人使用。需要什么,就取找什么。 包是R函数、数据、预编译代码以一种定义完善的格式组成的集合。计算机上存储包的目录称为库(library)。在官网有链接进入:
https://cran.r-project.org/
点击右侧 Software下的Packages,就可以看到相关介绍和链接。包的更新速度是极快的,目前官网已经收录了 10863 个包(截止2017年6月20日),涵盖了极多的领域和功能,尤其是最新的数据分析功能。
包的安装和载入在RStudio上非常简单方便,大家可以先自己探索一下。
我们使用的不同函数可能在不同的包里面,使用的时候就需要安装和载入。不同的包安装一次即可,相当于我们把要用的家电去买回来,而载入则相当于拿出来用。所以载入是在一次会话需要载入一次。但是安装后的包有可能要升级,这需要注意。

7 数据集

数据集可以简单理解成我们日常使用的数据表,这是数据分析的第一步,就是我们要分析的对象,是数据分析的原料。在R中,创建数据集包括两步:
选择一种数据结构来存储数据;
将数据输入或导入到这个数据结构中。
R中有许多用于存储数据的结构,包括标量、向量、数组、数据框和列表。
R可以处理的数据类型(模式)包括数值型、字符型、逻辑型(TRUE/FALSE)、复数型(虚数)和原生型(字节)。
在R中,PatientID、AdmDate和Age将为数值型变量,而Diabetes和Status则为字符型变量。

8 数据结构

R拥有许多用于存储数据的对象类型,包括向量、矩阵、数组、数据框和列表。它们在存储数据的类型、创建方式、结构复杂度,以及用于定位和访问其中个别元素的标记等方面均有所不同。
数据框(data frame)是R中用于存储数据的一种结构:列表示变量,行表示观测。在同一个数据框中可以存储不同类型(如数值型、字符型)的变量。数据框将是你用来存储数据集的主要数据结构。
因子(factor)是名义型变量或有序型变量。它们在R中被特殊地存储和处理。
file


今天先到这里,将来我们学习的原则仍将是因需求而学习,碰到问题解决问题,力图做到简单明了。

回复数量: 0
暂无评论~~
Ctrl+Enter