R 数据集

数据集是以表格形式呈现的数据集合。

R 编程语言拥有大量内置数据集,通常可用作演示数据,以说明 R 函数的工作原理。


R 中最常用的内置数据集

在 R 中,我们可以尝试大量数据集,但最常用的内置数据集是

  • airquality - 纽约空气质量测量数据
  • AirPassengers - 1949-1960 年每月航空乘客数量
  • mtcars - Motor Trend 汽车路测数据
  • iris - 埃德加·安德森的鸢尾花数据

这些是最常用的内置数据集中的一小部分。如果您想了解其他内置数据集,请访问 R 数据集包

在本教程中,我们将使用 airquality 数据集来演示数据集在 R 中的使用。


显示 R 数据集

要显示数据集,我们只需在 print() 函数中写入数据集的名称。例如,

# display airquality dataset
print(airquality)

输出

   Ozone Solar.R Wind Temp Month Day
1      41     190  7.4   67     5   1
2      36     118  8.0   72     5   2
3      12     149 12.6   74     5   3
4      18     313 11.5   62     5   4
5      NA      NA 14.3   56     5   5
6      28      NA 14.9   66     5   6
7      23     299  8.6   65     5   7
8      19      99 13.8   59     5   8
9       8      19 20.1   61     5   9
10     NA     194  8.6   69     5  10
11      7      NA  6.9   74     5  11
12     16     256  9.7   69     5  12
13     11     290  9.2   66     5  13
14     14     274 10.9   68     5  14
15     18      65 13.2   58     5  15
16     14     334 11.5   64     5  16
17     34     307 12.0   66     5  17
18      6      78 18.4   57     5  18
19     30     322 11.5   68     5  19
20     11      44  9.7   62     5  20
21      1       8  9.7   59     5  21

在这里,我们显示了从 121airquality 数据集,但总共有 153 个数据集。

该数据集包含纽约的空气质量测量数据。


获取数据集信息

在 R 中,我们可以使用各种函数来获取数据集的信息,例如:数据集的维度、行数和列数、变量名称等等。例如,

# use dim() to get dimension of dataset
cat("Dimension:",dim(airquality))

# use nrow() to get number of rows
cat("\nRow:",nrow(airquality))

# use ncol() to get number of columns
cat("\nColumn:",ncol(airquality))

# use names() to get name of variable of dataset
cat("\nName of Variables:",names(airquality))

输出

Dimension: 153 6
Row: 153
Column: 6
Name of Variables: Ozone Solar.R Wind Temp Month Day

在上面的示例中,我们使用了各种函数来获取 airquality 数据集的信息。

  • dim() - 返回数据集的维度,即 153 6
  • nrow() - 返回行数(观察值),即 153
  • ncol() - 返回列数(变量),即 6
  • names() - 返回所有变量的名称

在 R 中显示变量值

要在 R 中显示指定变量的所有值,我们使用 $ 运算符和变量的名称。例如,

# display all values of Temp variable
print(airquality$Temp)

输出

 [1] 67 72 74 62 56 66 65 59 61 69 74 69 66 68 58 64 66 57 68 62 59 73 61 61 57
 [26] 58 57 67 81 79 76 78 74 67 84 85 79 82 87 90 87 93 92 82 80 79 77 72 65 73
 [51] 76 77 76 76 76 75 78 73 80 77 83 84 85 81 84 83 83 88 92 92 89 82 73 81 91
 [76] 80 81 82 84 87 85 74 81 82 86 85 82 86 88 86 83 81 81 81 82 86 85 87 89 90
[101] 90 92 86 86 82 80 79 77 79 76 78 78 77 72 75 79 81 86 88 97 94 96 94 91 92
[126] 93 93 87 84 80 78 75 73 81 76 77 71 71 78 67 76 68 82 64 71 81 69 63 70 77
[151] 75 76 68

在上面的示例中,我们使用了 $ 运算符和变量的名称来显示变量的所有值。

airquality$Temp

在这里,我们显示了 airquality 数据集的 Temp 变量的所有值。


在 R 中对变量值进行排序

在 R 中,我们使用 sort() 函数按升序对变量值进行排序。例如,

# sort values of Temp variable
sort(airquality$Temp)

输出

 [1] 56 57 57 57 58 58 59 59 61 61 61 62 62 63 64 64 65 65 66 66 66 67 67 67 67
 [26] 68 68 68 68 69 69 69 70 71 71 71 72 72 72 73 73 73 73 73 74 74 74 74 75 75
 [51] 75 75 76 76 76 76 76 76 76 76 76 77 77 77 77 77 77 77 78 78 78 78 78 78 79
 [76] 79 79 79 79 79 80 80 80 80 80 81 81 81 81 81 81 81 81 81 81 81 82 82 82 82
[101] 82 82 82 82 82 83 83 83 83 84 84 84 84 84 85 85 85 85 85 86 86 86 86 86 86
[126] 86 87 87 87 87 87 88 88 88 89 89 90 90 90 91 91 92 92 92 92 92 93 93 93 94
[151] 94 96 97

R 中数据的统计摘要

我们使用 summary() 函数来获取数据集的统计信息。

summary() 函数返回六个统计摘要

  • 最小值
  • 第一四分位数
  • 中位数
  • 平均值
  • 第三四分位数
  • 最大值

让我们看一个例子,

# get statistical summary of Temp variable
summary(airquality$Temp)

输出

  Min.    1st Qu.  Median   Mean   3rd Qu.   Max. 
  56.00   72.00     79.00     77.88    85.00      97.00

在上面的示例中,我们使用了 summary() 函数来获取 airquality 数据集的 Temp 变量的统计摘要。

这里,

  • 最小值 - 即 56.00
  • 第一四分位数 - 即 72.00
  • 中位数 - 即 79.00
  • 平均值 - 即 77.88
  • 第三四分位数 - 即 85.00
  • 最大值 - 即 97.00
你觉得这篇文章有帮助吗?

我们的高级学习平台,凭借十多年的经验和数千条反馈创建。

以前所未有的方式学习和提高您的编程技能。

试用 Programiz PRO
  • 交互式课程
  • 证书
  • AI 帮助
  • 2000+ 挑战