数据集是以表格形式呈现的数据集合。
R 编程语言拥有大量内置数据集,通常可用作演示数据,以说明 R 函数的工作原理。
R 中最常用的内置数据集
在 R 中,我们可以尝试大量数据集,但最常用的内置数据集是
airquality
- 纽约空气质量测量数据AirPassengers
- 1949-1960 年每月航空乘客数量mtcars
- Motor Trend 汽车路测数据iris
- 埃德加·安德森的鸢尾花数据
这些是最常用的内置数据集中的一小部分。如果您想了解其他内置数据集,请访问 R 数据集包。
在本教程中,我们将使用 airquality
数据集来演示数据集在 R 中的使用。
显示 R 数据集
要显示数据集,我们只需在 print()
函数中写入数据集的名称。例如,
# display airquality dataset
print(airquality)
输出
Ozone Solar.R Wind Temp Month Day 1 41 190 7.4 67 5 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 4 18 313 11.5 62 5 4 5 NA NA 14.3 56 5 5 6 28 NA 14.9 66 5 6 7 23 299 8.6 65 5 7 8 19 99 13.8 59 5 8 9 8 19 20.1 61 5 9 10 NA 194 8.6 69 5 10 11 7 NA 6.9 74 5 11 12 16 256 9.7 69 5 12 13 11 290 9.2 66 5 13 14 14 274 10.9 68 5 14 15 18 65 13.2 58 5 15 16 14 334 11.5 64 5 16 17 34 307 12.0 66 5 17 18 6 78 18.4 57 5 18 19 30 322 11.5 68 5 19 20 11 44 9.7 62 5 20 21 1 8 9.7 59 5 21
在这里,我们显示了从 1 到 21 的 airquality
数据集,但总共有 153 个数据集。
该数据集包含纽约的空气质量测量数据。
获取数据集信息
在 R 中,我们可以使用各种函数来获取数据集的信息,例如:数据集的维度、行数和列数、变量名称等等。例如,
# use dim() to get dimension of dataset
cat("Dimension:",dim(airquality))
# use nrow() to get number of rows
cat("\nRow:",nrow(airquality))
# use ncol() to get number of columns
cat("\nColumn:",ncol(airquality))
# use names() to get name of variable of dataset
cat("\nName of Variables:",names(airquality))
输出
Dimension: 153 6 Row: 153 Column: 6 Name of Variables: Ozone Solar.R Wind Temp Month Day
在上面的示例中,我们使用了各种函数来获取 airquality
数据集的信息。
dim()
- 返回数据集的维度,即 153 6nrow()
- 返回行数(观察值),即 153ncol()
- 返回列数(变量),即 6names()
- 返回所有变量的名称
在 R 中显示变量值
要在 R 中显示指定变量的所有值,我们使用 $
运算符和变量的名称。例如,
# display all values of Temp variable
print(airquality$Temp)
输出
[1] 67 72 74 62 56 66 65 59 61 69 74 69 66 68 58 64 66 57 68 62 59 73 61 61 57 [26] 58 57 67 81 79 76 78 74 67 84 85 79 82 87 90 87 93 92 82 80 79 77 72 65 73 [51] 76 77 76 76 76 75 78 73 80 77 83 84 85 81 84 83 83 88 92 92 89 82 73 81 91 [76] 80 81 82 84 87 85 74 81 82 86 85 82 86 88 86 83 81 81 81 82 86 85 87 89 90 [101] 90 92 86 86 82 80 79 77 79 76 78 78 77 72 75 79 81 86 88 97 94 96 94 91 92 [126] 93 93 87 84 80 78 75 73 81 76 77 71 71 78 67 76 68 82 64 71 81 69 63 70 77 [151] 75 76 68
在上面的示例中,我们使用了 $
运算符和变量的名称来显示变量的所有值。
airquality$Temp
在这里,我们显示了 airquality
数据集的 Temp
变量的所有值。
在 R 中对变量值进行排序
在 R 中,我们使用 sort()
函数按升序对变量值进行排序。例如,
# sort values of Temp variable
sort(airquality$Temp)
输出
[1] 56 57 57 57 58 58 59 59 61 61 61 62 62 63 64 64 65 65 66 66 66 67 67 67 67 [26] 68 68 68 68 69 69 69 70 71 71 71 72 72 72 73 73 73 73 73 74 74 74 74 75 75 [51] 75 75 76 76 76 76 76 76 76 76 76 77 77 77 77 77 77 77 78 78 78 78 78 78 79 [76] 79 79 79 79 79 80 80 80 80 80 81 81 81 81 81 81 81 81 81 81 81 82 82 82 82 [101] 82 82 82 82 82 83 83 83 83 84 84 84 84 84 85 85 85 85 85 86 86 86 86 86 86 [126] 86 87 87 87 87 87 88 88 88 89 89 90 90 90 91 91 92 92 92 92 92 93 93 93 94 [151] 94 96 97
R 中数据的统计摘要
我们使用 summary()
函数来获取数据集的统计信息。
summary()
函数返回六个统计摘要
- 最小值
- 第一四分位数
- 中位数
- 平均值
- 第三四分位数
- 最大值
让我们看一个例子,
# get statistical summary of Temp variable
summary(airquality$Temp)
输出
Min. 1st Qu. Median Mean 3rd Qu. Max. 56.00 72.00 79.00 77.88 85.00 97.00
在上面的示例中,我们使用了 summary()
函数来获取 airquality
数据集的 Temp
变量的统计摘要。
这里,
- 最小值 - 即 56.00
- 第一四分位数 - 即 72.00
- 中位数 - 即 79.00
- 平均值 - 即 77.88
- 第三四分位数 - 即 85.00
- 最大值 - 即 97.00