小言_互联网的博客

R的数据结构(数据框)

415人阅读  评论(0)

数据框

数据框的结构同矩阵的形式相同,都是由行、列组成的。但是在数据的组成上,矩阵和数据框的类型可以不同。矩阵要求其元素是同一类型,如:数值型、字符型、逻辑型。数据框的元素可以是不同的类型,(但同一列的数据必须是同一类型,不同列的数据可以是不同的数据类型)。
数据框的每一行是一个观测数据(或实例或样本)每列包含一个变量(或特征或属性)数值。矩阵中的值只能是数字,但数据框中的值可以是数字,也可以是文本(例如:性别变量中的male或female),也可以是日期(例如:2020/02/02),也可以是逻辑变量(TRUE或FALSE)。
上图是一个数据框形式的电子表格(对20块田地的描述),其中包含七个变量。其中数值型变量为:面积(Area),坡度(Slope),土壤PH值(Soil.pH)和蠕虫密度(Worm.density);类别变量为:田地名(Field.Name)和植被类型(Vegetation);逻辑变量为:是否潮湿(Damp),值为TRUE或FALSE。另外,最左边是行名,最上面是列名。

处理数据框时的注意点

  • 数据框的不同列的数据类型可以不同,但同一列的数据必须属于同一类型。
  • 列名中不允许有空格出现,否则read.table()将读取失败。因此上面的变量名Field Name,Soil pH,Worm density中的空格会用.来代替。

数据框的导入

原始数据
### 数据的导入
我们用R中read.table()函数来读取这个文件

> worms <- read.table("c:\\data\\worms.txt",header=T)

数据导入后的处理

  1. 使用attach使变量可以在R会话中按名称访问
  2. 使用names获取变量名称列表
  3. 使用head查看数据的前几行
  4. 使用tail来查看数据的最后几行
> attach(worms)
> names(worms)
[1] "Field.Name"   "Area"         "Slope"        "Vegetation"   "Soil.pH"     
[6] "Damp"         "Worm.density"
> head(worms)
       Field.Name Area Slope Vegetation Soil.pH  Damp Worm.density
1     Nashs.Field  3.6    11  Grassland     4.1 FALSE            4
2  Silwood.Bottom  5.1     2     Arable     5.2 FALSE            7
3   Nursery.Field  2.8     3  Grassland     4.3 FALSE            2
4     Rush.Meadow  2.4     5     Meadow     4.9  TRUE            5
5 Gunness.Thicket  3.8     0      Scrub     4.2 FALSE            6
6        Oak.Mead  3.1     2  Grassland     3.9 FALSE            2
> tail(worms)
     Field.Name Area Slope Vegetation Soil.pH  Damp Worm.density
15   Pond.Field  4.1     0     Meadow     5.0  TRUE            6
16 Water.Meadow  3.9     0     Meadow     4.9  TRUE            8
17    Cheapside  2.2     8      Scrub     4.7  TRUE            4
18   Pound.Hill  4.4     2     Arable     4.5 FALSE            5
19   Gravel.Pit  2.9     1  Grassland     3.5 FALSE            1
20    Farm.Wood  0.8    10      Scrub     5.1  TRUE            3

数据的查看

查看整个数据框内容

要查看整个数据框的内容,只需键入其名称:

> worms
          Field.Name Area Slope Vegetation Soil.pH  Damp Worm.density
1        Nashs.Field  3.6    11  Grassland     4.1 FALSE            4
2     Silwood.Bottom  5.1     2     Arable     5.2 FALSE            7
3      Nursery.Field  2.8     3  Grassland     4.3 FALSE            2
4        Rush.Meadow  2.4     5     Meadow     4.9  TRUE            5
5    Gunness.Thicket  3.8     0      Scrub     4.2 FALSE            6
6           Oak.Mead  3.1     2  Grassland     3.9 FALSE            2
7       Church.Field  3.5     3  Grassland     4.2 FALSE            3
8            Ashurst  2.1     0     Arable     4.8 FALSE            4
9        The.Orchard  1.9     0    Orchard     5.7 FALSE            9
10     Rookery.Slope  1.5     4  Grassland     5.0  TRUE            7
11       Garden.Wood  2.9    10      Scrub     5.2 FALSE            8
12      North.Gravel  3.3     1  Grassland     4.1 FALSE            1
13      South.Gravel  3.7     2  Grassland     4.0 FALSE            2
14 Observatory.Ridge  1.8     6  Grassland     3.8 FALSE            0
15        Pond.Field  4.1     0     Meadow     5.0  TRUE            6
16      Water.Meadow  3.9     0     Meadow     4.9  TRUE            8
17         Cheapside  2.2     8      Scrub     4.7  TRUE            4
18        Pound.Hill  4.4     2     Arable     4.5 FALSE            5
19        Gravel.Pit  2.9     1  Grassland     3.5 FALSE            1

对数据框进行汇总

summary()函数

summary()函数对数据框进行汇总以后得到的整个数据框每个特征值(每列)的最小值、第一个四分位数、中位数、平均值、第三个四分位数、最大值。

> summary(worms)
        Field.Name      Area           Slope           Vegetation    Soil.pH         Damp          Worm.density 
 Ashurst     : 1   Min.   :0.800   Min.   : 0.00   Arable   :3    Min.   :3.500   Mode :logical   Min.   :0.00  
 Cheapside   : 1   1st Qu.:2.175   1st Qu.: 0.75   Grassland:9    1st Qu.:4.100   FALSE:14        1st Qu.:2.00  
 Church.Field: 1   Median :3.000   Median : 2.00   Meadow   :3    Median :4.600   TRUE :6         Median :4.00  
 Farm.Wood   : 1   Mean   :2.990   Mean   : 3.50   Orchard  :1    Mean   :4.555                   Mean   :4.35  
 Garden.Wood : 1   3rd Qu.:3.725   3rd Qu.: 5.25   Scrub    :4    3rd Qu.:5.000                   3rd Qu.:6.25  
 Gravel.Pit  : 1   Max.   :5.100   Max.   :11.00                  Max.   :5.700                   Max.   :9.00  
 (Other)     :14

从上面的运行结果可以看出,连续变量用六个量来归纳:最小值(Min.)、第一个四分位数(1st Qu.)、中位数(Median)、平均值(Mean)、第三个四分位数(3rd Qu.)、最大值(Max.)。 对于类别变量和逻辑变量,将算出每类的个数。注意:类别变量Field.Name的每一行都不一样,由于R最多可以列出6个,因此其它14个用(Other)代替。

数据框的索引

在R中,下标出现在方括号[]中。dataframe是一个二维对象,由行和列组成。行由第一个(左)下标引用,列由第二个(右)下标引用。

> worms[3, 5]          #是Soil.pH(第5列变量)的第3行值
[1] 4.3
> worms[14:19, 7]      #从Worm.density(第7列变量)提取一系列值(例如第14至19行),我们可以使用冒号运算符:生成一系列下标(14、15、16、17、18和19)
[1] 0 6 8 4 5 1
> worms[1:5, 2:3]      #如果要提取一组行和一组列,需要为行和列下标生成一系列下标。 假设我们要从第1行到第5行使用Area和Slope(第2列和第3列):
  Area Slope
1  3.6    11
2  5.1     2
3  2.8     3
4  2.4     5
5  3.8     0
> worms[3, ]           #要选择列中的所有条目,语法为“空白逗号数字”
    Field.Name Area Slope Vegetation Soil.pH  DampWorm.density
    3 Nursery.Field  2.8     3  Grassland     4.3 FALSE     2
> worms[ ,c(1, 5)]       #您可以提取多行或多列。 例如,使用连接函数c()来创建所需的列号c(1, 5)来提取Field.Name和Soil.pH(第1列和第5列)列:
          Field.Name Soil.pH
1        Nashs.Field     4.1
2     Silwood.Bottom     5.2
3      Nursery.Field     4.3
4        Rush.Meadow     4.9
5    Gunness.Thicket     4.2
6           Oak.Mead     3.9
7       Church.Field     4.2
8            Ashurst     4.8
9        The.Orchard     5.7
10     Rookery.Slope     5.0
11       Garden.Wood     5.2
12      North.Gravel     4.1
13      South.Gravel     4.0
14 Observatory.Ridge     3.8
15        Pond.Field     5.0
16      Water.Meadow     4.9
17         Cheapside     4.7
18        Pound.Hill     4.5
19        Gravel.Pit     3.5
20         Farm.Wood     5.1

数据的处理

随机选择行

sample()函数

使用sample()函数来执行此操作:默认的replace = FALSE表示不放回抽样,会随机打乱行顺序,而选项replace = TRUE表示有放回抽样,则允许某些行有多个副本,而忽略其他行 。 来看下这两者的区别:

不放回抽样,无重复行

样本名[sample(抽样范围,抽样次数,replace=F)]

## 不放回抽样,无重复行
> worms[sample(1:20, 10), ] 
          Field.Name Area Slope Vegetation Soil.pH  Damp Worm.density
10     Rookery.Slope  1.5     4  Grassland     5.0  TRUE            7
18        Pound.Hill  4.4     2     Arable     4.5 FALSE            5
7       Church.Field  3.5     3  Grassland     4.2 FALSE            3
6           Oak.Mead  3.1     2  Grassland     3.9 FALSE            2
2     Silwood.Bottom  5.1     2     Arable     5.2 FALSE            7
4        Rush.Meadow  2.4     5     Meadow     4.9  TRUE            5
11       Garden.Wood  2.9    10      Scrub     5.2 FALSE            8
8            Ashurst  2.1     0     Arable     4.8 FALSE            4
13      South.Gravel  3.7     2  Grassland     4.0 FALSE            2
14 Observatory.Ridge  1.8     6  Grassland     3.8 FALSE            0
放回抽样,可能存在重复行

样本名[sample(抽样范围,抽样次数,replace=T)]

> worms[sample(1:20, 10, replace=T), ]
            Field.Name Area Slope Vegetation Soil.pH  Damp Worm.density
9          The.Orchard  1.9     0    Orchard     5.7 FALSE            9
10       Rookery.Slope  1.5     4  Grassland     5.0  TRUE            7
17           Cheapside  2.2     8      Scrub     4.7  TRUE            4
13        South.Gravel  3.7     2  Grassland     4.0 FALSE            2
5      Gunness.Thicket  3.8     0      Scrub     4.2 FALSE            6
9.1        The.Orchard  1.9     0    Orchard     5.7 FALSE            9
14   Observatory.Ridge  1.8     6  Grassland     3.8 FALSE            0
15          Pond.Field  4.1     0     Meadow     5.0  TRUE            6
15.1        Pond.Field  4.1     0     Meadow     5.0  TRUE            6
8              Ashurst  2.1     0     Arable     4.8 FALSE            4

sample()函数

排序

常见的是按行对数据框进行排序,而很少按列进行排序。 因为我们要按行(第一个下标)进行排序,所以我们需在逗号前指定行下标的顺序。 因此,为了根据其中一列中的值(例如Slope)对数据框进行排序。
数据名[order(列名),]

> worms[order(Slope), ]
          Field.Name Area Slope Vegetation Soil.pH  Damp Worm.density
5    Gunness.Thicket  3.8     0      Scrub     4.2 FALSE            6
8            Ashurst  2.1     0     Arable     4.8 FALSE            4
9        The.Orchard  1.9     0    Orchard     5.7 FALSE            9
15        Pond.Field  4.1     0     Meadow     5.0  TRUE            6
16      Water.Meadow  3.9     0     Meadow     4.9  TRUE            8
12      North.Gravel  3.3     1  Grassland     4.1 FALSE            1
19        Gravel.Pit  2.9     1  Grassland     3.5 FALSE            1
2     Silwood.Bottom  5.1     2     Arable     5.2 FALSE            7
6           Oak.Mead  3.1     2  Grassland     3.9 FALSE            2
13      South.Gravel  3.7     2  Grassland     4.0 FALSE            2
18        Pound.Hill  4.4     2     Arable     4.5 FALSE            5
3      Nursery.Field  2.8     3  Grassland     4.3 FALSE            2
7       Church.Field  3.5     3  Grassland     4.2 FALSE            3
10     Rookery.Slope  1.5     4  Grassland     5.0  TRUE            7
4        Rush.Meadow  2.4     5     Meadow     4.9  TRUE            5
14 Observatory.Ridge  1.8     6  Grassland     3.8 FALSE            0
17         Cheapside  2.2     8      Scrub     4.7  TRUE            4
11       Garden.Wood  2.9    10      Scrub     5.2 FALSE            8
20         Farm.Wood  0.8    10      Scrub     5.1  TRUE            3
1        Nashs.Field  3.6    11  Grassland     4.1 FALSE            4

这里有一些注意事项。 由于我们希望将排序应用于所有列,因此列下标(逗号后)为空白:[order(Slope), ]。 原始行号保留在最左边。 当排序变量的值相同时(例如Slope = 0有5个地方),则各行按其原始顺序(5 8 9 15 16)排列。
数据框以相反的顺序(降序),则可以在order()函数之外使用rev()函数,如下所示:

> worms[rev(order(Slope)), ]
          Field.Name Area Slope Vegetation Soil.pH  Damp Worm.density
1        Nashs.Field  3.6    11  Grassland     4.1 FALSE            4
20         Farm.Wood  0.8    10      Scrub     5.1  TRUE            3
11       Garden.Wood  2.9    10      Scrub     5.2 FALSE            8
17         Cheapside  2.2     8      Scrub     4.7  TRUE            4
14 Observatory.Ridge  1.8     6  Grassland     3.8 FALSE            0
4        Rush.Meadow  2.4     5     Meadow     4.9  TRUE            5
10     Rookery.Slope  1.5     4  Grassland     5.0  TRUE            7
7       Church.Field  3.5     3  Grassland     4.2 FALSE            3
3      Nursery.Field  2.8     3  Grassland     4.3 FALSE            2
18        Pound.Hill  4.4     2     Arable     4.5 FALSE            5
13      South.Gravel  3.7     2  Grassland     4.0 FALSE            2
6           Oak.Mead  3.1     2  Grassland     3.9 FALSE            2
2     Silwood.Bottom  5.1     2     Arable     5.2 FALSE            7
19        Gravel.Pit  2.9     1  Grassland     3.5 FALSE            1
12      North.Gravel  3.3     1  Grassland     4.1 FALSE            1
16      Water.Meadow  3.9     0     Meadow     4.9  TRUE            8
15        Pond.Field  4.1     0     Meadow     5.0  TRUE            6
9        The.Orchard  1.9     0    Orchard     5.7 FALSE            9
8            Ashurst  2.1     0     Arable     4.8 FALSE            4
5    Gunness.Thicket  3.8     0      Scrub     4.2 FALSE            6

现在请注意,如果排序变量的值相同时(例如Slope = 0),则原始行的顺序也相反(16 15 9 8 5)。
其实也可以不使用rev()函数来实现降序,直接通过设置order()函数中的decreasing参数为TRUE来实现,如下所示:(对于这种情况,如果排序变量的值相同时(例如Slope = 0),还是保持原始行的顺序(5 8 9 15 16)。)

> worms[order(Slope, decreasing=T), ]
          Field.Name Area Slope Vegetation Soil.pH  Damp Worm.density
1        Nashs.Field  3.6    11  Grassland     4.1 FALSE            4
11       Garden.Wood  2.9    10      Scrub     5.2 FALSE            8
20         Farm.Wood  0.8    10      Scrub     5.1  TRUE            3
17         Cheapside  2.2     8      Scrub     4.7  TRUE            4
14 Observatory.Ridge  1.8     6  Grassland     3.8 FALSE            0
4        Rush.Meadow  2.4     5     Meadow     4.9  TRUE            5
10     Rookery.Slope  1.5     4  Grassland     5.0  TRUE            7
3      Nursery.Field  2.8     3  Grassland     4.3 FALSE            2
7       Church.Field  3.5     3  Grassland     4.2 FALSE            3
2     Silwood.Bottom  5.1     2     Arable     5.2 FALSE            7
6           Oak.Mead  3.1     2  Grassland     3.9 FALSE            2
13      South.Gravel  3.7     2  Grassland     4.0 FALSE            2
18        Pound.Hill  4.4     2     Arable     4.5 FALSE            5
12      North.Gravel  3.3     1  Grassland     4.1 FALSE            1
19        Gravel.Pit  2.9     1  Grassland     3.5 FALSE            1
5    Gunness.Thicket  3.8     0      Scrub     4.2 FALSE            6
8            Ashurst  2.1     0     Arable     4.8 FALSE            4
9        The.Orchard  1.9     0    Orchard     5.7 FALSE            9
15        Pond.Field  4.1     0     Meadow     5.0  TRUE            6
16      Water.Meadow  3.9     0     Meadow     4.9  TRUE            8

多限制条件排序

更复杂的排序操作可能涉及两个或多个变量。这可以通过在order()函数中使用逗号分隔一系列变量名来实现。R将根据左边的变量排序,而当第一个变量的值相同时接着按第二个变量排序,依此类推。
order(变量1,变量2,…)

> worms[order(Vegetation, Worm.density), ]    #们要按每种植被类型(Vegetation)中的蠕虫密度(Worm.density)对数据框的行进行排序:
          Field.Name Area Slope Vegetation Soil.pH  Damp Worm.density
8            Ashurst  2.1     0     Arable     4.8 FALSE            4
18        Pound.Hill  4.4     2     Arable     4.5 FALSE            5
2     Silwood.Bottom  5.1     2     Arable     5.2 FALSE            7
14 Observatory.Ridge  1.8     6  Grassland     3.8 FALSE            0
12      North.Gravel  3.3     1  Grassland     4.1 FALSE            1
19        Gravel.Pit  2.9     1  Grassland     3.5 FALSE            1
3      Nursery.Field  2.8     3  Grassland     4.3 FALSE            2
6           Oak.Mead  3.1     2  Grassland     3.9 FALSE            2
13      South.Gravel  3.7     2  Grassland     4.0 FALSE            2
7       Church.Field  3.5     3  Grassland     4.2 FALSE            3
1        Nashs.Field  3.6    11  Grassland     4.1 FALSE            4
10     Rookery.Slope  1.5     4  Grassland     5.0  TRUE            7
4        Rush.Meadow  2.4     5     Meadow     4.9  TRUE            5
15        Pond.Field  4.1     0     Meadow     5.0  TRUE            6
16      Water.Meadow  3.9     0     Meadow     4.9  TRUE            8
9        The.Orchard  1.9     0    Orchard     5.7 FALSE            9
20         Farm.Wood  0.8    10      Scrub     5.1  TRUE            3
17         Cheapside  2.2     8      Scrub     4.7  TRUE            4
5    Gunness.Thicket  3.8     0      Scrub     4.2 FALSE            6
11       Garden.Wood  2.9    10      Scrub     5.2 FALSE            8

请注意,与单条件排序一样,当值一样时(例如Vegetation=Grassland, Worm.density=2),行仍按其原始顺序排列(3 6 13)

部分数据排序

> worms[order(Vegetation,Worm.density), c(4,7,5,3)]   #我们想要植被,蠕虫密度,土壤pH值和坡度这四列,而且顺序从左到右
   Vegetation Worm.density Soil.pH Slope
8      Arable            4     4.8     0
18     Arable            5     4.5     2
2      Arable            7     5.2     2
14  Grassland            0     3.8     6
12  Grassland            1     4.1     1
19  Grassland            1     3.5     1
3   Grassland            2     4.3     3
6   Grassland            2     3.9     2
13  Grassland            2     4.0     2
7   Grassland            3     4.2     3
1   Grassland            4     4.1    11
10  Grassland            7     5.0     4
4      Meadow            5     4.9     5
15     Meadow            6     5.0     0
16     Meadow            8     4.9     0
9     Orchard            9     5.7     0
20      Scrub            3     5.1    10
17      Scrub            4     4.7     8
5       Scrub            6     4.2     0
11      Scrub            8     5.2    10

根据变量名排序

> worms[order(Vegetation,Worm.density), c("Vegetation", "Worm.density", "Soil.pH", "Slope")]
   Vegetation Worm.density Soil.pH Slope
8      Arable            4     4.8     0
18     Arable            5     4.5     2
2      Arable            7     5.2     2
14  Grassland            0     3.8     6
12  Grassland            1     4.1     1
19  Grassland            1     3.5     1
3   Grassland            2     4.3     3
6   Grassland            2     3.9     2
13  Grassland            2     4.0     2
7   Grassland            3     4.2     3
1   Grassland            4     4.1    11
10  Grassland            7     5.0     4
4      Meadow            5     4.9     5
15     Meadow            6     5.0     0
16     Meadow            8     4.9     0
9     Orchard            9     5.7     0
20      Scrub            3     5.1    10
17      Scrub            4     4.7     8
5       Scrub            6     4.2     0
11      Scrub            8     5.2    10

使用逻辑条件选择行

一种常见的操作是根据一个或多个变量(数据框的列)中的值从数据框中选择某些行。假设我们希望将数据限制为田地是潮湿的情况(即Damp=TRUE)。且我们需要所有列,因此下标的语法为[“哪些行”, 空白]:

> worms[Damp == T, ]
      Field.Name Area Slope Vegetation Soil.pH Damp Worm.density
4    Rush.Meadow  2.4     5     Meadow     4.9 TRUE            5
10 Rookery.Slope  1.5     4  Grassland     5.0 TRUE            7
15    Pond.Field  4.1     0     Meadow     5.0 TRUE            6
16  Water.Meadow  3.9     0     Meadow     4.9 TRUE            8
17     Cheapside  2.2     8      Scrub     4.7 TRUE            4
20     Farm.Wood  0.8    10      Scrub     5.1 TRUE            3

请注意,由于Damp是一个逻辑变量(只有两个可能的值:TRUE或FALSE),我们可以用缩写形式T或F来引用TRUE或FALSE。还要注意,在这种情况下T不用引号来引起:T表示真,而不是字符"T"。 另一个要点是,逻辑条件的符号是==(两个连续的等号,它们之间是没有空格的)。
更多数据框操作


转载:https://blog.csdn.net/qq_40993358/article/details/105735801
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场