组合分类数组

此示例演示如何组合类别变量数组。

创建分类数组

让我们创建一个类别值数组，其中存储了一组25名学生的午休饮料偏好。 A.

Pkg.add("CategoricalArrays")

using Random, CategoricalArrays
Random.seed!(123)

A = rand(["牛奶", "果汁；果汁", "水"], 25)
A = categorical(A, levels=["牛奶", "果汁；果汁", "水"], ordered=true) # 传递一个标签向量来设置它们的顺序

25-element CategoricalArray{String,1,UInt32}:
 "сок"
 "сок"
 "вода"
 "молоко"
 "сок"
 "сок"
 "молоко"
 "вода"
 "сок"
 "молоко"
 "сок"
 "вода"
 "молоко"
 "сок"
 "сок"
 "молоко"
 "вода"
 "сок"
 "сок"
 "молоко"
 "молоко"
 "вода"
 "вода"
 "молоко"
 "сок"

分类数组的汇总统计信息:

Pkg.add( "FreqTables" )

using FreqTables
freqtable(A)

3-element Named Vector{Int64}
Dim1   │ 
───────┼───
молоко │  8
сок    │ 11
вода   │  6

让我们创建另一个类别数组，其中包含来自该组的28名学生的愿望。 B.

B = rand(["牛奶", "果汁；果汁", "水"], 28) # 更简洁的语法
B = categorical(B)

28-element CategoricalArray{String,1,UInt32}:
 "молоко"
 "молоко"
 "молоко"
 "сок"
 "вода"
 "молоко"
 "молоко"
 "сок"
 "молоко"
 "молоко"
 "молоко"
 "сок"
 "молоко"
 ⋮
 "вода"
 "сок"
 "вода"
 "молоко"
 "вода"
 "вода"
 "вода"
 "молоко"
 "сок"
 "вода"
 "молоко"
 "вода"

统计摘要:

freqtable(B)

3-element Named Vector{Int64}
Dim1   │ 
───────┼───
вода   │  9
молоко │ 13
сок    │  6

组合分类数组

让我们结合类中的数据 A 和 B 成一个分类数组 Group1.

Group1 = vcat(A, B)

53-element CategoricalArray{String,1,UInt32}:
 "сок"
 "сок"
 "вода"
 "молоко"
 "сок"
 "сок"
 "молоко"
 "вода"
 "сок"
 "молоко"
 "сок"
 "вода"
 "молоко"
 ⋮
 "вода"
 "сок"
 "вода"
 "молоко"
 "вода"
 "вода"
 "вода"
 "молоко"
 "сок"
 "вода"
 "молоко"
 "вода"

统计摘要:

freqtable(Group1)

3-element Named Vector{Int64}
Dim1   │ 
───────┼───
молоко │ 21
сок    │ 17
вода   │ 15

使用其他类别创建分类数组

创建分类数组 Group2，包含50名学生的愿望，并提供额外的饮料选项：苏打水。

Group2 = rand(["果汁；果汁", "牛奶", "苏打,苏打", "水"], 50)
Group2 = categorical( Group2 )

50-element CategoricalArray{String,1,UInt32}:
 "молоко"
 "газировка"
 "вода"
 "газировка"
 "газировка"
 "вода"
 "молоко"
 "молоко"
 "сок"
 "газировка"
 "газировка"
 "молоко"
 "вода"
 ⋮
 "вода"
 "газировка"
 "сок"
 "сок"
 "сок"
 "газировка"
 "вода"
 "сок"
 "вода"
 "газировка"
 "сок"
 "газировка"

统计摘要:

freqtable(Group2)

4-element Named Vector{Int64}
Dim1      │ 
──────────┼───
вода      │ 13
газировка │ 18
молоко    │  7
сок       │ 12

组合不同类别的数组

结合来自 Group1 和 Group2.

students = [Group1; Group2]

103-element CategoricalArray{String,1,UInt32}:
 "сок"
 "сок"
 "вода"
 "молоко"
 "сок"
 "сок"
 "молоко"
 "вода"
 "сок"
 "молоко"
 "сок"
 "вода"
 "молоко"
 ⋮
 "вода"
 "газировка"
 "сок"
 "сок"
 "сок"
 "газировка"
 "вода"
 "сок"
 "вода"
 "газировка"
 "сок"
 "газировка"

汇总统计。组合时，第二个数组（soda）特有的类别被添加到第一个数组（牛奶，水，果汁，苏打水）中的类别列表的末尾。

freqtable(students)

4-element Named Vector{Int64}
Dim1      │ 
──────────┼───
молоко    │ 28
сок       │ 29
вода      │ 28
газировка │ 18

要更改类别数组中类别的顺序，请使用以下函数 levels!.

levels!(students, ["果汁；果汁", "牛奶", "水", "苏打,苏打"])
levels(students)

4-element Vector{String}:
 "сок"
 "молоко"
 "вода"
 "газировка"

组合分类数组

要查找存在于以下类别的唯一值 Group1 和 Group2，您可以使用该功能 union.

C = union(Group1, Group2)

4-element Vector{CategoricalValue{String, UInt32}}:
 "сок"
 "вода"
 "молоко"
 "газировка"

结论

此示例中的所有分类数组都是无序的。要组合有序类别数组，它们必须具有相同的类别集，包括它们的顺序。