Python数据分析——类别数据的转换

2020-06-19 00:00:00 数据 编码 类型 地区 特征

背景:近在看《Python机器学习》这本书,想整理成笔记,供自己和小伙伴们学习。

这次的内容是数据预处理中的类别数据的转换。

什么是类别数据

什么是类别数据呢?类别数据是有分类特征的数据,相对应的是数值数据。比如说,在一个电影数据集中,电影类型特征列中就有一些类别数据(科幻、爱情、恐怖、乡村等等)。

以下用电影数据集为例说明:

利用Pandas写的DataFrame数据框

标称特征和有序特征

类别数据特征又可分为标称特征有序特征。

标称特征只代表类别,数据无序,如电影数据集中的类型、地区特征,爱情和动作是无法做比较的。

有序特征的数据是用于分类且有序的,如电影数据集中的评星,显然5高于4,3高于2,可以比较。

构造电影数据集

我这里用Python的pandas库构造了DataFrame数据框,pandas是非常有用的数据处理工具,各种逆天接口让你爽翻。下面把代码写下:

import pandas as pd
Movies = pd.DataFrame([
    ['爱情','内地',2,'是'],
    ['恐怖','欧美',4,'否'],
    ['动作','日本',3,'否'],
    ['搞笑','港台',5,'是']
                      ],
    columns=['类型','地区','评星','适宜儿童'])
Movies

相关文章