Python数据分析——类别数据的转换
背景:近在看《Python机器学习》这本书,想整理成笔记,供自己和小伙伴们学习。
这次的内容是数据预处理中的类别数据的转换。
什么是类别数据
什么是类别数据呢?类别数据是有分类特征的数据,相对应的是数值数据。比如说,在一个电影数据集中,电影类型特征列中就有一些类别数据(科幻、爱情、恐怖、乡村等等)。
以下用电影数据集为例说明:
标称特征和有序特征
类别数据特征又可分为标称特征和有序特征。
标称特征只代表类别,数据无序,如电影数据集中的类型、地区特征,爱情和动作是无法做比较的。
有序特征的数据是用于分类且有序的,如电影数据集中的评星,显然5高于4,3高于2,可以比较。
构造电影数据集
我这里用Python的pandas库构造了DataFrame数据框,pandas是非常有用的数据处理工具,各种逆天接口让你爽翻。下面把代码写下:
import pandas as pd
Movies = pd.DataFrame([
['爱情','内地',2,'是'],
['恐怖','欧美',4,'否'],
['动作','日本',3,'否'],
['搞笑','港台',5,'是']
],
columns=['类型','地区','评星','适宜儿童'])
Movies
相关文章