数据探索很麻烦？推荐一款史上强大的特征分析可视化工具

2022-04-01 00:00:00 选择数据模型可视化特征

作者：xiaoyu

微信公众号：Python数据科学

知乎：python数据分析师

前言

玩过建模的朋友都知道，在建立模型之前有很长的一段特征工程工作要做，而在特征工程的过程中，探索性数据分析又是必不可少的一部分，因为如果我们要对各个特征进行细致的分析，那么必然会进行一些可视化以辅助我们来做选择和判断。

可视化的工具有很多，但是能够针对特征探索性分析而进行专门可视化的不多，今天给大家介绍一款功能十分强大的工具：yellowbrick，希望通过这个工具的辅助可以节省更多探索的时间，快速掌握特征信息。

功能

雷达 RadViz

RadViz雷达图是一种多变量数据可视化算法，它围绕圆周均匀地分布每个特征，并且标准化了每个特征值。一般数据科学家使用此方法来检测类之间的关联。例如，是否有机会从特征集中学习一些东西或是否有太多的噪音？

# Load the classification data set
data = load_data("occupancy")

# Specify the features of interest and the classes of the target
features = ["temperature", "relative humidity", "light", "C02", "humidity"]
classes = ["unoccupied", "occupied"]

# Extract the instances and target
X = data[features]
y = data.occupancy

# Import the visualizer
from yellowbrick.features import RadViz

# Instantiate the visualizer
visualizer = RadViz(classes=classes, features=features)

visualizer.fit(X, y)      # Fit the data to the visualizer
visualizer.transform(X)   # Transform the data
visualizer.poof()         # Draw/show/poof the data

相关文章