如何使用Python scikit-learn机器学习库做分类和回归预测
scikit-learn是基于Python的一个机器学习库,你可以在scikit-learn库中选择合适的模型,使用它训练数据集并对新数据集作出预测。
对于初学者来说,有一个共同的困惑:
怎么使用scikit-learn库中的模型做预测?
本文的目的就是解答这个困惑,手把手地教你使用机器学习模型。
本文分以下三点内容:
- 针对特定的预测如何选择合适的模型
- 什么是分类预测
- 什么是回归预测
废话少说,让我们开始吧!
一、选择模型
模型选择是机器学习的步。
你可以使用K折交叉验证或者分割训练集/测试集的方法处理数据集,并用来训练模型。这样做为了能够让训练出来的模型对新数据集做出预测。
还要判断该问题是分类问题还是回归问题,分类问题预测的是类别、标签,一般来说是二分类即(0,1),比如是否下雨。回归问题预测的是连续的数值,比如股票的价格。
二、如何使用分类模型
分类问题是指模型学习输入特征和输出标签之间的映射关系,然后对新的输入预测标签。拿识别垃圾邮件举例,输入的是邮件的文本、时间、标题等等特征,而输出的则是垃圾邮件和非垃圾邮件两个标签。模型通过训练数据集,学习特征与标签的关系,才能做出预测。
下面给出一个简单的,针对二进制分类问题的LogisticRegression(逻辑回归)模型代码示例。
虽然我们用的是LogisticRegression(逻辑回归)分类模型解决问题,但scikit-learn中的其它分类模型同样适用。
# 导入LogisticRegression方法
from sklearn.linear_model import LogisticRegression
# 导入数据生成器
from sklearn.datasets.samples_generator import make_blobs
# 生成2维数据,类别是2类
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# 训练模型
model = LogisticRegression()
model.fit(X, y)
相关文章