随机森林算法入门(python)

前言: 随机森林是一个非常灵活的机器学习方法,从市场营销到医疗保险有着众多的应用。它可以用于市场营销对客户获取和存留建模或预测病人的疾病风险和易感性。

随机森林能够用于分类和回归问题,可以处理大量特征,并能够帮助估计用于建模数据变量的重要性。

这篇文章是关于如何使用python构建随机森林模型。

1 什么是随机森林

随机森林可以用于几乎任何一种预测问题(包括非线性问题)。它是一个相对较新的机器学习策略(90年代诞生于贝尔实验室)可以用在任何方面。它属于机器学习中的集成学习这一大类。

1.1 集成学习

集成学习是将多个模型进行组合来解决单一的预测问题。它的原理是生成多个分类器模型,各自独立地学习并作出预测。这些预测最后结合起来得到预测结果,因此和单独分类器的结果相比,结果一样或更好。

随机森林是集成学习的一个分支,因为它依靠于决策树的集成。更多关于python实现集成学习的文档: scikit-learn 文档。

1.2 随机决策树

我们知道随机森林是将其他的模型进行聚合, 但具体是哪种模型呢?从其名称也可以看出,随机森林聚合的是分类(或回归) 树。一颗决策树是由一系列的决策组合而成的,可用于数据集的观测值进行分类 。

2 为什么要用它

随机森林是机器学习方法中的leatherman(多功能折叠刀)。你几乎可以把任何东西扔给它。它在估计推断映射方面做的特别好,从而不需要类似svm医一样过多的调参(这点对时间紧迫的朋友非常好)。

2.1 一个映射的例子

随机森林可以在未经特意手工进行数据变换的情况下学习。以函数f(x)=log(x)为例。

我们将在yhat自己的交互环境rodeo中利用python生成分析数据,你可以在here下载rodeo的mac,windows和linux的安装文件。

首先,我们先生成一下数据并添加噪声。

import numpy as np
import pylab as pl
x = np.random.uniform(1, 100, 1000)
y = np.log(x) + np.random.normal(0, .3, 1000)
pl.scatter(x, y, s=1, label=”log(x) with noise”)
pl.plot(np.arange(1, 100), np.log(np.arange(1, 100)), c=”b”, label=”log(x) true function”)
pl.xlabel(“x”)
pl.ylabel(“f(x) = log(x)”)
pl.legend(loc=”best”)
pl.title(“a basic log function”)
pl.show()

得到如下结果:

3.3 回归

随机森林也可以用于回归问题。

我发现,不像其他的方法,随机森林非常擅长于分类变量或分类变量与连续变量混合的情况。

4 一个简单的python示例

from sklearn.datasets import load_iris
from sklearn.ensemble import randomforestclassifier
import pandas as pd
import numpy as np
iris = load_iris()
df = pd.dataframe(iris.data, columns=iris.feature_names)
df[‘is_train’] = np.random.uniform(0, 1, len(df))

Posted in 未分类

发表评论