特征选择
概念:就是从所有的特征中,选择出有意义,对模型有帮助的特征,以避免必须将所有特征都导入模型去训练的情况。
特征选择常用的方法有:过滤法,嵌入法,包装法,和降维算法
过滤法
sklearn.feature_selection.VarianceThreshold 方差阈值法
sklearn.feature_selection.VarianceThreshold 方差阈值法,用于特征选择,过滤器法的一种,去掉那些方差没有达到阈值的特征。默认情况下,删除零方差的特征。
若数据维度较高,并且需要剔除一些特征,那么依据每个特征所携带的信息熵进行过滤是一种简便快速的特征筛选方法。
from sklearn.feature_selection import VarianceThresholdfrom sklearn.datasets import load_irisiris = load_iris()print(iris.data[0:5])#方差选择法,返回值为特征选择后的数据 #参数threshold为方差的阈值selector = VarianceThreshold(threshold=1).fit(iris.data, iris.target)data = selector.transform(iris.data)print(data[0:5])print(selector.variances_)
from sklearn.feature_selection import VarianceThresholdimport numpy as np