一.scikit-learn安装
1.准备工作:
- Python (>= 2.6 or >= 3.3),
- Numpy (>= 1.6.1)
- Scipy (>= 0.9),
- Matplotlib(可选).
2.下载地址:
3.安装过程:
- 打开cmd,先输入python,进入编程模式则python已安装成功(exit()退出编程模式)
- 将目录切换至Numpy等的存储目录下,输入pip install .\文件名
- 安装成功显示successful installed 文件名
二.scikit-learn数据集
1.三类数据集函数:
- datasets.load_XXX():获取小规模数据集,数据包含在datasets中
- datasets.fetch_XXX():获取大规模数据集,数据需从网络上下载
- datasets.make_XXX():本地生成数据集
1.1 datasets.load_XXX()中数据集格式:
- data:特征数据数组,n_samples*n_features
- target:标签数组
- DESCR:数据描述
- feature_names:特征名
- target_names:标签名
1.2 dataset.load_XXX()中的数据集:
- load_boston():房屋特征-房价,用于regression
- load_diabetes():糖尿病数据,用于 regression
- load_linnerud():Linnerud数据集,有多个标签,用于 multilabel regression
- load_iris():鸢尾花特征和类别,用于classification
- load_digits([n_class]):手写数字识别
- load_sample_images():载入图片数据集,共两张图
- load_sample_image(name):载入图片数据集中的一张图
- load_files(container_path, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error=’strict’, random_state=0):从本地目录获取文本数据,并根据二级目录做分类
1.3
数据集加载:
from sklearn import datasets
iris=datasets.load_iris()
x=iris.data
y=iris.target
print iris.feature_names
print iris.target_names
print x.shape,y.shape
3.预处理——库函数使用
4.分类器
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import linear_model
iris=datasets.load_iris()
x=iris.data
y=iris.target
train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3)
logistic=linear_model.LogisticRegression()
logistic.fit(train_x,train_y)
print logistic.score(test_x,test_y)
|
|