lightgbm模型处理类别型特征

论坛 期权论坛 编程之家     
选择匿名的用户   2021-5-28 15:22   11   0

类别型特征编码由于是字符串类型,所以一般需要经过编码处理转换成数值型。本文主要想说的是直接将字符串值传到lightgbm中训练。注意:xgboost模型也需要提前one-hot编码转换才能入模。

下面是代码:

    a = [i for i in range(1000)]
    b = ["tag","bga","efd","rfh","esg","tyh"]
    c = [b[randint(0,5)] for i in range(1000)]
    d = [randint(0,1) for i in range(1000)]
    tmp = []
    for i in range(1000):
        tmp.append([a[i],c[i],d[i]])
    df = pd.DataFrame(tmp,columns=["a","b","label"])   # 造数据


    import lightgbm

    df["b"] = df["b"].astype('category')   # 必须有,不然报错
    cf = lightgbm.LGBMClassifier(max_depth=3)
    cf.fit(df[["a","b"]],df["label"],categorical_feature="b")  # 记得加上这个参数

    from sklearn.metrics import accuracy_score
    print(accuracy_score(df["label"].values, cf.predict(df[["a","b"]])))

就是这么easy!

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP