文本相似度--中文分词--拆成单个字

论坛 期权论坛 编程之家     
选择匿名的用户   2021-5-16 23:40   66   0
# 中文分词
def fen_ci(string, cut_all=False, append_tag=False, filter_set=[]):
    seq = []
    if append_tag:
        seq.append('start')
    for ws in jieba.cut(string, cut_all=cut_all):
        if ws not in filter_set:
            if Chinese(ws):
                for ch in ws:
                    seq.append(ch)
            else:
                seq.append(ws)
    if append_tag:
        seq.append('end')
    return seq


def Chinese(str):
    if str >= '\u4e00' and str<= '\u9fa5':
        return True
    else:
        return False

直接使用正则:

ls = 'drug:磺胺123甲噁唑amount'
p = re.compile(r'[\u4e00-\u9fa5]', re.S)
print(re.findall(p,ls))

转载于:https://my.oschina.net/shea1992/blog/1604095

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP