jieba是中文分词工具,安装很简单直接
github:https://github.com/fxsjy/jieba
jieba中有三种分词模式,分别是:全模式,默认模式和搜索引擎模式
jieba.cut的默认参数只有三个,jieba源码如下:
分别为:输入文本 是否为全模式分词 与是否开启HMM进行中文分词。
一般来说用默认模式就可以(cut_all=False)
步骤很简单
1.找到文本路径path
2.获取文本
3.使用analyse.extract_tags方法提取
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
这里注意分词后得到的是tuple,写入到txt文件需要转换类型。
分析缥缈录第一卷,得到以下的结果:
会发现有"像是","可是"这种非名词,这种词可以使用去除停用词的方法,将其解决。
需要下载一个停用词词表,可以直接从这里复制https://github.com/ziqian9206/stopword。
有了停用词表,就可以用来剔除停用词。
使用停用词之后,很多无用词被剔除。
此外我们还可以在jieba中添加自定义词语。
使用count可以得到频次值
以上就是本篇文章【词云:jieba分词】的全部内容了,欢迎阅览 ! 文章地址:http://lianchengexpo.xrbh.cn/quote/9075.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多