词云：jieba分词 - 迅博思语资讯移动站

词云：jieba分词

2024-10-31 17:03

jieba是中文分词工具，安装很简单直接
github:https://github.com/fxsjy/jieba

词云：jieba分词

jieba中有三种分词模式，分别是：全模式，默认模式和搜索引擎模式

jieba.cut的默认参数只有三个,jieba源码如下:
分别为:输入文本是否为全模式分词与是否开启HMM进行中文分词。

一般来说用默认模式就可以(cut_all=False)

步骤很简单
1.找到文本路径path
2.获取文本
3.使用analyse.extract_tags方法提取
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight 为是否一并返回关键词权重值，默认值为 False
allowPOS 仅包括指定词性的词，默认值为空，即不筛选

这里注意分词后得到的是tuple，写入到txt文件需要转换类型。
分析缥缈录第一卷，得到以下的结果：

会发现有"像是"，"可是"这种非名词，这种词可以使用去除停用词的方法，将其解决。

需要下载一个停用词词表，可以直接从这里复制https://github.com/ziqian9206/stopword。
有了停用词表，就可以用来剔除停用词。

使用停用词之后，很多无用词被剔除。

此外我们还可以在jieba中添加自定义词语。

使用count可以得到频次值

以上就是本篇文章【词云：jieba分词】的全部内容了，欢迎阅览！文章地址：http://lianchengexpo.xrbh.cn/quote/9075.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多