商务服务
实战关键词提取
2024-10-31 18:14

我要把人生变成科学的梦,然后再把梦变成现实。——居里夫人

实战关键词提取

关键词是代表文章重要内容的一组词,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。现实中大量的文本不包含关键词,这使得便捷得获取文本信息更困难,所以自动提取关键词技术具有重要的价值和意义。

关键词提取分类

  • 有监督
  • 无监督
  • 有监督虽然精度高,但需要维护一个内容丰富的词表,需要大量的标注数据,人工成本过高。

    无监督不需要标注数据,因此这类算法在关键词提取领域应用更多。比如TF-IDF算法、TextRank算法和主题模型LDA算法等。

    TF-IDF(Term Frequency - Inverse document Frequency)是一种基于统计的计算方法,常用于反映一个词对于语料中某篇文档的重要性。

    TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse document Frequency)。TF-IDF 的主要思想就是:如果某个词在一篇文档中出现的频率高,也即 TF 高;并且在语料库中其他文档中很少出现,即DF低,也即IDF高,则认为这个词具有很好的类别区分能力。

    TF 为词频(Term Frequency),表示词 t 在文档 d 中出现的频率,计算公式:

    其中,分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。

    IDF 为逆文档频率(Inverse document Frequency),表示语料库中包含词 t 的文档的数目的倒数,计算公式:

    其中,|D|:语料库中的文件总数,|{j:ti∈dj}| 包含词 ti 的文件数目,如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用 1+|{j:ti∈dj}|。

    然后再计算TF与IDF的乘积:

    因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。比如:有些词“的”,“了”,“地”等出现在每篇文章中都比较多,但是不具有区分文章类别的能力。

    TextRank算法脱离语料库,仅对单篇文档进行分析就可以提取该文档的关键词,此算法最早应用于文档的自动摘要,基于句子维度的分析,利用TextRank对每个句子进行打分,挑选出分数最高的n个句子作为文档的关键句,以达到自动摘要的效果。

    TextRank基本思想来源于Google创始人拉里·佩奇和谢尔盖·布林1997年构建的PageRank算法。核心思想将文本中的词看作图中的节点,通过边相互连接,这里就形成了图,不同的节点会有不同的权重,权重高的节点可以作为关键词。

    PageRank思想:

  • 链接数量。一个网页被越多的其他网页链接,说明这个网页越重要。
  • 链接质量。一个网页被一个越高权重的网页链接,也能表明这个网页越重要。
  • TextRank用PageRank的思想来解释它:

  • 一个单词被很多单词指向的话,则说明这个单词比较重要。
  • 一个单词被很高TextRank值的单词指向,则这个单词的TextRank值会相应地提高。
  • 公式如下:

    TextRank中一个单词i的权重取决于在i相连的各个点j组成的(j,i)这条边的权重,以及j这个点到其他边的权重之和,阻尼系数 d 一般取 0.85。

    TextRank关键词提取步骤:

  • 把给定的文本按照完整句子进行分割。
  • 对每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词等。
  • 构建关键词图 G = (V,E),其中V 为节点集,由步骤2中生成的候选关键词组成,然后采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为 K 的窗口中共现,K 表示窗口大小。
  • 根据TextRank公式,迭代收敛,选出权重topK个词为关键词。
  • 由步骤4得到最重要的k个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。
  • 大多数情况,TF-IDF算法和TextRank算法就能满足,但某些场景不能从字面意思提取出关键词,比如:一篇讲健康饮食的,里面介绍了各种水果、蔬菜等对身体的好处,但全篇未显式的出现健康二字,这种情况前面的两种算法显然不能提取出健康这个隐含的主题信息,这时候主题模型就派上用场了。

    LDA(隐含狄利克雷分布)是由David Blei等人在2003年提出的,理论基础为贝叶斯理论,LDA根据词的共现信息的分析,拟合出词——文档——主题的分布,进而将词、文本都映射到一个语义空间中。

  • jieba 已经实现了基于 TF-IDF 算法的关键词抽取,如下:
    1. jieba也已经实现了基于 TextRank算法的关键词抽取,如下:
      1. 通过 Gensim 库完成基于 LDA 的关键字提取,如下:
      2.     以上就是本篇文章【实战关键词提取】的全部内容了,欢迎阅览 ! 文章地址:http://lianchengexpo.xrbh.cn/news/11612.html 
             资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多   
    最新新闻
    二胎概念火了!任泽平:未来四胎五胎可能给奖励
      人口政策问题再次广受关注。  昨日晚间,央行微信公众号发布题为《关于我国人口转型的认识和应对之策》的工作论文,聚焦了
    全球下载量突破20亿时TikTok遭遇“围剿”,张一鸣对公司员工说了啥
    抖音短视频国际版TikTok近日在美国的遭遇不断反转、不断刷新。虽然特朗普对其封禁令尚未最终拍板,但TikTok在海外年轻人中的火爆
    如何查询手机流量?查询手机流量方法教学
      手机是一个我们现在广泛使用的电子产品,我们除了利用手机进行通话之外,最多的就是利用手机上网了。如果想要利用手机上网的
    孙楠:希望自己的音乐带给观众快乐
      中新网杭州6月25日电 (胡小丽 刘文彬)1990年,孙楠发行了首张个人专辑《弯弯的月亮》,从此走上职业歌手的道路。到今天,已
    【夜读】7条成长建议,送给正在努力的你
    01改变自己会痛苦,不改变自己会吃苦不抗拒改变、不用陈旧的方式去处理新问题,是一个人走向成熟的标志。很多时候,只是一个细节
    tiktok前身是什么发展历史,一文带你了解tiktok发展历程
    在互联网发展如此迅速的今天,各种的媒体社交改变了我们的生活,带来了更多的便利条件,让我们了解这个周围以及世界的最新咨询。
    中考倒计时,科学备考秘籍请收好
      本报记者潘洁婷通讯员王晓敏  今年是“双减”政策实施以来的首次中考,距离2022年中考还有不足一个月时间。备考冲刺阶段,
    千万粉丝!他突然全网被封
    近日,在抖音拥有1800多万粉丝的倪海杉账号被平台封禁。关于倪海杉账号被封原因,网络上有多种猜测。另外,倪海杉在快手上拥有50
    全新 Model 3 发布!内外饰全面焕新,屏幕换挡进入全民时代
    6年前,特斯拉为 Model 3的亮相开了一场盛大的发布会,特斯拉首席执行官、首席设计官悉数到场。Model 3是公司当前的头等要事。马
    一部具有重大警世意义和很高文学价值的力作——评屈全绳的长篇小说《鹅头岭》
    作者:汪守德一按一般人的想象,有着数十年从军经历的老将军,离休之后不再为公务缠身,不再因百事纠结,或写一点回忆录之类的轻
    本企业新闻
    推荐企业新闻

    点击拨打: