1.前言自述
在收到一些文字信息量比较大的文档的时候,想要快速获取信息的方式一般是看大纲(如果有设置的话),或者是查找关键字来看对应的信息内容,如果将“根据关键字来查找信息”这一操作换成使用代码来实现的话,就可以节省大量时间。
2.场景需求
有一个word文档,里面有大量信息(这里用一篇关于全球经济的介绍作为例子):
这个文档一共有近1000个字左右:
现在我想知道材料中关于全球经济的内容,所以查找信息的关键字是“全球经济”。
除了根据关键词查找相应的信息,我还希望代码能帮我把摘下来的信息放到excel表中,一条信息作为一行,以便浏览,所以还涉及到一个excel的操作。
3.代码实现
整个代码的关键点应该是分词那一块的思路。
用到的库:
提取信息的函数设置:
将提取到的信息保存到新的excel表格:
最后设置一下文件路径和关键词,调用函数:
最后可以加个打印输出: