web编程 - 迅博思语资讯移动站

web编程

2024-10-31 16:44

1.1 以新闻中心—新浪网为例，介绍网站爬虫具体实现

在这里插入图片描述

web编程

1.2 查看新浪网的源代码https://news.sina.com.cn/

在新浪官网可以看到，链接都是存在<a href=>下的，发现子网页结构最后都是以类似 “/2021-04-26/doc-ikmyaawc1810143.shtml” 结尾。所以我们读取的时候，需要判断网页url以类似 /2021-04-26/doc-ikmyaawc1810143.shtml 为结尾。

在这里插入图片描述

1.3 点进子网页，查看子网页源代码

发现编码格式是utf-8, 找出需要爬取的内容包括标题，关键词，摘要，作者，发布时间和内容等，可以帮助确定爬取网站的正则表达式的书写。

在这里插入图片描述

1.4 爬虫实现

1.4.1 使用的工具包

1.4.2 爬虫最关键的部分还是正则表达式的书写

需要爬取的信息包括网页的url、新闻的关键词、新闻的标题、新闻发布的日期、新闻的作者、新闻的内容以及新闻的来源。查看网页源代码可以发现：

网页的url都是存在<a href=>下：

新闻的关键词，在meta标签下，name=“keywords”：

新闻的标题，在meta标签下，property=“og:title”：

新闻发布日期，在meta标签下，property=“article:published_time”:

新闻的作者，在meta标签下，property=“article:author”：

新闻的来源，在meta标签下，property=“og:url”

1.4.3 完整爬虫代码：

1.4.4 踩过的坑

1、正则表达式书写

刚开始由于对正则表达式的理解不够透彻，不太清楚具体如何判断网页url是否是以类似 /2021-04-26/doc-ikmyaawc1810143.shtml 为结尾，后来上网查阅资料，才知道用d{m}表示有n个数字，w{n}表示有n个字符，“/”这类特殊字符需要在前面加上转义字符。

2、爬取url错误

一开始爬取的url是：https://news.sina.com.cn/https://news.sina.com.cn/c/2021-04-27/doc-ikmxzfmk9303163.shtml，相比正确的url前面会多出https://news.sina.com.cn/这一段，经过思考发现问题所在，myURL将种子页面与当前页面又拼接在一起，所以才会多出前面那一段。
在这里插入图片描述
只需将红框部分改为myURL = href即可。