网站:https://www.aqistudy.cn/historydata/monthdata.php
空气质量在线检测分析平台
这个网站的数据获取我在网上查过别人的教程,比较繁琐,我有一个比较简单的方法获取数据,现在分享给大家
目标数据:
1.网站禁用F12和右键 —> 右上角三点 —>更多工具 —> 开发者工具
2.定时器debugger —> 一律不在此处暂停
如果这样弄之后被网页检测到,刷新即可
3.分析数据接口,找xhr请求,
接口是https://www.aqistudy.cn/historydata/api/historyapi.php,点击载荷和预览可知,发送请求的数据和接受的数据都是加密的,因此我们需要分析发送数据和接收数据的加密过程,模拟发送请求获取天气数据并解密
- 打xhr断点,
2.然后在原网页上查询别的城市天气数据,再查南京不会有xhr请求(估计是缓存了)
它断住了,然后我们就在调用堆栈里分析,看能不能找到加密的函数,走到ajax函数
之前分析数据接口时可知, 拿数据的xhr请求为post请求,字段名即为:hA4Nse2cT, 由此可知,pKmSFk8就是密文,它是怎么生成 的?
看上面,就是poPBVxzNuafY8Yu函数所以我们要进入 poPBVxzNuafY8Yu 函数并分析加密过程,在上面那一句打上断点,重新发送请求
我们就进来了这个函数,分析这个函数可知,这个函数最后返回一个对象 这个对象有:
appId —> 写死的 “3c9208efcfb2f5b843eec8d96de6d48a”
method—> 写死的 “GETMONTHDATA”
timestamp—> 时间戳
clienttype —>写死的“WEB”
object—> 也是一个对象,里面的参数我们查询的城市
secret—> hex_md5(传入上面的参数和根据键排序后的oNLhNQ对象),我觉得这个hex_md5就是MD5加密,于是打开nodejs尝试一下
把这些参数都弄进去
由此可以看到,hex_md5就是正宗的MD5加密,没有什么改动的地方
接下来就是base64和aes加密,
当然我们也需要验证base64有没有被修改过,我验证了一下就是正宗的base64
这里要用到AES.encrypt ,我们进入这个函数看看
把网站的aes加解密扣下来,形成我的完整的模拟加密代码
这里我们选天津,看我们py拿到的数据跟网站发送拿到的是不是一样的,
网站的:
我拿到的:
可以发现是一样的,所以至此完成了发送数据的模拟加密
接下来我们探索怎么解密拿到的数据
这时dGHdO还是密文,
这里已是明文,
所以可知,dxvERkeEvHbS是解密函数, 然后我们再发一次请求,进入这个函数单步执行,
在这一页面上方,我们也是找到了解密函数,可知,把数据经过base64 -> des ->aes ->base64 这四次解密过程即可,
于是我们在nodejs上模拟解密,加上之前的模拟加密代码,
构成了这一次网站js逆向的完整js代码,需要安装crypto-js
没有则运行,
然后是构造请求和解析解密后数据的py代码:
执行js代码要PyExecJS2库,没有则执行,
结果:
如果有这个报错
字典中没有找到这个健,自己解析一下这个字典即可
如果要获取每天的数据,按下面的步骤修改代码即可
结果
如果出现评论区中的execjs._exceptions.ProgramError: SyntaxError问题,就是那个库默认使用的jscript,无法识别require es6等语法,
除了那个兄弟提出的解决办法,还可以直接安装pycharm专业版,然后安装nodejs插件,就可以给pacharm指定nodejs环境了,直接运行就没问题,难怪我没遇到过这个报错。