飞道的博客

Python 爬虫进阶必备 | 某壁纸网站请求头参数与用户指纹 sign 加密逻辑分析

390人阅读  评论(0)

今日网站

aHR0cHM6Ly9iei56enptaC5jbi8=

这个网站来自东哥读者群的读者提问(截图为转发消息)

抓包分析

打开目标网站,需要采集的是网站中的图片

开发者工具中抓到的包是这样的

页面上加载的图片名字是没有规律的,且网页上不点击图片是没有办法显示高清图片的,所以需要找到这些图片名称是哪里返回的。

通过查找,可以看到图片名称是经过getJson这个包返回的,并且返回的包中还标识了分辨率

所以只要构建这个请求,拿到返回值再拼接出壁纸的链接就可以下载高清的壁纸了。

参数没有什么要看的,见名知意

{"target":"index","pageNum":1}

主要是请求的 header 中有两个未知参数signaccess

加密定位与分析

这类比较纯粹的 XHR 请求,直接使用xhr断点分析比较轻松

source面板添加xhr请求断点

完成之后重新刷新页面,就断上了

断点断住的位置是ajax请求发出的位置,在这个位置可以看到我们需要分析的access参数已经找到了

 var access = sha256(contentType + location + sign + timestamp);

这个表达式对应的参数在上面的截图里都有(除了 sign),直接拼接在一起使用 sha256 加密即可。

这里的 sign 需要在堆栈中向上翻,可以看到一个 sign请求

断点的位置如下

可以看到 sign 是sessionStorage中取出的,可以在当前的文件中检索sessionStorage,可以看到下面setItem的逻辑

sign 的实际生成逻辑其实就是我们当前浏览器指纹


   
  1. sign = Fingerprint2.x64hash128(components. map(function(component) { return component.value}).join( ''),  31);
  2. // 将当前浏览器的属性值拼接在一起,使用 x64hash128 生成指纹

这个指纹算法是有漏洞的,因为算法取的是当前的设备信息,而x64hash128算法是固定的,这就导致了传入x64hash128中的 key 相同的话,生成的指纹也是相同的,一个常见的规避手段是在设备信息中添加获取当前设备的ip这样可以减少一部分的指纹重复,不过这个网站的sign没有添加这个属性

如果这里你想调试sign的生成需要清除当前浏览器的缓存,断点才会进入生成的逻辑


   
  1. userAgent: navigator.userAgent
  2. language : 语言
  3. colorDepth: 返回目标设备或缓冲器上的调色板的比特深度 screen.colorDepth
  4. deviceMemory: 以千兆字节为单位返回设备内存量。该值是通过舍入到最接近的 2的幂并将该数除以 1024而给出的近似值。 
  5. pixelRatio: 像素比 devicePixelRatio  
  6. hardwareConcurrency:navigator.hardwareConcurrency返回可用于运行在用户的计算机上的线程的逻辑处理器的数量 
  7. screenResolution: 检测屏幕宽高,并根据屏幕方向矫正返回值[width,height]
  8. availableScreenResolution:返回屏幕分辨率[width,height],无头浏览器无法获取。
  9. timezoneOffset: 返回从当前区域设置(主机系统设置)到UTC的时区差异(以分钟为单位)链接
  10. timezone:时区
  11. sessionStorage: 是否支持sessionStorage,不支持时返回错误 
  12. localStorage: 是否支持localStorage 
  13. indexedDb:是否支持indexedDb 
  14. addBehavior:此时可能未定义body或以编程方式删除
  15. openDatabase: 返回是否支持Web SQL
  16. cpuClass:返回浏览器系统的 CPU 等级,一般无法获取 *
  17. platform: 返回表示浏览器平台的字符串,该规范允许浏览器始终返回空字符串,因此不要依赖此属性来获得可靠的答案.链接 *
  18. doNotTrack: 返回用户的“不跟踪”设置。如果用户请求不被网站,内容或广告跟踪,则为“ 1”。一般结果为* 。
  19. plugins:返回浏览器安装的插件列表。
  20. canvas: 如果浏览器支持canvas则返回生成baes64数据。
  21. webgl:返回浏览器对webgl绘图协议的支持情况汇总 
  22. webglVendorAndRenderer: 返会显卡型号相关信息 
  23. adBlock:返回是否安装去广告插件。
  24. hasLiedLanguages: 返回用户是否改变了首选语言
  25. hasLiedResolution:返回用户是否改变了分辨率
  26. hasLiedOs:返回用户是否改变了操作系统
  27. hasLiedBrowser:返回用户是否改变了浏览器
  28. touchSupport: 返回最大触摸点数,是否支持touch,是否支持ontouchstart事件]
  29. fonts:返回从 64种字体种筛选出的可用字体
  30. fontsFlash:Flash字体枚举,如果没有swfobject,不会触发。
  31. audio: 返回音频指纹
  32. enumerateDevices:navigator.mediaDevices 请求可用媒体输入和输出设备的列表,例如麦克风,相机,耳机等
  33. // 参考链接:https://juejin.cn/post/6844903773211459597

所以这里的sign是可以设置成固定值,因为指纹是可以重复的

到这里上面access生成逻辑的所有变量均已获得,通过python复写加密即可获取网站的图片名称并拼接链接下载高清图片。


   
  1. 有知有行
  2. [ 完 ]
  3. 对了,看完记得一键四连,这个对我真的很重要。

转载:https://blog.csdn.net/weixin_43189702/article/details/114313911
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场