博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python网页分析
阅读量:7055 次
发布时间:2019-06-28

本文共 399 字,大约阅读时间需要 1 分钟。

像是那种爬去图片的网站,一般在总的页面哪里就能拿到原图的链接,虽然你查看网页源码之后,可能看到的还是只有压缩后的图片地址,但是原图的地址其实会在压缩地址的后面给你,但是他一般不会直接给你,他会隐藏性的给出来,这就考究你的连接怕拼接还有观察能力了。

举例:
当你在网页源码当中只能找到这样的链接而已:

<img src="" /></a><b><a href="">

在这个链接当中,你打开看到的会是一个缩略图,但是你点开之后,你会发现他居然跳到了/  这个链接,而这个链接就是原图,那么你就成功的得到了原图的链接,接下来就差解决翻页的问题而已了。翻页问题一般可以通过观察网页结构获得,但是那些链接特别复杂的网页,你可以通过找网页源码的方式获得,一般都能找到,除非是那种设计很差的辣鸡网站。

转载于:https://www.cnblogs.com/myxdashuaige/p/9547282.html

你可能感兴趣的文章
『字典树 trie』
查看>>
『The Captain 最短路建图优化』
查看>>
三元运算符判断分数类型
查看>>
通过QC远程运行QTP脚本,QTP自动崩溃关闭的解决方法
查看>>
HTML资源定位器-URL
查看>>
定时器setTimeout()和setInterval()使用心得整理
查看>>
C#学习笔记③——手动调试与错误处理
查看>>
Oracle all_parameters 视图
查看>>
StringBuilder拼接字符串,“,”在前还是在后问题
查看>>
Linux 内核中断内幕【转】
查看>>
Linux内核驱动--mmap设备方法【原创】
查看>>
ELK(elasticsearch+kibana+logstash)搜索引擎(二): elasticsearch基础教程
查看>>
网页中内容的显示问题
查看>>
JAVA编程思想三
查看>>
加密工具类
查看>>
ThinkPHP配置简单的mysql读写分离
查看>>
AngularJS Select(选择框)
查看>>
EXT.NET入门必读
查看>>
数据结构定义
查看>>
实验报告二201521460014
查看>>