python爬虫，顾名思义是爬取信息的。大数据时代，信息的获取是非常关键的，它甚至能决定一个公司大发展的方向与未来，互联网就好像一张大网，人们想要获取信息就要从这张大网里爬取，这种手段也可以称为搜索引擎，百度搜狗等属于广义爬虫，姑且这么叫吧，广义爬虫可以在各大网站的允许范围内进行限制性的信息获取，但是这种广义爬虫远远不能满足信息的获取要求，并不能按照人们的意愿来搜索，于是自定义的爬虫应运而生，姑且叫做狭义爬虫，它突破了网站的robots协议规定，即不遵守限制性获取网站的信息获取，可以任意的进行信息搜索获取甚至是下载，当然，反爬虫措施也同样存在，虽然两个资源相等对立，但是爬虫永远是胜利的一方。

然而爬虫在一定基础上属于灰色产业：有可能涉及到数据的交易，商业用途需要谨慎了解：《刑法》第 285 条，非法获取计算机信息系统数据罪。获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，处三年以下有期徒刑或者拘役，并处或者单处罚金；最高处七年有期徒刑并处罚金。《刑法》第285条是对爬取数据的主要定罪依据，有兴趣可以去查下中华人民共和国刑法。

当然百度谷歌都是爬虫的依赖者，这其中与大公司分不清关系，但是自己还是要把握分寸，才能立于胜利之地。

1.url的认识

URL通俗来说是网址，通过百科认识，可以得知URL是统一资源定位符，对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。当然URL是通用的资源定位符，URI同样也是资源定位符，由于URL包括URI，且URL适用范围广，所以URL就占了上风，爬虫是要有目标的，而目标就是URL包含的文件信息，这样就不难理解为什么一定要有个确切的网址才能访问该文件了。

普通的URL应该是"协议：//授权/路径?查询"，如“https://www.baidu.com/s?wd=URL”，"wd=搜索的关键字",”但完整的URL是"//用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志",如"https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=url&oq=uri&rsv_pq=f2dc84cb0008db7c&rsv_t=60afxKKf%2BUXkHJ7oV5ZoSnhpKT%2FY%2F8efqt5olRDcsG7DtOJfw%2Besx5wIYxY&rqlang=cn&rsv_enter=0&rsv_sug3=2&rsv_sug1=2&rsv_sug7=100&bs=uri"上面的每一个&都代表一个属性，还有编码等。而我们从中需要找出关键字点，对网址进行修改处理，解密来获取我们想要的资源定位符url或者说是API，才能有利于爬虫设施的进一步开展。

打开浏览器，据我了解，Firefox或chrome的F12可直接进入开发者调试如图

request URL就是该网址的初始URL，当然，URL的加解密不同也会导致URL的不同，这就需要靠后期自己的努力了。好了，就写到这里吧。

python爬虫入门之URL的更多相关文章

python爬虫入门-开发环境与小例子
python爬虫入门开发环境 ubuntu 16.04 sublime pycharm requests库 requests库安装: sudo pip install requests 第一个例子 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python爬虫入门之Cookie的使用
本节我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要 ...
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧. 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解 ...
3.Python爬虫入门三之Urllib和Urllib2库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...
2.Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

随机推荐

【luogu P1608 路径统计】题解
题目链接:https://www.luogu.org/problemnew/show/P1608 补上一发最短路计数! 感谢王强qwqqqq @Lance1ot #include <queue& ...
UIWebView 获取网页标题
- (void)webViewDidFinishLoad:(UIWebView *)webView { NSString *urlString = webView.request.URL.absolu ...
Linux-- su和sudo 切换用户
su 切换用户用法:su [选项] [-] [用户 [参数]... ] - :以 login-shell 方式进行登录不加 - :以 no-login-shell 方式进行登录 -c:只进行一次在 ...
Xcode 提交APP时遇到 “has one iOS Distribution certificate but its private key is not installed”
解决办法:登录Apple开发证书后台,把发布版证书.cer文件下载到本地,双击安装即可.若还没有设置发布证书文件,则创建一个后下载. Ref: https://blog.csdn.net/dingqk ...
SVN搭建（linux 7）
第一步:通过yum命令安装svnserve,命令如下: >yum -y install subversion 此命令会全自动安装svn服务器相关服务和依赖,安装完成会自动停止命令运行若需查看s ...
RandomAccessFile类——高效快捷地读写文件
RandomAceessFile类 RandomAccessFile类是一个专门读写文件的类,封装了基本的IO流,在读写文件内容方面比常规IO流更方便.更灵活.但也仅限于读写文件,无法像IO流一样,可 ...
python 正则匹配手机号
import rephone = str(input('请输入手机号:'))# b = str(12345678912)t = re.compile(r'^1(3\d|4[4-9]|5[0-35-9] ...
A - Chess Placing CodeForces - 985A
You are given a chessboard of size 1 × n. It is guaranteed that n is even. The chessboard is painted ...
CentOS6安装各种大数据软件第九章：Hue大数据可视化工具安装和配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
JQuery 同时获取多个标签的指定内容并储存为数组
在网页开发中经常会碰到获取同种类型的标签的值得问题,比如下面的两种情况. 当需要批量获取同种标签的指定值时,新人就会碰上一点小麻烦. 比如 id=problem1的demo var list1=$ ...

python爬虫入门之URL

1.url的认识

python爬虫入门之URL的更多相关文章

随机推荐

热门专题