会 python 的一定会爬虫吗,来看看
文章更新于:2020-02-18
注:python 爬虫当然要安装 python,如何安装参见:python 的安装使用和基本语法
一、什么是网络爬虫
网络爬虫就是用代码模拟人类去访问网站以获取我们想要信息。由于代码模拟的速度和效率很高,所以可以批量和动态获取我们想要的信息。比如抢票软件就是一直用代码访问12306网站获取余票信息,一有余票立马使用代码进行模拟购买。
二、网络爬虫的分类
- 通用网络爬虫。又称全网爬虫,爬行对象从一些种子URL扩充至整个Web,主要为门户站点、搜索引擎和大型Web服务提供商采集数据。
- 聚焦网络爬虫。是指有选择性的爬行哪些与预定主题相关页面的网络爬虫。
- 增量式网络爬虫。是指对已下载网页采取增量式更新的爬虫,只爬行发生更新的网页,减少了数据下载量。
- 深层网络爬虫。深层网页是指只有用户提交一些关键词才能获取的Web页面,隐藏在搜索表单后的。
三、网络爬虫的架构
- URL管理器:放置重复抓取和循环抓取。
- 网页下载器:用于下载网页,爬虫的核心部分之一。
- 网页解析器:用于提取网页中自己想要的数据,爬虫的另一个核心部分。
- 输出管理器:用于保存信息,将数据输出到文件或数据库。
四、爬虫如何工作
1、举个爬虫的例子,我们访问百度官网
import requests //导入requests包
#这个包需要提前安装,在cmd 里面进入 python 安装路径的 Scripts 目录输入 pip install lxml 进行安装
from lxml import etree //导入etree包
url = "https://www.baidu.com/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}
r = requests.get(url,headers=headers);
r.encoding = 'utf-8'
selector = etree.HTML(r.text)
news_text = selector.xpath('//*[@id="u1"]/a[1]/text()')[0]
news_url = selector.xpath('//*[@id="u1"]/a[1]/@href')[0]
print(news_url)
print(news_text)
说明如下
| 行数 | 说明 |
|---|---|
| 第1行 | 导入requests包,用于使用get访问命令 |
| 第2行 | 导入etree包,用于使用xpath命令以找到自己想要的元素 |
| 第4行 | 设置我们想要访问的url |
| 第5行 | 设置访问头部信息headers,用于模拟浏览器访问 |
| 第7行 | 执行访问,并将获取的数据刚到r对象中 |
| 第8行 | 将r对象的编码方式设置为utf-8 |
| 第9行 | 用etree解析r对象数据并放到selector中 |
| 第11行 | 获取从根目录下找到id='u1’属性下的a标签的text内容 |
| 第12行 | 获取从根目录下找到id='u1’属性下的a标签的href内容 |
| 第13行 | 输出第11行获取的数据 |
| 第14行 | 输出第13行获取的数据 |
结果如下
http://news.baidu.com
新闻
五、如何定位元素

在HTML页面上右键、检查即可定位到HTML代码相应位置。

同时,在代码上右键、Copy、Copy XPath即可复制XPath地址。
初始化HTML源码
XPath即为XML路径语言,它是一种用于确定XML文档中某部分位置的语言。
如在代码中使用此功能需要导入lxml中的etree包
from lxml import etree
然后使用HTML源码初始化etree,并赋值给一个对象以保存
selector = etree.HTML(r.text)
这样我们就得到了一个名字叫做selector的Element对象,这时我们可以对这个Element对象进行XPath筛选,系统会返回一个筛选的结果列表。
使用标签顺序定位
比如我们要查找第一个div下的第二个ul下的a标签
all_a = selector.xpath('//div[1]/ul[2]/a')
//表示从根节点开始查找,然后找到第二个ul下的所有a标签。
==注意:==这里的数字是从1开始的,而不是从0开始的。
用属性定位
而同时,我们也可以通过属性查找元素。
li_good = selector.xpath('//ul/li[@[class="good"]')
上述代码可以找到ul下所有class属性为good的li标签。
用唯一属性全局定位
当然,如果class属性唯一,也可以直接中根目录开始查找。
li_good = selector.xpath('//*[@[class="good"]')
上述代码的意思是:从根目录下开始查找class属性为good的所有标签。*代表任意的标签。
提取属性值
li_good_text = selector.xpath('//*[@[class="good"]/a/@href')
这里通过@href语法形式提取到了a标签的属性值。
六、一些注意事项
import requests
response = requests.get(“https://www.baidu.com”)
这里可以通过
response.encoding
来查看返回值response的编码
通过
response.encoding = “utf-8”
来修改返回值response的编码
还可以通过
response.headers
来查看返回值response的头部
而请求头部则可以通过
response.request.headers
来查看
列表如下:
| 代码 | 说明 |
|---|---|
| response.encoding | 查看返回值的编码 |
| response.encoding = “utf-8” | 修改返回值的编码 |
| response.headers | 查看返回头部 |
| response.request.headers | 查看请求头部 |
| response.status_code | 查看返回状态码 |
| response.history | 查看重定向 |
1、添加参数
payloag = {‘q’:‘pythoh’,‘cat’:‘10001’}
r = requests.get(url,headers=headers,params=payload)
会 python 的一定会爬虫吗,来看看的更多相关文章
- Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址 本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
- 【Python】:简单爬虫作业
使用Python编写的图片爬虫作业: #coding=utf-8 import urllib import re def getPage(url): #urllib.urlopen(url[, dat ...
- 使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道 使用python/casperjs编写终极爬虫-客户端App的抓取
- [Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
- 洗礼灵魂,修炼python(69)--爬虫篇—番外篇之feedparser模块
feedparser模块 1.简介 feedparser是一个Python的Feed解析库,可以处理RSS ,CDF,Atom .使用它我们可从任何 RSS 或 Atom 订阅源得到标题.链接和文章的 ...
- 洗礼灵魂,修炼python(50)--爬虫篇—基础认识
爬虫 1.什么是爬虫 爬虫就是昆虫一类的其中一个爬行物种,擅长爬行. 哈哈,开玩笑,在编程里,爬虫其实全名叫网络爬虫,网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者 ...
- 使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
- Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://bbs.51testing. ...
- Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://www.51testing. ...
随机推荐
- ggplot2(2) 从qplot开始入门
2.1 简介 qplot的意思是快速作图(quick plot). qplot是一种快捷方式,如果您已习惯于使用基础plot(),则可以使用它.它可以使用一致的调用模式快速创建许多不同类型的图. qp ...
- asyncio在爬虫中的使用
# -*- coding: utf-8 -*- # 协程基础.py import asyncio import time async def request(url): print("正在请 ...
- Redis集群搭建及选举原理
redis集群简述 哨兵模式中如果主从中master宕机了,是通过哨兵来选举出新的master,在这个选举切换主从的过程,整个redis服务是不可用的.而且哨兵模式中只有一个主节点对外提供服务,因此没 ...
- iconfont字体图标的使用方法(转)
我之前因为项目用bootstrap比较多,所以使用font awesome字体图标比较多,后来接触到了iconfont,发现想要的什么图标都有,还可以自定义图标,非常强大!之前看了一波教程,觉得繁琐, ...
- nmon使用问题汇总(不定期更新)
nmon使用问题汇总 1.nmon常用命令: ./nmon -s1 -c300 -f -m /root/nmon-test-result/项目-50并发/ 2.设置nmon参数为-s1 -c720,发 ...
- 分享macOS平台好用的视频分割、合并视频、提取音频、分离音频、音频转码的工具CCVideo
CCVideo 是一款运行在macOS上可分割视频(可多段分割).合并视频.提取音频.分离音频.音频转码的工具,操作方便,只需简单几步,便可轻松完成. 下载地址
- Django-jwt token生成源码分析
一. 认证的发展历程简介 这里真的很简单的提一下认证的发展历程.以前大都是采用cookie.session的形式来进行客户端的认证,带来的结果就是在数据库上大量存储session导致数据库压力增大,大 ...
- hdu6026 dijkstra
题目链接:http://icpc.njust.edu.cn/Problem/Hdu/6026/ 题意大致是:给定一个图,要求删边使他变成树,使得每个点到0的距离就是原图中0到这个点的最短路径.其实就是 ...
- 2020 python web开发就业要求锦集
郑州 Python程序员 河南三融云合信息技术有限公司 6-8k·12薪 7个工作日内反馈 郑州 1个月前 本科及以上2年以上语言不限年龄不限 微信扫码分享 收藏 Python程序员 河南三融云合信息 ...
- Flutter 强大的MediaQuery控件
注意:无特殊说明,Flutter版本及Dart版本如下: Flutter版本: 1.12.13+hotfix.5 Dart版本: 2.7.0 MediaQuery 通常情况下,不会直接将MediaQu ...