三大库:requests,lxml,beautifulSoup.

Request库作用:请求网站获取网页数据。

get()的基本使用方法

#导入库

import requests

#向网站发送请求,获取数据。

res= requests.get(‘http://bj.xiaozhu.com/’)

#打印返回值,<response [200]>成功,<response [404]>,<response [400]>失败

print(res)

#打印返回文本

print(res.test)

加入请求头伪装成浏览器

import request

#User-Agent

headers={Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE}

#将heads导入

res=requests.get('https://www.baidu.com/?tn=92495750_hao_pg',headers=headers)

print(res.test)

post()的基本使用:用于提交表单来爬取需要登录才能获得数据的网页。

增加健壮性和效率

Requests库的错误和异常分四种:自己分为两种①未发出Reques②未收到Html

当发现这些错误或异常进行代码修改重新再来,爬虫重新再来,有些数据又爬一次。效率和质量低。

import request

#User-Agent

headers={Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE}

#将heads导入

res=requests.get('https://www.baidu.com/?tn=92495750_hao_pg',headers=headers)

try:

  print(res.test)

except ConnectionError:

  print('拒绝连接')

beautifulSoup()库的作用:①解析requests库请求的网页,把网页源代码解析成soup文档。②初步提取

①解析requests库请求的网页,把网页源代码解析成soup文档,得到标准缩进格式的结构输出,为进步处理准备。

#导入库

import requests

from bs4 import BeautifulSoup

#向网站发送请求,获取数据。

res= requests.get(‘http://bj.xiaozhu.com/’)

#利用Beauiful库解析为soup文档。

soup=BeautifulSoup(res.test,'html.parser')

print(soup.prettify())

②初步提取

find_all和find()的区别:查询一个或查询所有。使用方法一样,没有具体事例可能用的不多。

根据标签名提取内容

soup.find_all('div',"item")

soup.find_all('div',class='item')

soup.find_all('div',attrs={"class":"item"})

selector():根据路径查询数据

soup.selector( div > div > div.lay.first > div.list_li.\30 > a > img)

div是标签名,list_li.\30是属性class的值

多分支标签中不能使用child要改为type

li:nth-child(1)需改为li:nth-of-type(1)

③get_text()方法:提取标签内容去掉头尾,<i>5456</i>      =>    5456

import requests

from bs4 import BeautifulSoup

#向网站发送请求,获取数据。

res= requests.get(‘http://bj.xiaozhu.com/’)

#利用Beauiful库解析为soup文档。

soup=BeautifulSoup(res.test,'html.parser')

#利用css定位元素

prices=soup.selector( div > div > div.lay.first > div.list_li.\30 > a > img)

#提取标签内容去掉头尾,<i>5456</i>=>5456

for price in prices:

  print (price.get_text())

lxml库

python爬虫之路——初识爬虫三大库,requests,lxml,beautiful.的更多相关文章

  1. python爬虫之路——初识爬虫原理

    爬虫主要做两件事 ①模拟计算机对服务器发起Request请求 ②接收服务器端的Response内容并解析,提取所需的信息 互联网页面错综复杂,一次请求不能获取全部信息.就需要设计爬虫的流程. 本书主要 ...

  2. 【网络爬虫入门02】HTTP客户端库Requests的基本原理与基础应用

    [网络爬虫入门02]HTTP客户端库Requests的基本原理与基础应用 广东职业技术学院  欧浩源 1.引言 实现网络爬虫的第一步就是要建立网络连接并向服务器或网页等网络资源发起请求.urllib是 ...

  3. python爬虫之路——初识lxml库和xpath语法

    lxml库:是xml解析库,也支持html文档解析功能,实用功能:自动修正补全html代码. 使用流程:①导入lxml中的etree库,②利用etree.HTML(文件名)或etree.parse(本 ...

  4. python爬虫之路——初识函数与控制语句

    介绍python函数的定义与使用方法,介绍Python的常用控制语句:判断和循环 函数: 格式 def   函数名(参数1,参数2): return ‘结果’ 判断语句:就是多选一 二选一: if c ...

  5. python爬虫之路——初识数据库存储

    非关系型数据库:MongoDB.关系型数据库:MySQL 关系型和非关系型的区别: 安装: 使用: 应用场景: mongoDB是一种非关系型数据库,分为四大类:键值存储数据库,列存储数据库,文档型数据 ...

  6. python爬虫之路——初识基本页面构造原理

    通过chrome浏览器的使用简单介绍网页构成 360浏览器使用右键审查元素,Chrome浏览器使用右键检查,都可查看网页代码. 网页代码有两部分:HTML文件和CSS样式.其中有<script& ...

  7. python爬虫系列之初识爬虫

    前言 我们这里主要是利用requests模块和bs4模块进行简单的爬虫的讲解,让大家可以对爬虫有了初步的认识,我们通过爬几个简单网站,让大家循序渐进的掌握爬虫的基础知识,做网络爬虫还是需要基本的前端的 ...

  8. Python学习之路——初识Python

    一.第一个程序Hello World: 1.打印输出Hello World: Python2打印方法: >>> print "hello world"hello ...

  9. python学习之路 初识xml

    import requests from xml.etree import ElementTree as ET r = requests.get('http://www.webxml.com.cn// ...

随机推荐

  1. Inno Setup整理

    1.如何使inno setup添加快捷方式默认选中 在[Tasks]段,有 Flags:unchecked改成 Flags: checkablealone; 即可 完整代码示例: [Tasks] Na ...

  2. 27.集成EFCore配置Client和API

    copy链接字符串,这是一个官方的字符串,直接复制过来,放在上面. 添加包的引用 引入IdentityServer4.EntityFramework的命名空间 主要是这个地方初始化我们的数据库 Ope ...

  3. Unable to start services for VMware Tools

    vmware安装扩展工具报错的问题 vmware安装扩展工具报错Creating a new initrd boot image for the kernel.update-initramfs: Ge ...

  4. codeforces 352D - Jeff and Furik【期望dp】

    首先恋人操作过一轮之后逆序对不会变多,所以设f[i]为把i个逆序对消掉的期望次数,f[i]=0.5f[i-2]+0.5f[i]+2,化简然后递推即可 #include<iostream> ...

  5. codevs 1086 栈(Catalan数)

    题目描述 Description 栈是计算机中经典的数据结构,简单的说,栈就是限制在一端进行插入删除操作的线性表. 栈有两种最重要的操作,即pop(从栈顶弹出一个元素)和push(将一个元素进栈). ...

  6. uoj#349. 【WC2018】即时战略(动态点分治)

    传送门 头一次看着题解有一种咱不会\(c++\)的感觉-- 看题解吧-- //minamoto #include<bits/stdc++.h> #include "rts.h&q ...

  7. 利用 Docker 包 Laradock 服务器部署 Laravel & ThinkSNS+ 等程序实战(多项目)

    什么是ThinkSNS+ ThinkSNS(简称TS),一款全平台综合性社交系统,为国内外大中小企业和创业者提供社会化软件研发及技术解决方案,目前最新版本为ThinkSNS+.ThinkSNS V4. ...

  8. 图像像素灰度内插(Matlab实现)

    常用的像素灰度内插法:最近邻元法.双线性内插法.三次内插法 %%像素灰度内插 factor = 0.75;%缩放比 u = 0.6;v = 0.7; itp1 = uint8(zeros(ceil(h ...

  9. dshow整体框架前期构思

    主要组成: ------理想在线平台---------- A:网站组成 1.产品方案介绍部分 2.用户注册管理部分 3.模块介绍及购买 4.普通 工单部分,vip在线部分 B:四大平台 1.打分平台 ...

  10. 微信小程序之登录

    微信小程序登录基本流程就是 1. wx.login获取js_code 根据app_id, secret, js_code 数据 wx.request 获取用户的openid和session_key   ...