Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记:
一、爬虫前的基本准备
1. 如何安装BeautifulSoup?
pip install beautifulsoup4 或 easy_install beautifulsoup4
注意:python2用BS4,但python3可以考虑用BS3,BS4对python3支持不够好
2. 如何查看BeautifulSoup已经安装?
打开IDE,用from bs4 import BeautifulSoup不报错 或 在cmd中输入pip list查看pip已安装的第三方库
3. 爬虫模块了解多少?
爬虫模块:urllib、urllib2、Requests、BeautifulSoup、Scrapy、lxml等
二、BeautifulSoup基础知识
1. 如何获取自定义html标签的内容?
#-*-coding:utf-8-*- from bs4 import BeautifulSoup html = '<title>女朋友</title>' soup = BeautifulSoup(html, 'html.parser') #创建一个beautifulsoup对象,html.parser为默认的网页解析器 print soup.title #获取title标签内容 运行结果:<title>女朋友</title>
数据:<div>,<title>,<a>...标签
找到标签的内容:soup.div(标签的名字)
2. 如何获取本地html文件的内容?
#-*-coding:utf-8-*-
from bs4 import BeautifulSoup
soup = BeautifulSoup(open('C:\\Users\\Administrator\\Desktop\\a.html'), 'html.parser') #在本地创建一个名叫a.html的html文件
print soup.prettify() #打印soup对象的内容,格式化输出
结果:<h1> 今天是周五</h1><p> 你们都很棒</p>
打开本地的html文件:open
打印本地文件的内容:soup.prettify()
3. html源代码相同的标签有很多,怎么获取到我想要的那一部分内容?
#-*-fulcoding:utf-8-*-
from bs4 import BeautifulSoup
html = '<div class="a">科里小姐姐</div><div class="b">若兰姐姐小溪姐姐</div>'
soup = BeautifulSoup(html, 'html.parser')
e = soup.find('div', class_ = "b") #class是python关键字,所以用class过滤,必须加下划线_
print e.text #.text获取文本
结果:若兰姐姐小溪姐姐
网页:名字,class,id
find(name,attrs,recursive,text,**wargs):这些参数相当于过滤器一样进行筛选处理
name:基于标签的名字
attrs:基于标签的属性
recursive:基于是否使用递归查找
text:基于文本参数
**wargs:基于函数的查找
4. 区分点:find find_all
#-*-fulcoding:utf-8-*-
from bs4 import BeautifulSoup
html = '<a href="www.baidu.com">百度</a><a href="www.sina.com.cn">新浪</a>'
soup = BeautifulSoup(html, 'html.parser')
#先用find
a = soup.find('a')
print a.get('href')
#再用find_all
b = soup.find_all('a')
for c in b:
print c.get('href')
结果:find:www.baidu.com
find_all:www.baidu.comwww.sina.com.cn
可知:find_all()返回的是一个列表,可以遍历html文件中包含某一元素的所有字串,而find()只会找到第一个。
find_all()能够限制返回结果的数量,如soup.find_all('a', limit = 2),当limit = 1时,find()与find_all()结果相同。
5. 如何对付反爬虫?
增加头部信息headers。urllib2.Request()有三个参数,即urllib2(url, data, headers),如何我们爬取网页时得不到响应,有可能是网站建立了反爬虫机制,我们需要增加头部信息,模拟浏览器来登录,从而成功获取所需要的数据。
三、实战:爬取豆瓣妹子的图片
#-*-coding: utf-8-*-
from bs4 import BeautifulSoup #从网页抓取数据
import urllib2, urllib
def crawl(url): #网站反爬虫,模拟浏览器访问,加上headers头部信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}
request = urllib2.Request(url, headers = headers) #用url创建一个request对象
response = urllib2.urlopen(request, timeout = 20)
contents = response.read() #获取源码
soup = BeautifulSoup(contents, 'html.parser')
my_girl = soup.find_all('img')
x = 0
for girl in my_girl:
link = girl.get('src')
print link
urllib.urlretrieve(link, 'E:\\image\\%s.jpg' %x) #urlretrieve是保存图片到本地
x += 1
url = 'https://www.dbmeinv.com/?pager_offset=1'
crawl(url)
Python爬虫之BeautifulSoup的用法的更多相关文章
- python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器 在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
- 使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解(新手必学)
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
- 【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库 阅读目录 初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素 基本使用 标签选择器 节点操作 ...
- Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 廖雪峰大大贡献的教程写的不错,写了个爬虫把教程保存为word文件,供大家方便下载学习:http://p ...
- Python爬虫系列-BeautifulSoup详解
安装 pip3 install beautifulsoup4 解析库 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup,'html,parser') Pyth ...
- Python爬虫之BeautifulSoap的用法
1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...
- Python爬虫之Beautifulsoup模块的使用
一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Be ...
- Python爬虫:BeautifulSoup用法总结
原文 BeautifulSoup是一个解析HTML或XML文件的第三方库.HTML或XML文件可以用DOM模型解释.一般包含三种节点: 元素节点 - 通常指HTML 或 XML的标签 文本节点 - 标 ...
- Python 爬虫—— requests BeautifulSoup
本文记录下用来爬虫主要使用的两个库.第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib:第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦. req ...
随机推荐
- 随机生成六位验证码函数版(python)
import random def code(n=6,alpha=True): s = '' # 创建字符串变量,存储生成的验证码 for i in range(n): # 通过for循环控制验证码位 ...
- Linux安装配置
虚拟机配置Linux镜像文件 配置网路 防火墙 一.虚拟机配置Linux镜像文件 1.将下载好的Linux镜像文件载入进来 2.启动虚拟机,安装 3.此步为是否检测linux系统,我们选择" ...
- 3.4 使用STC89C52控制MC20解析GPS的经纬度数据在LCD1602上显示
需要准备的硬件 MC20开发板 1个 https://item.taobao.com/item.htm?id=562661881042 GSM/GPRS天线 1根 https://item.taoba ...
- MFC实现文字随鼠标移动
1 实验介绍 此实验是在刚开始接触MFC时做的.它要求实现的功能如下: 文字跟随鼠标动态移动(跟随移动方式自定) 修改图标为自己喜欢的图标 修改窗口标题 修改文档名称 可以用菜单项选定指定的颜色显示文 ...
- 剑指offer 面试64题
题目:64题 求1+2+3+...+n,要求不能使用乘除法.for.while.if.else.switch.case等关键字及条件判断语句(A?B:C). 解法一:利用Python特性 # -*- ...
- 解释python中的help()和dir()函数
help函数是一个内置函数,用于查看函数或模块用途的详细说明 import copy print(help(copy.copy)) Help on function copy in module co ...
- git在IDEA中的使用
学习资料: http://blog.csdn.net/autfish/article/details/52513465 (关于提交的讲解) http://blog.csdn.net/ck443870 ...
- PAT 天梯赛 L1-037. A除以B 【水】
题目链接 https://www.patest.cn/contests/gplt/L1-037 AC代码 #include <iostream> #include <cstdio&g ...
- 方法——<37>
1,返回url参数 /* * 返回参数值 * @method getUrlPara * @papram {string},url中参数名 * @return {string},url中参数值 * */ ...
- java利用反射将pojo转为json对象
最近做以太坊钱包项目需要与前台进行json交互,写一个工具类,经普通javaBean转为json对象 package util; import java.lang.reflect.Field; imp ...