python 爬虫（二）

python 爬虫 Advanced HTML Parsing

1. 通过属性查找标签：基本上在每一个网站上都有stylesheets，针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能是像下面这样的

通过标签的class我们的程序能够简单的将他们分辨开来。

 from urllib.request import urlopen

 from bs4 import BeautifulSoup

 html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")

 bsObj = BeautifulSoup(html,"html.parser")

 nameList = bsObj.find_all("span",{"class":"green"})

 for name in nameList:

     print(name.get_text())

运行上面的脚本会将所有class为green的标签找出来，并且打印出来他们的context

I find_all方法：

find_all(name,attrs,recursive,text,**kwargs)

　　　name参数：用来查找名字为name的标签，字符串对象会被忽略掉。这个name参数的值可以使用任意一种过滤器：

1. 字符串，在查找方法中BeautifulSoup会查找与字符串完全匹配的内容

　　　　 soup.find_all('span')

2. 正则表达式，BeautifulSoup会通过正则表达式的match来匹配内容

　　　　 soup.find_all(re.compile("b")) # body b

3 列表：如果传入的是列表，beautifulSoup会将列表中所有元素匹配返回

　　　　 soup.find_all(['a','b'])

4 True，返回所有标签

5 方法，如果没有合适的过滤器还可以定义一个方法，这个方法只能接受一个参数，如果方法返回为True表示当前元素匹配并且被找到，如果不是返回false

 def has_class_but_no_id(tag):

     return tag.has_attr('class') and not tag.has_attr('id')

 bsObj.find(has_class_but_no_id)

keyword参数：

如果一个指定名字的参数不是搜索内置的参数名，搜索时会把该参数当做指定名字的标签的属性来搜索

其实这章主要是对BeautifulSoup的介绍:详细信息可见

　　　　soup.find_all(id='link2')

soup.find_all(href=re.compile("slsie"))

　　　　soup.find_all(id = True)所有有id的标签

搜索指定名字的属性可以是字符串正则表达式列表 True

　　　　使用多个指定名称参数同时过滤

　　　　soup.find_all(href=re.compile("elsie"),id="link")

有些tag的属性不能够在搜索中使用比如data-*

 data_soup = BeautifulSoup('<div data-foo="value">foo!</div>')

 data_soup.find_all(data-foo="value")

 # SyntaxError: keyword can't be an expression

　　　　text参数：

　　　　通过text参数可以搜搜文档中字符串的内容，和name的使用方式基本一样

limit参数：

　　　　find_all返回全部的搜索结果，如果文档树很大，那么搜索的结果会比较慢可以使用limit控制返回的数量

　　　　revursive参数

　　　　调用find_all的时候会搜索当前所有的子孙节点，如果只想搜索直接子节点使用recursive=False

II find方法

　　　find方法和find_all方法在使用上基本相同，find返回一个标签find_all返回一个标签列表

在找的值为空的情况下find_all返回一个空列表find返回None

python 爬虫（二）的更多相关文章

Python爬虫二
常见的反爬手段和解决思路 1)明确反反爬的主要思路反反爬的主要思路就是尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现;浏览器先请求了地址url1,保留了cookie在本地,之后请求地址u ...
Python 爬虫二 requests模块
requests模块 Requests模块 get方法请求整体演示一下: import requests response = requests.get("https://www.baid ...
Python爬虫(二十一)_Selenium与PhantomJS
本章将介绍使用Selenium和PhantomJS两种工具用来加载动态数据,更多内容请参考:Python学习指南 Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试 ...
python爬虫(二)--了解deque
队列-deque 有了上面一节的基础.当然你须要全然掌握上一节的全部方法,由于上一节的方法.在以下的教程中会重复的用到. 假设你没有记住,请你返回上一节. http://blog.csdn.net/ ...
python爬虫(二)_HTTP的请求和响应
HTTP和HTTPS HTTP(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收HTML页面的方法 HTTPS(HyperText Transfer Prot ...
Python爬虫(二十四)_selenium案例：执行javascript脚本
本章叫介绍如何使用selenium在浏览器中使用js脚本,更多内容请参考:Python学习指南隐藏百度图片 #-*- coding:utf-8 -*- #本篇将模拟执行javascript语句 fr ...
Python爬虫(二十三)_selenium案例：动态模拟页面点击
本篇主要介绍使用selenium模拟点击下一页,更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import unittest from selenium impor ...
Python爬虫(二十二)_selenium案例：模拟登陆豆瓣
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考:Python学习指南 #-*- coding:utf-8 -*- from sel ...
Python爬虫(二十)_动态爬取影评信息
本案例介绍从JavaScript中采集加载的数据.更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import requests import re import t ...
Python 爬虫(二十五) Cookie的处理--cookielib库的使用
Python中cookielib库(python3中为http.cookiejar)为存储和管理cookie提供客户端支持. 该模块主要功能是提供可存储cookie的对象.使用此模块捕获cookie并 ...

随机推荐

leetcode--Majority Element
题目链接:https://leetcode.com/problems/majority-element/ 算法类型:分治法题目分析:获取长度为n的数组中的众数(出现次数大于等于⌊ n/2 ⌋) 代码 ...
iptables过滤设置服务端口
1.为SSH跟换连接端口修改SSH配置文件:/etc/ssh/sshd_config #找到Port 22,这里是标识默认使用22端口,修改为想要的端口. Port Port 2.查看iptable ...
【转】PHP网站（nginx、php-fpm、mysql）用户权限解析
这篇文章我们就特别来讲解下,nginx.php-fpm 以及 mysql 运行在各个用户下的配置. 先来做个说明:nginx本身不能处理PHP,它只是个web服务器.当接收到客户端请求后,如果是php ...
JS trim
JS 去掉左右两边空格 /** * 去掉左右两边空格 * @param str * @returns {*} */function myTrim(str){ return str.replace(/( ...
Git 常用操作和问题解决
记录一下自己用git作为项目管理过程中常见的错误以及处理方法 1.git pull 出现问题 git pull出现的问题多为远程分支文件和本地冲突错误提示:error: Your local cha ...
tp5 model 中的软删除
model中需use traits\model\SoftDelete; // 数据表中需添加一个 delete_time 字段保存删除时间 namespace app\index\model; use ...
Microsoft ACE OLEDB 12.0 数据库连接字符串
Excel 97-2003 Provider=Microsoft.ACE.OLEDB.12.0;Data Source=c:\myFolder\myOldExcelFile.xls;Extended ...
studing（来自转载）
1.getchar(): http://www.cnblogs.com/jiangjun/archive/2012/05/16/2503676.html 2.gets()和scanf( ): http ...
WPF 如何绘制不规则按钮，并且有效点击范围也是不规则的
最近在做一个东西,如地图,点击地图上的某一区域,这一区域需要填充成其他颜色.区域是不规则的,而且点击该区域的任一点,都能够变色.普通的按钮只是简单的加载一幅图肯定是不行的.查了很多资料,终于把它搞定了 ...
Linux学习笔记之兄弟连
systemctl --user enable pulseaudio说明:安装完成后系统没有声音,用该命令可以打开.ifconfig eth0 192.168.118.1说明:给网卡设置IP地址.ap ...

python 爬虫（二）

python 爬虫（二）的更多相关文章

随机推荐

热门专题