python3: 爬虫---- urllib, beautifulsoup

最近晚上学习爬虫，首先从基本的开始；

python3 将urllib,urllib2集成到urllib中了, urllib可以对指定的网页进行请求下载， beautifulsoup 可以从杂乱的html代码中

分离出我们需要的部分；

注： beautifulsoup 是一种可以从html 或XML文件中提取数据的python库；

实例1：

from urllib import request

from bs4 import BeautifulSoup as bs

import re

header = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'

}

def download():

    """

     模拟浏览器进行访问；

    :param url:

    :return:

    """

    for pageIdx in range(1, 3, 1):

        #print(pageIdx)

        url = "https://www.cnblogs.com/#p%s" % str(pageIdx)

        print(url)

        req = request.Request(url, headers=header)

        rep = request.urlopen(req).read()

        data = rep.decode('utf-8')

        print(data)

        content = bs(data)

        for link in content.find_all('h3'):

            content1 = bs(str(link), 'html.parser')

            print(content1.a['href'],content1.a.string)

            curhtmlcontent = request.urlopen(request.Request(content1.a['href'], headers=header)).read()

            #print(curhtmlcontent.decode('utf-8'))

            open('%s.html' % content1.a.string, 'w',encoding='utf-8').write(curhtmlcontent.decode('utf-8'))

if __name__ == "__main__":

    download()

实例2：

# -- coding: utf-8 --

import unittest

import  lxml

import requests

from bs4 import BeautifulSoup as bs

def  school():

    for index in range(2, 34, 1):

        try:

            url="http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-%s.html" % str(index)

            r = requests.get(url=url)

            soup = bs(r.content, 'lxml')

            city = soup.find_all(name="td",attrs={"colspan":"7"})[0].string

            fp = open("%s.txt" %(city), "w", encoding="utf-8")

            content1 = soup.find_all(name="tr", attrs={"height": "29"})

            for content2 in content1:

                try:

                    contentTemp = bs(str(content2), "lxml")

                    soup_content = contentTemp.find_all(name="td")[1].string

                    fp.write(soup_content + "\n")

                    print(soup_content)

                except IndexError:

                    pass

            fp.close()

        except IndexError:

            pass

class MyTestCase(unittest.TestCase):

    def test_something(self):

        school()

if __name__ == '__main__':

    unittest.main()

BeatifulSoup支持很多HTML解析器（下面是一些主要的）：

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	(1)Python的内置标准库(2)执行速度适中(3)文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML解析器	BeautifulSoup(markup, “lxml”)	(1)速度快(2)文档容错能力强	需要安装C语言库
lxml XML解析器	BeautifulSoup(markup, [“lxml”, “xml”]) OR BeautifulSoup(markup, “xml”)	(1)速度快(2)唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	(1)最好的容错性(2)以浏览器的方式解析文档(3)生成HTML5格式的文档	(1)速度慢(2)不依赖外部扩展

python3: 爬虫---- urllib, beautifulsoup的更多相关文章

Python3 使用 urllib 编写爬虫
什么是爬虫爬虫,也叫蜘蛛(Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛.网络爬虫就是根据网页的地址来寻找网页的,也就是URL.举一个简单的例子,我们在浏览器 ...
常见的爬虫分析库（1）-Python3中Urllib库基本使用
原文来自:https://www.cnblogs.com/0bug/p/8893677.html 什么是Urllib? Python内置的HTTP请求库 urllib.request ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用
站长资讯平台:python3爬虫系列19之随机User-Agent 和ip代理池的使用我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事. 1. 前言比如随着我们爬虫 ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
对于python爬虫urllib库的一些理解（抽空更新）
urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urllib库中,所有和网 ...
python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题
当用python3做爬虫的时候,一些网站为了防爬虫会设置一些检查机制,这时我们就需要添加请求头,伪装成浏览器正常访问. header的内容在浏览器的开发者工具中便可看到,将这些信息添加到我们的爬虫代码 ...
Python3中Urllib库基本使用
什么是Urllib? Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理模块 urllib.par ...
Python3.x：BeautifulSoup()解决中文乱码问题
Python3.x:BeautifulSoup()解决中文乱码问题问题: BeautifulSoup获取网页内容,中文显示乱码: 解决方案: 遇到情况也是比较奇葩,利用chardet获取网页编码,然 ...

随机推荐

hdu1875（最小生成树prime）
思路:一开始想用贪心来着,发现贪心有缺陷,然后就用了最小生成树来写,这里用了prime算法,首先,先建个图,两点之间的边的权值就是两个点的距离,然后直接prime模板代码 #include<i ...
创建第一个Djiago
Djiago 目录介绍 mysite/ ├── manage.py # 管理文件 └── mysite # 项目目录 ├── __init__.py ├── settings.py # 配置 ├── ...
python的图形模块PIL小记
前言: 跟我一块住的室友是个搞通信,每天下班后基本必须做的事情是,第一P图,将那些不合格的图片上的数据,p成合格的.第二就是将做好的P图以及产生的日志文件按照固定的名字重新命名.我为了他能够早点睡觉, ...
BZOJ3894文理分科——最小割
题目描述文理分科是一件很纠结的事情!(虽然看到这个题目的人肯定都没有纠结过) 小P所在的班级要进行文理分科.他的班级可以用一个n*m的矩阵进行描述,每个格子代表一个同学的座位.每位同学必须从 ...
BZOJ1398Vijos1382寻找主人 Necklace——最小表示法
题目描述给定两个项链的表示,判断他们是否可能是一条项链. 输入输入文件只有两行,每行一个由0至9组成的字符串,描述一个项链的表示(保证项链的长度是相等的). 输出如果两条项链不可能同构,那么输出 ...
Codeforces Round #475 Div. 1
B:当n是偶数时无解,因为此时树中有奇数条边,而我们每次都只能删除偶数条.当n是奇数时一定有解,因为此时不可能所有点度数都为奇数,只要找到一个度数为偶数的点,满足将它删掉后,各连通块大小都为奇数就可以 ...
【XSY1098】第k小可持久化trie
题目描述给你一个长度为\(n\)数列\(a\),有\(m\)次操作: \(1~x\):把所有数异或\(x\) \(2~x\):把所有数与\(x\) \(3~x\):把所有数或\(x\) \(4~l~ ...
【HDU 4343】Interval query（倍增）
BUPT2017 wintertraining(15) #8D 题意给你x轴上的N个线段,M次查询,每次问你[l,r]区间里最多有多少个不相交的线段.(0<N, M<=100000) 限 ...
LOJ2255. 「SNOI2017」炸弹（线段树）
本文为线段树做法 (听说可以tarjan缩点+拓扑? 感觉差不多..而且这样看起来方便很多找到左端点的过程可以看作点 -> 区间内lowerbound最小的点 -> lowerboun ...
如何改变Android标准键的颜色？
本文选自StackOverflow(简称:SOF)精选问答汇总系列文章之一,本系列文章将为读者分享国外最优质的精彩问与答,供读者学习和了解国外最新技术,本文为大家讲解如何改变Android标准键的颜色 ...

python3: 爬虫---- urllib, beautifulsoup

python3: 爬虫---- urllib, beautifulsoup的更多相关文章

随机推荐

热门专题