爬虫（3）- lxml库和贴吧图片下载案例

lxml库

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

lxml python 官方文档：http://lxml.de/index.html

需要安装C语言库，可使用 pip 安装：pip install lxml （或通过wheel方式安装）

百度贴吧下载图片案例

源码下载，直接拉进PyCharm运行即可，当然你需要对应的包，下载包的教程链接。

源码展示解析

# -*- coding:utf-8 -*-

# Author:shifu204

import urllib.request

import urllib.parse

from lxml import etree

def loadPage(url):

    """

        作用：根据url发送请求，获取服务器响应文件

        url: 需要爬取的url地址

    """

    #print url

    #headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}

    request = urllib.request.Request(url)

    html = urllib.request.urlopen(request).read()

    # 解析HTML文档为HTML DOM模型

    content = etree.HTML(html)

    #print content

    # 返回所有匹配成功的列表集合

    link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')

    for link in link_list:

        fulllink = "http://tieba.baidu.com" + link

        # 组合为每个帖子的链接

        # print(link)

        loadImage(fulllink)

def loadImage(link):

    """

        取出每个帖子里的每个图片连接

    """

    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    request = urllib.request.Request(link, headers = headers)

    html = urllib.request.urlopen(request).read()

    # 解析

    content = etree.HTML(html)

    # 取出帖子里每层层主发送的图片连接集合

    link_list = content.xpath('//img[@class="BDE_Image"]/@src')

    # 取出每个图片的连接

    for link in link_list:

        # print(link)

        writeImage(link)

def writeImage(link):

    """

        作用：将html内容写入到本地

        link：图片连接

    """

    #print "正在保存 " + filename

    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    # 文件写入

    request = urllib.request.Request(link, headers = headers)

    # 图片原始数据

    image = urllib.request.urlopen(request).read()

    # 取出连接后10位做为文件名

    filename = link[-10:]

    # 写入到本地磁盘文件内

    with open(filename, "wb") as f:

        f.write(image)

    print("已经成功下载 "+ filename)

def tiebaSpider(url, beginPage, endPage):

    """

        作用：贴吧爬虫调度器，负责组合处理每个页面的url

        url : 贴吧url的前部分

        beginPage : 起始页

        endPage : 结束页

    """

    for page in range(beginPage, endPage + 1):

        pn = (page - 1) * 50

        #filename = "第" + str(page) + "页.html"

        fullurl = url + "&pn=" + str(pn)

        # print (fullurl)

        loadPage(fullurl)

        #print (html)

        print("谢谢使用")

if __name__ == "__main__":

    kw = input("请输入需要爬取的贴吧名:")

    beginPage = int(input("请输入起始页："))

    endPage = int(input("请输入结束页："))

    url = "http://tieba.baidu.com/f?"

    key = urllib.parse.urlencode({"kw": kw})

    fullurl = url + key

    # print(fullurl)

    tiebaSpider(fullurl, beginPage, endPage)

爬虫（3）- lxml库和贴吧图片下载案例的更多相关文章

python简单爬虫用lxml库解析数据
目标:爬取湖南大学2018年本科招生章程 url:http://admi.hnu.edu.cn/info/1026/2993.htm 页面部分图片: 使用工具: Python3.7 火狐浏览器 PyC ...
python爬虫3——获取审查元素(板野友美吧图片下载)
测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0 测试网址:http://tieba.baidu.com/p/2827883128 目的是下载该 ...
Python实战：美女图片下载器，海量图片任你下载
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
Python爬虫11-XML与XPath概述及lxml库的应用
GitHub代码练习地址:用lxml解析HTML,文件读取,etree和XPath的配合使用:https://github.com/Neo-ML/PythonPractice/blob/master/ ...
12.Python爬虫利器三之Xpath语法与lxml库的用法
LXML解析库使用的是Xpath语法: XPath 是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 XPath可以用来提取信息 XPath比 ...
python爬虫之路——初识lxml库和xpath语法
lxml库:是xml解析库,也支持html文档解析功能,实用功能:自动修正补全html代码. 使用流程:①导入lxml中的etree库,②利用etree.HTML(文件名)或etree.parse(本 ...
Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3)
1. 异步加载爬虫对于静态页面爬虫很容易获取到站点的数据内容,然而静态页面需要全量加载站点的所有数据,对于网站的访问和带宽是巨大的挑战,对于高并发和大访问访问量的站点来说,需要使用AJAX相关的技术 ...
Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析
上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的首页地 ...
Windows环境下使用pip install安装lxml库
lxml是Python语言和XML以及HTML工作的功能最丰富和最容易使用的库.lxml是为libxml2和libxslt库的一个Python化的绑定.它与众不同的地方是它兼顾了这些库的速度和功能完整 ...

随机推荐

scrapy-splash抓取动态数据例子四
一.介绍本例子用scrapy-splash抓取微众圈网站给定关键字抓取咨询信息. 给定关键字:打通:融合:电视抓取信息内如下: 1.资讯标题 2.资讯链接 3.资讯时间 4.资讯来源二.网站信息 ...
intelliJ idea提示api注释
poj 1284 Primitive Roots（原根+欧拉函数）
http://poj.org/problem?id=1284 fr=aladdin">原根题意:对于奇素数p,假设存在一个x(1<x<p),(x^i)%p两两不同(0&l ...
vs2017 自定义生成规则错误 MSB3721 命令 ”已退出，返回代码为 1。
错误 MSB3721 命令 ”已退出,返回代码为 1. 解决办法:去掉yasm复选框,改为masm vs2017 自定义生成规则-编译汇编代码 VC++调用yasm编译汇编代码有三种方法:Custom ...
使用VisualSVN建立SVN服务器
原地址:http://blog.csdn.net/happyjiang2009/article/details/5719988 以前使用官方Subversion搭建SVN版本控制环境,感觉很繁琐,需要 ...
解决虚拟机 centos 网络服务启动
现象: 1. 通过 ip addr 显示 eno16777736 适配器为 DOWN 状态 2. service status network 显示以下日志: .... 11月 05 15:30:10 ...
DRUPAL性能优化【转】
1.启用memcache代替Mysql的缓存表处理缓存数据. 2.添加一个opcode缓存可以让 PHP能够重用前面编译过的代码,这样就会跳过解析和编译.常见的opcode缓存有Alternative ...
mongodb的基本语法（一）
一.数据库常用命令 1.Help查看命令提示 help db.help(); db.yourColl.help(); db.youColl.find().help(); rs.help(); 2.切换 ...
java 判断一个字符串是否包含某个字符串中的字符
public static void main(String[] args) { if(isHave("购买ab","出售AssBC")) Sy ...
XML - 十分钟了解XML结构以及DOM和SAX解析方式
引言 NOKIA 有句著名的广告语:"科技以人为本".不论什么技术都是为了满足人的生产生活须要而产生的.详细到小小的一个手机.里面蕴含的技术也是浩如烟海.是几千年来人类科技的结晶, ...

爬虫 （3）- lxml库和贴吧图片下载案例

lxml库

爬虫 （3）- lxml库和贴吧图片下载案例的更多相关文章

随机推荐

热门专题

爬虫（3）- lxml库和贴吧图片下载案例

爬虫（3）- lxml库和贴吧图片下载案例的更多相关文章