爬虫（Xpath）——爬tieba.baidu.com

工具：python3

核心知识点：

1）lxml包不能用pip下载，因为里面有其他语言编写的文件

2）urlopen返回的请求是html文件，要使用 content = etree.HTML(html)来将其转换为xml

3）使用content.xpath()返回一个匹配成功的列表集合

4）构造新的url，进入这个url，进行数据爬取

问题：在执行loadPage时遇到了问题，

link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')
这个正则表达式在xpath helper中能够找到对应的href值，如图：

但是在在执行程序时 link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href') 返回的列表值为空，如图：

尝试进入两个输出的fullurl均能正确进入网页，说明上一步传入的网址是没有错误的呀!

到底是什么原因呢？

import urllib.request

import re

from lxml import etree

class Spider:

    def __init__(self):

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36",

        }

    def loadPage(self, link):

        """

        下载页面

        """

        print("正在下载数据。。。。。。")

        request = urllib.request.Request(link, headers=self.headers)

        html = urllib.request.urlopen(request).read()

        # html = html.decode("utf-8")

        with open("meinvba.txt", "w") as f:

            f.write(str(html))

        # 获取每页的HTML源码字符串

        # html = html.decode("gbk")

        # 解析html文档为HTML DOM类型

        content = etree.HTML(html)

        print(content)

        # 返回所有匹配成功的列表集合

        link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')

        print(link_list)

        for i in link_list:

            print("__4__")

            fulllink = "http://tieba.baidu.com" + i

            self.loadImage(fulllink)

        print("___3___")

    # 取出每个帖子的图片链接

    def loadImage(self, link):

        request = urllib.request.Request(link, headers=self.headers)

        html = urllib.request.urlopen(request).read()

        content = etree.HTML(html)

        link_list = content.xpath('//img[@class="BDE_Image"]/@src')

        print("____1____")

        for link in link_list:

            self.writeImage(link)

    def writeImage(self, link):

        request = urllib.request.Request(link, headers=self.headers)

        image = urllib.request.urlopen(request).read()

        filename = link[-5:]

        print("___2____")

        with open(filename, "wb") as f:

            f.write(image)

        print("*"*30)

    def startWork(self, kw, beginpage, endpage):

        """

        控制爬虫运行

        """

        url = "http://tieba.baidu.com/f?"

        key = urllib.parse.urlencode({"kw": kw})

        print("key:" + key)

        fullurl = url + key

        for page in range(int(beginpage), int(endpage) + 1):

            pn = (page - 1)*50

            fullurl = fullurl + "&pn=" + str(pn)

            self.loadPage(fullurl)

            # print("fullurl:" + fullurl)

if __name__ == "__main__":

    tiebaSpider = Spider()

    kw = input("请输入要爬取的贴吧名：")

    beginpage = input("请输入起始页：")

    endpage = input("请输入结束页：")

    tiebaSpider.startWork(kw, beginpage, endpage)

好想知道哪里出了错误啊！！！

*******************************************************************更新*************************************************************************************

我找到了原因！各种尝试之后我发现将loadPage方法中的

request = urllib.request.Request(link，headers=self.headers)改为

request = urllib.request.Request(link）就好了！
很奇怪啊，后来我尝试修改user-agent的值，也是同样的结果：只有loadPage方法的request请求没有headers时才能正常使用。

爬虫（Xpath）——爬tieba.baidu.com的更多相关文章

python爬虫案例：使用XPath爬网页图片
用XPath来做一个简单的爬虫,尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # -*- coding:utf-8 -*- import urllib import ...
Python练习册第 0013 题：用 Python 写一个爬图片的程序，爬这个链接里的日本妹子图片 :-)，(http://tieba.baidu.com/p/2166231880)
这道题是一道爬虫练习题,需要爬链接http://tieba.baidu.com/p/2166231880里的所有妹子图片,点进链接看一下,这位妹子是日本著名性感女演员--杉本由美,^_^好漂亮啊,赶紧 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...

随机推荐

npm-install camo
camo是针对Node.js和MongoDB的对象模型mapper(object document mapper)(ODM) 可以喝Mongoose ODM互换,但是和其有显著的不同文章主要关注了M ...
MOVE降低高水位 HWM
MOVE降低高水位 HWM --创建实验表空间SQL> create tablespace andy03 datafile '/home/oracle/app/oradata/orcl/andy ...
BZOJ1503：[NOI2004]郁闷的出纳员
浅谈$splay$:https://www.cnblogs.com/AKMer/p/9979592.html 浅谈$fhq$_$treap$:https://www.cnblogs.com ...
[提高班] 2017 Summer Training Day1补题
题目地址:https://vjudge.net/contest/175939#overview A.数据范围是10^9,所以需要一个巧思路.对于一个数n,如何去判定比它的所有数是否是二进制形式.比n小 ...
ubuntu下终于安装好了nvidia的gt540显卡驱动
ubuntu下终于安装好了nvidia的gt540显卡驱动.估计好多童鞋怕麻烦都放弃安装了哈. 先看看效果. ~$ lspci |grep -i vga :) :00.0 VGA compatible ...
USB相关资料
http://www.usb.org/developers/defined_class/#BaseClass00h http://blog.csdn.net/lizzywu/article/detai ...
【网络爬虫】【python】网络爬虫（五）：scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的. 一.爬虫类编写(spider.py) from scrapy.s ...
一、初识mybatis
orm框架 1.配置文件(配置别名.mapper xml文件.数据库连接.事务) 2.创建SqlSessionFactory,创建SqlSession 3.创建model,创建Mapper xml文件 ...
聊聊心跳机制及netty心跳实现
我们在使用netty的时候会使用一个参数,ChannelOption.SO_KEEPALIVE为true, 设置好了之后再Linux系统才会对keepalive生效,但是linux里边需要配置几个参数 ...
poj1088滑雪最短路径
滑雪 Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 97281 Accepted: 36886 Description ...

爬虫（Xpath）——爬tieba.baidu.com

爬虫（Xpath）——爬tieba.baidu.com的更多相关文章

随机推荐

热门专题