上一篇大概写了下lxml的用法，今天我们通过案例来实践，爬取我的博客博客并保存在本地

爬取博客园博客

爬取思路：

1、首先找到需要爬取的博客园地址

2、解析博客园地址

# coding:utf-8

import requests

from lxml import etree

# 博客园地址

url = 'http://www.cnblogs.com/qican/'

headers = {

    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"

}

html =requests.get(url,headers=headers).text

# 解析html内容

xml = etree.HTML(html)

3、通过博客名称抓取博客标题和详情链接。

经过分析数据我们需要a标签下的文字和href内容

# 标题

title_list = xml.xpath('//div[@class="postTitle"]/a/text()')

# 链接url

url_list = xml.xpath('//div[@class="postTitle"]/a/@href')

4、再次请求博客详情链接获取博客内容

通过for循环获取到标题，链接内容，然后再次请求博客链接获取博客内容

for i,j in zip(title_list,url_list):

    # 再次请求博客链接

    r2 = requests.get(j,headers=headers).text

    # 解析内容

    xml_content = etree.HTML(r2)

    # 获取博客内容

    content = xml_content.xpath('//div[@class="postBody"]//text()')

5、获取的博客内容写入到txt文件中。

通过with写入txt文件中，这里注意内容的编码格式

for x in content:

        print(x.strip())

        with open(i+'.txt','a+',encoding='utf-8')as f:

            f.write(x)

写到这里发现我们都已经把博客内容写入了txt文件中，当然了这只是其中第一页的内容，我们通过观察url链接，发现分页是有page控制的，我们来模拟page数据获取全部博客内容

代码如下：

通过for循环获取模拟分页

# coding:utf-8

import requests

from lxml import etree

# 通过循环模拟url分页

for page in range(1,4):

# 博客园地址

    url = 'https://www.cnblogs.com/qican/default.html?page=%s'%page

    print(url)

    headers = {

        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"

    }

    html =requests.get(url,headers=headers).text

    # 解析html内容

    xml = etree.HTML(html)

    # 标题

    title_list = xml.xpath('//div[@class="postTitle"]/a/text()')

    # 链接url

    url_list = xml.xpath('//div[@class="postTitle"]/a/@href')

    for i,j in zip(title_list,url_list):

        print(i)

        # 再次请求博客链接

        r2 = requests.get(j,headers=headers).text

        # 解析内容

        xml_content = etree.HTML(r2)

        # 获取博客内容

        content = xml_content.xpath('//div[@class="postBody"]//text()')

        # 写入内容

        for x in content:

            print(x.strip())

            with open(i+'.txt','a+',encoding='utf-8')as f:

                f.write(x)

简单的通过案例又一次加深了lxml的用法，当然方法很多种，喜欢哪种用哪种。~~~

爬虫---lxml爬取博客文章的更多相关文章

python 小爬虫爬取博客文章初体验
最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
Python爬虫简单实现CSDN博客文章标题列表
Python爬虫简单实现CSDN博客文章标题列表操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据封装接口函数,实现函数调用. 1.分析接口打开Chrome浏览器,开启开发者工具(F1 ...
[js高手之路]Node.js实现简易的爬虫-抓取博客文章列表信息
抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要实现的功能: 抓取文章标题,超链接,文章摘要,发布时间需要用到的库: node.js自带的http库 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
Java使用Jsoup之爬取博客数据应用实例
导入Maven依赖  <dependency> <g ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
使用JAVA爬取博客里面的所有文章
主要思路: 1.找到列表页. 2.找到文章页. 3.用一个队列来保存将要爬取的网页,爬取队头的url,如果队列非空,则一直爬取. 4.如果是列表页,则抽取里面所有的文章url进队:如果是文章页,则直接 ...
python3 爬虫之爬取安居客二手房资讯(第一版)
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...

随机推荐

近期用到了Git，就简单介绍下具体用法吧
pull:是下拉代码,相等于将远程的代码下载到你本地,与你本地的代码合并push:是推代码,将你的代码上传到远程的动作完整的流程是: 第一种方法:(简单易懂) 1.git add .(后面有一个点,意 ...
Docker组成三要素
目录镜像容器仓库总结 Docker的基本组成三要素镜像容器仓库镜像 Docker 镜像(Image)就是一个只读的模板.镜像可以用来创建 Docker 容器,一个镜像可以创建很多容器. ...
ArrayList的输出以及一些问题
//首先需要创建一个ArrayList ArrayList arr=new ArrayList(); //然后往ArrayList里面插入一些值 arr.add("a"); arr ...
AcWing 791. 高精度加法解题记录
题目地址 https://www.acwing.com/problem/content/description/793/ 题目描述给定两个正整数,计算它们的和. 输入格式共两行,每行包含一个整数. 输 ...
关闭Chrome浏览器的广告
生活没有绝对的对与错:代码就不一样了,错了就编译不过,也正是因为这样,编程的人思维有时也会陷入一种狭隘中,这就是把工作和生活没有分开.Win10 右下角的广告就像程序调试中的"警告" ...
推荐书单（网课）-人生/编程/Python/机器学习-130本
目录总计(130本) 一.在读二.将读三.已读非专业书单(77本) 四.已读专业书单(53本) 五.已看网课(8个) 六.在看网课一个人如果抱着义务的意识去读书,便不了解读书的艺术.--林 ...
反射2-spring boot jpa 注入model即实现查询
spring boot jpa 使用方法:将对应的model类注入即可// fixed parameter type private Specification<TargetModel> ...
H5双重标题的适配
在QQ和微信中会自代一个标题栏,而手机浏览器没有标题栏. 因此,我自己写了一个标题栏 <div class="headbar"> <center class=&q ...
appium 使用name 定位报错 Locator Strategy 'name' is not supported for this session【appium-desktop】
RF中使用 name定位报错提示: Locator Strategy 'name' is not supported for this session 解决: 1.打开本地文件 driver.js ...
Java Serializable：明明就一个空的接口嘛
对于 Java 的序列化,我一直停留在最浅显的认知上——把那个要序列化的类实现 Serializbale 接口就可以了.我不愿意做更深入的研究,因为会用就行了嘛. 但随着时间的推移,见到 Serial ...

爬虫---lxml爬取博客文章