xpath爬虫实战-爬取小说斗罗大陆第四部

爬取思路

用到的第三方库文件

lxml,requests,fake_agent
用fake_agent里的UserAgent修饰爬虫
用requests进行基本的请求
用lxml进行html的分析
用xpath进行网页元素的选择

爬取的一些问题

1.编码问题这两个编码无法转换成utf-8

UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position 15: illegal multibyte sequence
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xufeff’ in position 15: illegal multibyte sequence
解决:将这两个提前换成空字符

2.要提前建好一个txts的文件夹

全部源码

from lxml import etree

import requests

from fake_useragent import UserAgent

url1 = 'https://www.ibiquge.net/66_66791/'

url2 = 'https://www.ibiquge.net'

# 爬取HTML的函数

def get_html(url):

    ua = UserAgent()

    kv = {'user-agent': ua.random}

    re = requests.get(url, headers=kv)

    re.encoding = 'utf-8'

    htm1 = re.text

    return htm1

# 根据url获得文章并保存的函数

def get_text(url):

    html = get_html(url)

    selector = etree.HTML(html)

    title = selector.xpath('//*[@id="main"]/div/div/div[2]/h1/text()')

    txt = selector.xpath('//*[@id="content"]/text()')

    print(title)

    fp = open('txts\\' + title[0] + '.txt', 'w')

    for each in txt:

        each1 = each.replace('\ufeff', '')

        fp.write(each1.replace('\xa0', ''))

    fp.close()

def get_url(html):

    selector = etree.HTML(html)

    url_list = selector.xpath('//*[@id="list"]/dl/dd/a/@href')

    for url in url_list:

        new_url = url2 + url

        get_text(new_url)

if __name__ == '__main__':

    html = get_html(url1)

    get_url(html)

爬取过程

爬取结果

如有侵权,联系删除

xpath爬虫实战-爬取小说斗罗大陆第四部的更多相关文章

python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import j ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
Scrapy爬虫实战-爬取体彩排列5历史数据
网站地址:http://www.17500.cn/p5/all.php 1.新建爬虫项目 scrapy startproject pfive 2.在spiders目录下新建爬虫 scrapy gens ...
python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201
1.爬取页面 http://www.quanshu.net/book/9/9055/ 2.用到模块urllib(网页下载),re正则匹配取得title及titleurl,urlparse(拼接完整ur ...
慕课爬虫实战爬取百度百科Python词条相关1000个页面数据
http://www.imooc.com/learn/563 spider_main.py #!/usr/bin/python # coding=utf-8 #from baike_spider im ...
Node.js爬虫实战 - 爬你喜欢的
前言今天没有什么前言,就是想分享些关于爬虫的技术,任性.来吧,各位客官,里边请... 开篇第一问:爬虫是什么嘞? 首先咱们说哈,爬虫不是"虫子",姑凉们不要害怕. 爬虫 - 一种 ...

随机推荐

如何有效的阅读JDK源码
阅读Java源码的前提条件: 1.技术基础在阅读源码之前,我们要有一定程度的技术基础的支持. 假如你从来都没有学过Java,也没有其它编程语言的基础,上来就啃<Core Java>,那样 ...
Python学习笔记：List类型所有方法汇总
###############################红色标红的部分为常用方法############################### import copy names = [&quo ...
Java基础部分脑图
这两天事情多,Java摸鱼了,就抽空写了一个脑图聊以自慰,表示自己还是学了的下面这些全会了,恭喜你,Java的基础你可以毕业了
用<center/>标签实现markdown 图片文字等内容居中显示
markdown中,文字居中的方式是借助了html标签<center></center>的支持示例 ![](https://img2018.cnblogs.com/blog/ ...
wifi无线桥接
考虑到不同路由器配置上或许有细微差别,我此处路由器是水星(牌子)路由器. 首先需要2台路由器,一台已经能够上网,作为主路由器:另一台啥都没有配置,将来用作副路由器,与主路由器桥接. 步骤: 获取主路由 ...
Redis 哨兵模式（Sentinel）
上一篇我们介绍了 redis 主从节点之间的数据同步复制技术,通过一次全量复制和不间断的命令传播,可以达到主从节点数据同步备份的效果,一旦主节点宕机,我们可以选择一个工作正常的 slave 成为新的主 ...
PTA | 1029 旧键盘 (20分)
旧键盘上坏了几个键,于是在敲一段文字的时候,对应的字符就不会出现.现在给出应该输入的一段文字.以及实际被输入的文字,请你列出肯定坏掉的那些键. 输入格式: 输入在 2 行中分别给出应该输入的文字.以及 ...
javascript入门之 ztree（二标准json数据）
1.代码 <!DOCTYPE html> <HTML> <HEAD> <TITLE> ZTREE DEMO - Standard Data </T ...
二、Centos7—U盘启动盘制作
1,准备一个8gU盘. 2.iso系统镜像文件. 3.下载UltraISO软件制作启动盘. 4.运行UltraISO软件 5.在UltraISO软件中打开刚下载的Centos系统安装文件 6.开始 ...
Anaconda下的juputer notebook 更改起始目录的方法【填坑】
出来的结果是这样的,我们很不习惯,找文件.保存文件很麻烦这里的快捷方式可以打开 jupyter notebook ,但是如果你没配置环境变量的话,在cmd 中输入命令 jupyter notebo ...

xpath爬虫实战-爬取小说斗罗大陆第四部

爬取思路

爬取的一些问题

全部源码

xpath爬虫实战-爬取小说斗罗大陆第四部的更多相关文章

随机推荐

热门专题