Beautifusoup

text = soup.find('div', {'class': 'mulu'})  #查找目录，坑死我了。就这个东西，
知乎上看别人写的爬取网络小说，这个最适合我。
我一开始老是使用beautifulsoup ，find老是不准，原来是这个样子的。这个格式的。真是太无情了。
不准的原因还有一个，那就是解析的页面错了。愚蠢的人类
继续学习。

作者：周小馬

链接：https://www.zhihu.com/question/48900224/answer/266561350

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

# -*- coding: utf-8 -*-

# 导入俩库，足够了

import requests

from bs4 import BeautifulSoup

url = "http://www.88dushu.com/xiaoshuo/2/2392/index.html"  # 小说索引页

url_text = "http://www.88dushu.com/xiaoshuo/2/2392/"  # 小说主页面，后面还需加上每一章的链接

page = range(174, 294)  # 第三部是174-294页

# 定义第一个函数， 用来爬取每一章的url和章节名

def get_url(url):

    content = requests.get(url).content

    soup = BeautifulSoup(content)

    # 找到每一章所在的位置，都在'li'这个标签

    text = soup.find('div', {'class': 'mulu'}).find('ul').find_all('li')

    urls = []

    titles = []

    for i in page:  # 循环第三部的每一章

        url1 = text[i].find('a').get('href')

        title = text[i].find('a').get_text()

        urls.append(url1)

        titles.append(title)

    #返回链接和章节名

    return urls, titles

# 定义第二个函数，用来得到每一章的内容，并存入TXT文件

def get_text():

    # 从上一个函数获取链接和章节名

    urls, titles = get_url(url)

    # 文本文件设置为追加模式'a'，避免前面的内容被覆盖

    f = open('d:/kuanglong.txt', 'a')

    for i in range(len(urls)):

        url_tt = url_text + str(urls[i])  # 每一章完整的链接

        content = requests.get(url_tt).content

        soup = BeautifulSoup(content)

        # 得到一章的内容

        text = soup.find('div', {'class': 'yd_text2'}).get_text()

        # 将得到的内容清洗，去除广告

        text = text.replace("****[ 请到  六九中文阅读最新章节 ]****", '').replace('[\****/[  六九中文急速更新 ]\****/]', '')\

            .replace('\xa0', '')

        # 章节名 + 章节内容

        texts = titles[i] + text

        # 写入txt文件

        f.write(texts)

    # 循环完之后关闭文件句柄

    f.close()

# 运行程序

if __name__ == '__main__':

    get_text()

获取文档链接

for link in soup.find_all('a'):

    print(link.get('href'))

    # http://example.com/elsie

    # http://example.com/lacie

    # http://example.com/tillie

获取文档文字内容

print(soup.get_text())

# The Dormouse's story

#

# The Dormouse's story

#

# Once upon a time there were three little sisters; and their names were

# Elsie,

# Lacie and

# Tillie;

# and they lived at the bottom of a well.

#

# ...

慢不要快，稳才是对的。

Beautifusoup的更多相关文章

爬虫实例之使用requests和Beautifusoup爬取糗百热门用户信息
这次主要用requests库和Beautifusoup库来实现对糗百的热门帖子的用户信息的收集,由于糗百的反爬虫不是很严格,也不需要先登录才能获取数据,所以较简单. 思路,先请求首页的热门帖子获得用户 ...
BeautifuSoup的使用
BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单.
爬虫工具--Beautifusoup
import requests from bs4 import BeautifulSoup s=requests.Session() r=s.get('https://www.tumblr.com/l ...
【转】Python练习，网络爬虫框架Scrapy
一.概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示).下面就来一个个解释每个组件的作用及数据的处理过程. 二.组件 1.Scrapy Engine(S ...
python Scrapy安装和介绍
python Scrapy安装和介绍 Windows7下安装1.执行easy_install Scrapy Centos6.5下安装 1.库文件安装yum install libxslt-devel ...
爬虫：把廖雪峰的教程转换成 PDF 电子书
写爬虫似乎没有比用 Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天就琢磨着写一个爬虫,将廖雪峰的 ...
利用python设计PDF报告，jinja2，whtmltopdf，matplotlib，pandas
转自:https://foofish.net/python-crawler-html2pdf.html 工具准备弄清楚了网站的基本结构后就可以开始准备爬虫所依赖的工具包了.requests.beau ...
Scrapy 爬虫入门 +实战
爬虫,其实很早就有涉及到这个点,但是一直没有深入,今天来搞爬虫.选择了,scrapy这个框架 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tut ...
Scrapy架构及其组件之间的交互
最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具. 一.概述下 ...

随机推荐

Linux中命令查找顺序
第一优先级:用绝对路径或相对路径执行的命令第二优先级:别名指定的命令第三优先级:Bash内部命令第四优先级:$PATH环境变量定义的目录查找顺序中找到的第一个命令
c语言复制文件程序
#include <stdio.h> #include <stdlib.h> #include <string.h> #define SIZE 1024*1024* ...
python 里安装 tensorflow 后运行出错的问题解决
如果出现一下错误: libcublas.so.8.0: cannot open shared object file: No such file or directory 原因是没有 cuda 环境, ...
English Phrases
@1:Phrases requst sth from/of sb 向某人要求某物 a new lease on life 重获新生.焕发生机 state of the art 最先进的 at th ...
C#多线程基础，适合新手了解
一.创建线程在整个系列文章中,我们主要使用Visual Studio 2015作为线程编程的主要工具.在C#语言中创建.使用线程只需要按以下步骤编写即可: 1.启动Visual Studio 201 ...
python——单例模式
单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在. 当你希望在整个系统中,某个类只能出现一个实例时,单例对象就能派上用场. 比如, ...
django-admin 登录之后显示页面，表是否显示
如果是超级用户可以全部看到(如图),如果是普通用户,只能看到user与group 虽然实现了其功能,不过有些地方没搞懂,所以有些地方出了写的不好 ```class PermissionsMixin(m ...
Python基础（7）_闭包函数、装饰器
一.闭包函数闭包函数:1.函数内部定义函数,成为内部函数, 2.改内部函数包含对外部作用域,而不是对全局作用域名字的引用那么该内部函数成为闭包函数 #最简单的无参闭包函数 def func1() n ...
mssql 中文乱码字库集问题解决方法
The database could not be exclusively locked to perform the operation(SQL Server 5030错误解决办法) SQL S ...
Funq之Lambda表达式入门
今天接受了一个Tranning关于.net3.5 framework中的new feature. 其中最不明白的还是Lambda表达式.回来后又仔细的思考了一番,总算有点体会在这里写一下.既然是入门, ...

Beautifusoup

Beautifusoup的更多相关文章

随机推荐

热门专题