Beautifusoup

text = soup.find('div', {'class': 'mulu'})  #查找目录，坑死我了。就这个东西，
知乎上看别人写的爬取网络小说，这个最适合我。
我一开始老是使用beautifulsoup ，find老是不准，原来是这个样子的。这个格式的。真是太无情了。
不准的原因还有一个，那就是解析的页面错了。愚蠢的人类
继续学习。

作者：周小馬

链接：https://www.zhihu.com/question/48900224/answer/266561350

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

# -*- coding: utf-8 -*-

# 导入俩库，足够了

import requests

from bs4 import BeautifulSoup

url = "http://www.88dushu.com/xiaoshuo/2/2392/index.html"  # 小说索引页

url_text = "http://www.88dushu.com/xiaoshuo/2/2392/"  # 小说主页面，后面还需加上每一章的链接

page = range(174, 294)  # 第三部是174-294页

# 定义第一个函数， 用来爬取每一章的url和章节名

def get_url(url):

    content = requests.get(url).content

    soup = BeautifulSoup(content)

    # 找到每一章所在的位置，都在'li'这个标签

    text = soup.find('div', {'class': 'mulu'}).find('ul').find_all('li')

    urls = []

    titles = []

    for i in page:  # 循环第三部的每一章

        url1 = text[i].find('a').get('href')

        title = text[i].find('a').get_text()

        urls.append(url1)

        titles.append(title)

    #返回链接和章节名

    return urls, titles

# 定义第二个函数，用来得到每一章的内容，并存入TXT文件

def get_text():

    # 从上一个函数获取链接和章节名

    urls, titles = get_url(url)

    # 文本文件设置为追加模式'a'，避免前面的内容被覆盖

    f = open('d:/kuanglong.txt', 'a')

    for i in range(len(urls)):

        url_tt = url_text + str(urls[i])  # 每一章完整的链接

        content = requests.get(url_tt).content

        soup = BeautifulSoup(content)

        # 得到一章的内容

        text = soup.find('div', {'class': 'yd_text2'}).get_text()

        # 将得到的内容清洗，去除广告

        text = text.replace("****[ 请到  六九中文阅读最新章节 ]****", '').replace('[\****/[  六九中文急速更新 ]\****/]', '')\

            .replace('\xa0', '')

        # 章节名 + 章节内容

        texts = titles[i] + text

        # 写入txt文件

        f.write(texts)

    # 循环完之后关闭文件句柄

    f.close()

# 运行程序

if __name__ == '__main__':

    get_text()

获取文档链接

for link in soup.find_all('a'):

    print(link.get('href'))

    # http://example.com/elsie

    # http://example.com/lacie

    # http://example.com/tillie

获取文档文字内容

print(soup.get_text())

# The Dormouse's story

#

# The Dormouse's story

#

# Once upon a time there were three little sisters; and their names were

# Elsie,

# Lacie and

# Tillie;

# and they lived at the bottom of a well.

#

# ...

慢不要快，稳才是对的。

Beautifusoup的更多相关文章

爬虫实例之使用requests和Beautifusoup爬取糗百热门用户信息
这次主要用requests库和Beautifusoup库来实现对糗百的热门帖子的用户信息的收集,由于糗百的反爬虫不是很严格,也不需要先登录才能获取数据,所以较简单. 思路,先请求首页的热门帖子获得用户 ...
BeautifuSoup的使用
BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单.
爬虫工具--Beautifusoup
import requests from bs4 import BeautifulSoup s=requests.Session() r=s.get('https://www.tumblr.com/l ...
【转】Python练习，网络爬虫框架Scrapy
一.概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示).下面就来一个个解释每个组件的作用及数据的处理过程. 二.组件 1.Scrapy Engine(S ...
python Scrapy安装和介绍
python Scrapy安装和介绍 Windows7下安装1.执行easy_install Scrapy Centos6.5下安装 1.库文件安装yum install libxslt-devel ...
爬虫：把廖雪峰的教程转换成 PDF 电子书
写爬虫似乎没有比用 Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天就琢磨着写一个爬虫,将廖雪峰的 ...
利用python设计PDF报告，jinja2，whtmltopdf，matplotlib，pandas
转自:https://foofish.net/python-crawler-html2pdf.html 工具准备弄清楚了网站的基本结构后就可以开始准备爬虫所依赖的工具包了.requests.beau ...
Scrapy 爬虫入门 +实战
爬虫,其实很早就有涉及到这个点,但是一直没有深入,今天来搞爬虫.选择了,scrapy这个框架 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tut ...
Scrapy架构及其组件之间的交互
最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具. 一.概述下 ...

随机推荐

leetCode 64.Minimum Path Sum (最短路) 解题思路和方法
Given a m x n grid filled with non-negative numbers, find a path from top left to bottom right which ...
【生产问题】--8KW的数据表导致业务卡顿
问题描述:业务突然变得巨卡分析思路: (1)分析用户请求进程:查看是否有长期运行霸占锁的情况,或者进程数量巨多.很明显我这里就是巨多,正常情况一般0~40来个的样子,在业务使用高峰期居然达到了140 ...
Android零散知识点积累
本文仅在记录android开发中遇到的零散知识点,会不断更新... 目录 .隐藏系统标题栏 .图片尺寸及屏幕密度 3.获取顶部状态栏高度 1.隐藏系统标题栏 1)在资源文件styles.xml中定义样 ...
当退出python时，是否释放全部内存
答案是no,循环引用其他对象或引用自全局命名空间的对象的模块,在python退出时并非完全释放另外,也不会释放c库保留的内存部分
android 获取视频缩略图终极解决方案(ffmpeg)
http://blog.csdn.net/u010499721/article/details/50338623 前些天有个师弟(在做一个仿LinkInEyes行车记录仪的app)问我怎么获取视频缩略 ...
2017最全的php面试题目及答案总结
最近在网上看到很多的小伙伴们都在询问如何应对php面试,这个对于有工作经验和实战项目的小伙伴来说是没什么问题的,但是对于刚刚学习完php的小伙伴们.php面试却是一个很重要的一步,那么今天php中文网 ...
Servlet和Filter的url匹配以及url-pattern详解
Servlet和filter是J2EE开发中常用的技术,使用方便,配置简单,老少皆宜.估计大多数朋友都是直接配置用,也没有关心过具体的细节,今天遇到一个问题,上网查了servlet的规范才发现,ser ...
P3391 文艺平衡树
hh 题目描述您需要写一种数据结构(可参考题目标题),来维护一个有序数列,其中需要提供以下操作:翻转一个区间,例如原有序序列是5 4 3 2 1,翻转区间是[2,4]的话,结果是5 2 3 4 1 ...
html页面转JSP之后样式变化的问题
html 保存为jsp 样式变化了 ,比如里面的一些input 获知是其他的一些样式变化的. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1 ...
java深入探究09-Filter,Listener，国际化
1.Filter过滤器 1)为是么有过滤器开发项目中经常遇到直接登录主页面要判断用户是否合法,这类代码比较重复,可以通过过滤器来解决 2)过滤器原理生命周期服务器创建过滤器对象->一个执行i ...

Beautifusoup

Beautifusoup的更多相关文章

随机推荐

热门专题