# -*- coding:UTF-8 -*-

 from urllib import request

 from bs4 import BeautifulSoup

 import re

 import sys

 if __name__ == "__main__":

     #创建txt文件

     file = open('一念永恒.txt', 'w', encoding='utf-8')

     #一念永恒小说目录地址

     target_url = 'http://www.biqukan.com/1_1094/'

     #User-Agent

     head = {}

     head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'

     target_req = request.Request(url = target_url, headers = head)

     target_response = request.urlopen(target_req)

     target_html = target_response.read().decode('gbk','ignore')

     #创建BeautifulSoup对象

     listmain_soup = BeautifulSoup(target_html,'lxml')

     #搜索文档树,找出div标签中class为listmain的所有子标签

     chapters = listmain_soup.find_all('div',class_ = 'listmain')

     #使用查询结果再创建一个BeautifulSoup对象,对其继续进行解析

     download_soup = BeautifulSoup(str(chapters), 'lxml')

     #计算章节个数

     numbers = (len(download_soup.dl.contents) - 1) / 2 - 8

     index = 1

     #开始记录内容标志位,只要正文卷下面的链接,最新章节列表链接剔除

     begin_flag = False

     #遍历dl标签下所有子节点

     for child in download_soup.dl.children:

         #滤除回车

         if child != '\n':

             #找到《一念永恒》正文卷,使能标志位

             if child.string == u"《一念永恒》正文卷":

                 begin_flag = True

             #爬取链接并下载链接内容

             if begin_flag == True and child.a != None:

                 download_url = "http://www.biqukan.com" + child.a.get('href')

                 download_req = request.Request(url = download_url, headers = head)

                 download_response = request.urlopen(download_req)

                 download_html = download_response.read().decode('gbk','ignore')

                 download_name = child.string

                 soup_texts = BeautifulSoup(download_html, 'lxml')

                 texts = soup_texts.find_all(id = 'content', class_ = 'showtxt')

                 soup_text = BeautifulSoup(str(texts), 'lxml')

                 write_flag = True

                 file.write(download_name + '\n\n')

                 #将爬取内容写入文件

                 for each in soup_text.div.text.replace('\xa0',''):

                     if each == 'h':

                         write_flag = False

                     if write_flag == True and each != ' ':

                         file.write(each)

                     if write_flag == True and each == '\r':

                         file.write('\n')

                 file.write('\n\n')

                 #打印爬取进度

                 sys.stdout.write("已下载:%.3f%%" % float(index/numbers) + '\r')

                 sys.stdout.flush()

                 index += 1

     file.close()

>>> for link in soup.find_all('a'):
... print(link.get('href'))
#用于爬取a标签的链接

Beautiful Soup 4.4.0 文档链接：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

已下文章来自博客园大佬：http://www.cnblogs.com/sakura3/p/8460224.html（为了复习方便，搬一下，谢谢）

爬小说：

 #!/usr/bin/python

 # -*- coding: UTF-8 -*-

 import requests

 from bs4 import BeautifulSoup

 # get_url_list 获取所有章节的URL，在一个list里

 def get_url_list(url):

     content = requests.get(url).content           #获取页面内容

     soup = BeautifulSoup(content,'lxml')          #Beautifulsoup 实例化对象

     url_list = []                                #空的url_list 数组

     # urls = soup.find('div',{'id':'list'}).find('dl').find_all('dd')

     urls = soup.select('#list > dl > dd > a')    # 根据页面选择到URL ，还可以urls = soup.find('div',{'id':'list'}).find('dl').find_all('dd')

     for i in urls:          #遍历里面的每一章的URL

         i = i.get('href')   #获取URL

         # print(i)

         i = 'http://www.biquge.com.tw' + i   #分析文章组成，形成最终的URL

         url_list.append(i)    #添加到url_list 里面去

     # print (url_list)

     return url_list

 # 获取这一章的内容

 def get_data(url):

     content = requests.get(url).content

     soup = BeautifulSoup(content, 'lxml')

     f = open(r'C:\Users\HBX\Documents\staudy\HMXX.txt','a+',encoding='utf-8')  #不加utf-8 会有编码报错

     text_name = soup.find('div',{'class':'bookname'}).find('h1').text     #获得章节名字

     # text_content = soup.select('#content')

     text_content = soup.find('div',{'id':'content'}).get_text()    #获得章节内容  ，还有一种select css 选择的获取章节内容的方式

     book =text_name+ '\r\n' + text_content    #整体的一章

     # print(book)

     f.write((book)+'\r\n')   #换行写入

     f.close()   #关闭文件

     # for x in text_content:

     #     a = x.text.replace('readx();', '')

     #     print(a)

 if __name__ =='__main__':

     url = 'http://www.biquge.com.tw/18_18049/'   #笔趣阁的小说目录页面

     url_list = get_url_list(url)   #获取了所有的url

     for i in url_list:    # 循环一章url

         get_data(i)      #获取文章内容

BeautifulSoup的基本用法的更多相关文章

bs4.BeautifulSoup的基础用法
导入模块 from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc,"html.parser") 下面看下常见的用法 ...
PYTHON 爬虫笔记五:BeautifulSoup库基础用法
知识点一:BeautifulSoup库详解及其基本使用方法什么是BeautifulSoup 灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便实现网页信息的提取库. ...
Beautifulsoup模块基础用法详解
目录 Beautifulsoup模块官方中文文档介绍基本使用遍历文档树搜索文档树五种过滤器 **find_all( name , attrs , recursive , text , ** ...
#爬虫必备，解析html文档----beautifulsoup的简单用法
#出处:http://mp.weixin.qq.com/s?__biz=MjM5NzU0MzU0Nw==&mid=201820961&idx=2&sn=b729466f334d ...
Python BeautifulSoup库的用法
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的Python库,它通过解析器把文档解析为利于人们理解的文档导航模式,有利于查找和修改文档. BeautifulSoup3目前已经 ...
BeautifulSoup的简单用法
官方文档加载比较慢(估计是我党的原因) https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-parents ...
孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3
孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3 (完整学习过程屏幕记录视频地址在文末) 今天继续学习beautifulsoup对象的属性与方法等内容. 一.今天进一步了 ...
孤荷凌寒自学python第六十九天学习并实践beautifulsoup对象用法2
孤荷凌寒自学python第六十九天学习并实践beautifulsoup对象用法2 (完整学习过程屏幕记录视频地址在文末) 今天继续学习beautifulsoup对象的属性与方法等内容. 一.今天进一步 ...
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1 (完整学习过程屏幕记录视频地址在文末) 感觉用requests获取到网页的html源代码后,更重要的工作其实是分析得到的内 ...

随机推荐

C#Windows 服务的安装说明
安装/卸载的步骤: 1 . .点击开始,运行中输入cmd,获取命令提示符win7需要已管理员的身份启动,否则无法安装 2. 输入 : cd C:\Windows\Microsoft.NET\Fram ...
layer兼容性问题
一.Layer 弹出层在ie8错乱的解决办法弹出层在火狐.谷歌.360极速模式.IE6下都能100%面积正常显示,但在IE8和360的兼容模式下只显示弹出层下半部分或右半部分的内容,在主页面加上: ...
python，魔法方法指南
1.简介本指南归纳于我的几个月的博客,主题是魔法方法 . 什么是魔法方法呢?它们在面向对象的Python的处处皆是.它们是一些可以让你对类添加“魔法”的特殊方法. 它们经常是两个下划线包围来命名的 ...
百度统计api 关于搜索引擎返回参数问题
当 post 的参数: 返回参数为: 很显然没有搜索引擎的相关名称返回,无法分辨相关引擎的数据量: 改:去掉 gran 参数正常: 关于百度统计文档有很多模糊不清的地方,可以发邮件给官方了解,一般处 ...
20165325 2017-2018-2 《Java程序设计》第八周学习总结
一.教材学习笔记 ch12 1.程序是一段静态的代码,进程是程序的一次动态执行过程 2.线程比进程还小,一个进程的进行期间可以产生多个线程. 3.Java内置对多线程的支持.我们的计算机在任何给定说的 ...
[Harbor]Docker登录Harbor仓库(HTTP方式)
Docker登录到Harbor仓库时,不管是使用http协议还是使用https协议,都需要修改一些配置. 这篇文章来介绍一下,在使用http协议时,需要进行什么哪些配置. 首先,确定自己的Harbor ...
web前端之性能
1.避免布局抖动 function resizeAllParagraphsToMatchBlockWidth() { // Puts the browser into a read-write-rea ...
python3+selenium入门13-操作cookie
可以把cookie理解为自己账户的身份证.因为http协议是无状态的,上一个请求和下一个请求没有关系.但是有时需要有关联.比如登录之后,才能进行操作这样的设置.这个就是cookie在起作用.登录成功时 ...
boost 随机数发生器
Random 随机数在很多应用中都需要使用随机数.本库力求提供一个高效的,通用的随机数库.boost库有多种随机数生成方式.先熟悉一下各种随机数生成器的概念. 数字生成器(Number Ge ...
python用WMI模块获取系统命名空间
可以和winmgmts的查询页面对应 from win32com.client import GetObject import pywintypes result=[] def enum_namesp ...

BeautifulSoup的基本用法

Beautiful Soup 4.4.0 文档链接：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

BeautifulSoup的基本用法的更多相关文章

随机推荐

热门专题