python应用：爬虫实例(静态网页)

爬取起点中文网某本小说实例：

 # -*-coding:utf8-*-

 import requests

 import urllib

 import urllib2

 from bs4 import BeautifulSoup

 import sys

 reload(sys)

 sys.setdefaultencoding('utf-8')       #读写中文内容

 class QDZW:

     def __init__(self, url):

         self.url = url           #网址

         self.user_agent = 'Mozilla/5.0 (Windows NT 6.1; (Windows NT 6.1; WOW64; rv:62.0) Gecko/20100101 Firefox/61.0'      #请求头属性（模拟浏览器访问）

         self.headers = {'User-Agent' : self.user_agent}

     #获取网址静态HTML（如果未访问成功，则持续访问，直到访问成功为止）

     def gethtml(self):

             try:

                 #return requests.get(self.url，headers = self.headers,time_out = 2)

                 request = urllib2.Request(self.url,headers = self.headers)

                 response = urllib2.urlopen(request,time_out = 2)    #设置访问时长限制

                 temp = False

                 return response

             except Exception as e:

                 print e

     #解析HTML内容，获取需要的内容

     def novel(self):

         while True:

             r = self.gethtml()

             while r == 'None':         #r内容为空表示访问超时，则继续访问

                 r = self.gethtml()

             #print r.encoding    #输出编码类型

             soup = BeautifulSoup(r ,"html.parser")     #利用BeautifulSoup解析网址内容，class前加 . id前加 #

             #select输出内容为数组，select参数从body中一级结点开始即可，可逐级叠加定位

             #XXX.text为读取标签中的内容  XXX.attrs['xx']为读取 XXX中属性为xx的值 ，XXX为HTML格式的文本

             section_name = soup.select(' .wrap #j_readMainWrap #j_chapterBox .text-wrap .main-text-wrap .text-head .j_chapterName')[0].text

             print section_name

             section_text = soup.select('.wrap #j_readMainWrap #j_chapterBox .text-wrap .main-text-wrap .read-content')[0].text

             section_text = self.spliting(section_text)

             #print section_text

             self.writing(section_name + "\r\n" + section_text)

             next_url = soup.select('.wrap #j_readMainWrap .chapter-control #j_chapterNext')[0]

             #print next_url.text

             if next_url.text == "下一章":

                 self.url = "https:" + next_url.attrs['href']

             else:

                 break

     #在去掉<p></p>的位置添加换行符号“\r\n”

     def spliting(self, string):

         str_split = string.split()  #以split()中参数为标准，切割字符串

         string = ""

         for text in str_split:

             if text != "":

                 string = string + "    " + text + "\r\n"

         return string

     #输出读取的novel内容

     def writing(self, novel):

         outputs = open(unicode('至尊剑皇.txt','utf8'),'a')      #a为追加型写入

         outputs.write(novel)

         outputs.close()

 qdzw = QDZW('https://read.qidian.com/chapter/JDViC81SWM41/pskSqRrpbXDgn4SMoDUcDQ2')     #参数为初始网址

 qdzw.novel()

python应用：爬虫实例(静态网页)的更多相关文章

Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
Python 多进程爬虫实例
Python 多进程爬虫实例 import json import re import time from multiprocessing import Pool import requests f ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python爬虫之静态网页——全国空气质量指数(AQI)爬取
首先爬取地址:http://www.air-level.com/ 利用的python库,最近最流行的requests,BeautifulSoup. requests:用于下载html Beautifu ...
python应用：爬虫实例(动态网页)
以爬取搜狗图片为例,网页特点:采用“瀑布流”的方式加载图片,图片的真实地址存放在XHR中 #-*-coding:utf8-*- import requests import urllib import ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
一、python简单爬取静态网页
一.简单爬虫框架简单爬虫框架由四个部分组成:URL管理器.网页下载器.网页解析器.调度器,还有应用这一部分,应用主要是NLP配合相关业务. 它的基本逻辑是这样的:给定一个要访问的URL,获取这个ht ...

随机推荐

Windows7建立无线热点
很实用的技巧,加以记录. 最初我是想使用connectify的,不过安装这个软件之后,发现有线账号登不上了,所以就选择使用Windows7自带的工具了. 首先以管理员身份运行cmd. 进入之后cd到c ...
API 的历史
原文出处: apievangelist 译文出处:灯下鼠历史无处不在. 研究我们来自何方,有助于指引我们前行.科技的发展日新月异,但时常停一下匆忙的脚步,稍稍回顾一下历史,却总是有益的. 下面就 ...
C# Process.WaitForExit()与死锁
前段时间遇到一个问题,搞得焦头烂额,现在记录下来,希望对大家有所帮助. 程序里我使用Process类启动命令行,执行批处理文件 'Create.cmd'(当我手工将此文件拖入命令行执行时,一切正常). ...
【Leetcode】【Easy】Merge Sorted Array
Given two sorted integer arrays A and B, merge B into A as one sorted array. Note:You may assume tha ...
插上翅膀，让Excel飞起来——xlwings（三）
xlwings基本对象 xlwings基本对象 App相当于Excel程序,Book相当于工作簿.N个Excel程序则由apps表示,N个工作簿由books表示. 对工作簿的操作 #导入xlwings ...
统计一段文章的单词频率，取出频率最高的5个单词和个数(python)
练习题:统计一段英语文章的单词频率,取出频率最高的5个单词和个数(用python实现) 先全部转为小写再判定 lower() 怎么判定单词? 1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符 ...
“标准查询运算符”是组成语言集成查询 (LINQ) 模式的方法
“标准查询运算符”是组成语言集成查询 (LINQ) 模式的方法.大多数这些方法都在序列上运行,其中的序列是一个对象,其类型实现了IEnumerable<T> 接口或 IQueryable& ...
Coreseek:常见问题2
1.failed to lock XXXXX.spl文件这是你建索引的时候会出现的问题,是你没有把打开的的searchd服务给关闭.由于你打开searchd服务时.他会建立一个叫xxx.spl的暂时 ...
LA 3353 最优巴士线路设计
给出一个 n 个点的有向图,找若干个圈,是的每个结点恰好属于一个圈.要求总长度尽量小. 三倍经验题 Uva 12264,HDU 1853 这题有两种解法,一是匹配: 每个点只在一个圈中,则他有唯一的前 ...
Android学习笔记_27_多媒体之视频刻录
一.配置文件: <?xml version="1.0" encoding="utf-8"?> <manifest xmlns:android= ...

python应用：爬虫实例(静态网页)

python应用：爬虫实例(静态网页)的更多相关文章

随机推荐

热门专题