TXT 文件？？（笑

这里爬的是 74xsw （咱好像也不怎么逛的网站）的英雄再临 ...

请注意这并不是教程，只是贴个代码仅供参考而已【雾

这里用的 getTXT 的方式有两种，一种是每个章节分开 save ，另一种就是所有章节存进一个 TXT （然后你打开的时候可能会发现 notepad 炸掉了，虽说 notepad++ 貌似就不会有这个问题）

如果提示 Reloading 什么的话，呵呵，应该是这个网站又挂了（莫不是很多人拿这个网站爬虫练手？？？艹），是这个网站服务器不够强大，并不是你的问题（当然是你的问题也说不准）

不过 Reloading 最多十来次就完事儿了吧...否则可能出了点大问题（请找出这句话的语病【雾）

另外如果说你把代码关掉重开了的话他是会重头再存的（因为博主并没有考虑如何解决断线重连的问题，可能想到了然鹅懒得去搞，毕竟手调也挺快了【滑稽】）

对于单个文件的存储这影响不大，毕竟就是浪费点时间，对于总文件存储的话，由于存储机制是每次向文档末尾 append 一个章节的内容，所以会有章节重复之类的大雾

所以说你可以删了文件重搞？？？或者说把代码里面的 Cnt>0 换换（换成 Cnt>x ， x 为上一次存储的文档），这样就可以顺利解决这个问题辣

如果你觉得自己爬这个网站烧服务器良心有愧【雾】，可以在每次爬完一章之后 sleep 一下（咱一开始是这么弄的...）

顺便提一句，有些网站会搞些什么反爬装置，可能就是看你同一个 ip 的访问频率很机器（咳咳），就会给你 forbidden 之类的，这种情况你也可以用 sleep 一个随机的时间来解决...吧

貌似还有一个模拟火狐浏览器，google 浏览器访问网站之类的方法，可以逃过一些反爬识别的方法，但是咱没有弄【懒

Code



import os

import re

import urllib

import urllib.request

import ssl

import time

# -- coding: utf-8 --

def getHtmlCode(Url):

    html=urllib.request.urlopen(Url).read()

    html=html.decode("gbk")

    reg=r'<li class="chapter"><a href="(.*?)">(.*?)</a></li>'

    reg=re.compile(reg)

    urls=re.findall(reg, html)

    return urls

def make_dir(floder): #create a path

    path='F:\\PY\\'+floder+'\\'

    if not os.path.isdir(path):

        os.makedirs(path)

    return path

###############################  For single save  #######################################

class SingleSave(object):

    pass

    def saveTXT(self, url, title):

        chapter_html=urllib.request.urlopen(url).read()

        chapter_html=chapter_html.decode('gbk','ignore')

        chapter_reg = r'&nbsp;&nbsp;&nbsp;&nbsp;(.*?)(<br />|&lt;/p&gt;</div>)'

        chapter_reg=re.compile(chapter_reg, re.S)

        chapter_content=re.findall(chapter_reg, chapter_html)

        path=make_dir('TXT')

        f=open('{}{}.txt'.format(path,title), 'w', encoding='gbk')

        for content in chapter_content:

            want=content[0]

            want=want.replace("&nbsp;&nbsp;&nbsp;&nbsp;","")

            want=want.replace("&nbsp;&nbsp;","\r\n    ")

            want='    '+want+'\r\n'

            #print(want)

            f.write(want)

        f.close()

        return 'Saved Complete'

    def stableSaveTXT(self, url, title):

        try:

            assert saveTXT(url,title)=='Saved Complete'

        except:

            print('Something goes wrong. Reloading...  Please wait a moment')

            stableSaveTXT(url,title)

    def getTXT(self, urls, Pre):

        Cnt=1

        print('Start downloading...')

        for url in urls:

            #print(url)

            if Cnt>0:

                chapter_url=url[0]

                chapter_title=url[1]

                stableSaveTXT(Pre+chapter_url, str(Cnt)+'-'+chapter_title)

                print("The "+str(Cnt)+'th TXT is downloaded!')

                time.sleep(0.5)

            Cnt=Cnt+1

####################################  For total save  ######################################

class TotSave(object):

    pass

    def TOTsaveTXT(self, url, title):

        chapter_html=urllib.request.urlopen(url).read()

        chapter_html=chapter_html.decode('gbk','ignore')

        chapter_reg = r'&nbsp;&nbsp;&nbsp;&nbsp;(.*?)(<br />|&lt;/p&gt;</div>)'

        chapter_reg=re.compile(chapter_reg, re.S)

        chapter_content=re.findall(chapter_reg, chapter_html)

        path=make_dir('TXT')

        f=open('{}{}.txt'.format(path,'0-TOT'), 'a',encoding='gbk')

        f.write("\r\n"+title+"\r\n")

        for content in chapter_content:

            want=content[0]

            want=want.replace("&nbsp;&nbsp;&nbsp;&nbsp;","")

            want=want.replace("&nbsp;&nbsp;","\r\n    ")

            want='    '+want+'\r\n'

            #print(want)

            f.write(want)

        f.close()

        return 'Saved Complete'

    def TOTstableSaveTXT(self, url, title):

        try:

            assert TOTsaveTXT(url,title)=='Saved Complete'

        except:

            print('Something goes wrong. Reloading... Please wait a moment')

            TOTstableSaveTXT(url,title)

    def TOTgetTXT(self, urls, Pre):

        Cnt=1

        print('Start downloading...')

        for url in urls:

            #print(url)

            if Cnt>0:

                chapter_url=url[0]

                chapter_title=url[1]

                TOTstableSaveTXT(Pre+chapter_url, str(Cnt)+'-'+chapter_title)

                print("The "+str(Cnt)+'th TXT is downloaded!')

                time.sleep(0.5)

            Cnt=Cnt+1

        print('Download Completely!')

###############################################################################

if __name__=='__main__':

    urllist=getHtmlCode('https://www.74xsw.com/9_9353/')

    print('Got the urllist!')

    TotSave().TOTgetTXT(urllist,'https://www.74xsw.com/')

    print('All Done.\n')

优雅的用两种方式爬网络 txt 文件【雾的更多相关文章

《连载 | 物联网框架ServerSuperIO教程》- 10.持续传输大块数据流的两种方式（如：文件）
1.C#跨平台物联网通讯框架ServerSuperIO(SSIO)介绍 <连载 | 物联网框架ServerSuperIO教程>1.4种通讯模式机制. <连载 | 物联网框架Serve ...
（转）DLL中导出函数的两种方式(dllexport与.def文件)
DLL中导出函数的两种方式(dllexport与.def文件)http://www.cnblogs.com/enterBeijingThreetimes/archive/2010/08/04/1792 ...
【转】DLL中导出函数的两种方式(dllexport与.def文件)
DLL中导出函数的两种方式(dllexport与.def文件) DLL中导出函数的声明有两种方式: 一种方式是:在函数声明中加上__declspec(dllexport):另外一种方式是:采用模块定义 ...
DLL中导出函数的两种方式(dllexport与.def文件)
DLL中导出函数的声明有两种方式: 一种方式是:在函数声明中加上__declspec(dllexport): 另外一种方式是:采用模块定义(.def)文件声明,(.def)文件为链接器提供了有关被链接 ...
这里介绍两种将矩阵写入TXT文件的方法。
方法1 fid = fopen('data.txt','wt'); % data.txt为写入文件名 matrix = M; % M为要存储的矩阵 [m,n]=size(matrix); for i= ...
[Swift]Alamofire：设置网络请求超时时间【timeout】的两种方式
两种方式作用相同,是同一套代码的两种表述. 第一种方式:集聚. 直接设置成员属性(全局属性),这种方法不能灵活修改网络请求超时时间timeout. 声明为成员属性: // MARK: - 设置为全局变 ...
WebView加载页面的两种方式——网络页面和本地页面
WebView加载页面的两种方式一.加载网络页面加载网络页面,是最简单的一种方式,只需要传入http的URL就可以,实现WebView加载网络页面代码如下图: 二.加载本地页面 1.加载asse ...
解决 SharePoint 2010 拒绝访问爬网内容源错误的小技巧（禁用环回请求的两种方式）
这里有一条解决在SharePoint 2010搜索爬网时遇到的“拒绝访问错误”的小技巧. 首先要检查默认内容访问帐户是否具有相应的访问权限,或者添加一条相应的爬网规则.如果目标资源库是一个ShareP ...
iOS 通过URL网络获取XML数据的两种方式
转载于:http://blog.csdn.net/crayondeng/article/details/8738768 下面简单介绍如何通过url获取xml的两种方式. 第一种方式相对简单,使用NSD ...

随机推荐

linux环境下写C++操作mysql（二）
main.cpp #include<stdio.h> #include<stdlib.h> #include"mysqlInterface.h" int m ...
[VIJOS2055][SDOI2019]移动金币：DP+组合数学
分析显然可以转化为阶梯nim. 于是问题转化为了对于所有\(i \in [0,n-m]\),求长度为\(\lfloor\frac{m+1}{2}\rfloor\),和为\(i\),异或和非\(0\) ...
TensorFlow线性回归
目录数据可视化梯度下降结果可视化数据可视化 import numpy as np import tensorflow as tf import matplotlib.pyplot as plt ...
将 vue 的项目放在手机上查看及测试 bug
首先:我们应该让电脑和手机处在同一个局域网下面,最简单的方法,就是让手机链接电脑的 WiFi ,或者让电脑链接手机的 WiFi ,然后得到我们的 ip 地址在电脑上获取 ip 地址就行获取方法: ...
鬼知道NOI会不会成为下一个奥数
认真写作文不可能的,这辈子不可能认真写作文的. (月考,期末考,高考即将到达战场,真香警告) 以下应该成为原稿!!! 真.喜欢写感悟,但我感觉我可能把它写的有点商业化,商业化的文章不可能放的,所以我尽 ...
建立WIN32 DLL，并使用静态加载和动态加载
新建工程,选择win32 dll 编写.cpp(或.c) MyDll.cpp #include "windows.h" BOOL APIENTRY DllMain(HANDLE h ...
第七章 SpringCloud之非声明式RestClient:Feign
study-url:https://cloud.spring.io/spring-cloud-static/spring-cloud-netflix/1.4.6.RELEASE/multi/multi ...
阶段3 2.Spring_07.银行转账案例_2 案例中添加转账方法并演示事务问题
使用xmlioc这个项目进行完善. 创建一个新的工程把之前的代码都复制过来. 复制pom.xml内的依赖项 java下的com包复制过来. 配置文件复制过来测试类固执过来内容进行删减测试类的方法 ...
四十一：数据库之SQLAlchemy之limlt、、slice、offset及切片
一:limit:限制每次查询的时候查询数据的条数二:slice:查一个区间的数据,slice(起,止)三:offset:限制查找数据的时候过滤掉前面多少条四:切片:对query对象切实获取想要的数据 ...
【DVWA】Command Injection（命令注入）通关教程
日期:2019-08-01 16:05:34 更新: 作者:Bay0net 介绍:利用命令注入,来复习了一下绕过过滤的方法,还可以写一个字典来 fuzz 命令注入的点. 0x01. 漏洞介绍仅仅需要 ...

优雅的用两种方式爬网络 txt 文件【雾

Code

优雅的用两种方式爬网络 txt 文件【雾的更多相关文章

随机推荐

热门专题