python3.7爬取墨菲定律保存在本地txt

#!/usr/local/bin/python3.7

# -*- coding: utf-8 -*-

# @Time: 2019/07/15

# @Function 获取在线文本内容

import requests

from bs4 import BeautifulSoup

import re

import codecs

url = 'https://www.shuhaige.com/7518/'

header = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',

    'Origin': 'https://www.shuhaige.com',

    'Host': 'www.shuhaige.com'

}

# 设置代理服务器

proxies = {

    'http:': 'http://121.232.146.184',

    'https:': 'https://144.255.48.197'

}

def getContent():

    contents = requests.get(url, headers=header).text

    html = BeautifulSoup(contents, 'html.parser')

    lists = html.select('dl')[0].select('a')

    for list in lists:

        itemUrl = f'https://www.shuhaige.com{list["href"]}'

        itemContent = requests.get(itemUrl, headers=header).text

        itemHtml = BeautifulSoup(itemContent, 'html.parser')

        saveToTxt(itemHtml.select('div .content')[0], list.string)

# 写入文本文件

def saveToTxt(comments, title):

    commentsList = ''

    for item in comments:

        comment_info = f'{item}'.replace(f'<br/>', '')

        comment_info = re.sub(f'<p>.*</p>', '', comment_info)

        commentsList += comment_info

    with codecs.open(f'MoFeiDingLv/{title}.txt', 'w', encoding='utf-8') as file:

        file.writelines(commentsList)

    print(f'{title}写入文件成功!')

getContent()

　　书本内容来自书海阁《墨菲定律》

python3.7爬取墨菲定律保存在本地txt的更多相关文章

Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
Python-爬虫实战简单爬取豆瓣top250电影保存到本地
爬虫原理发送数据获取数据解析数据保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法:res.content ...
atitit.管理学三大定律：彼得原理、墨菲定律、帕金森定律
atitit.管理学三大定律:彼得原理.墨菲定律.帕金森定律彼得原理(The Peter Principle) 1 彼得原理解决方案1 帕金森定律 2 如何理解墨菲定律2 彼得原理(The Pete ...
墨菲定律-Murphy's Law (转载)
墨菲定律 “墨菲定律”(Murphy's Law)亦称莫非定律.莫非定理.或摩菲定理,是西方世界常用的俚语. “墨菲定律”:事情往往会向你所想到的不好的方向发展,只要有这个可能性.比如你衣袋里有两把钥 ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...

随机推荐

如何在Ecplise调试之后恢复原来的界面
在我们用Eclipse调试代码的时候,可以通过设置断点来调试,但是调试之后我们的界面会跟之前的不同,通过以下的方法可以让Eclipse的界面恢复成调试之前的样子. 在Ecplise中找到Window, ...
C++编译-链接错误集合
1,无法解析的外部符号,链接错误,原因:没找到某个符号(变量或函数)的定义体,一般是对应函数没实现,或第三方库没有添加到工程设置中 2,重复链接链接错误,一个定义体(实现体)被多个CPPP文件包含,导 ...
Linux驱动开发1——基础知识
1.三类驱动字符设备驱动:字节流,/dev下有设备节点,file_operations,inode, file 块设备驱动:数据块,/dev下有设备节点,通常有文件系统网络设备驱动:网络报文的收发 ...
yield(放弃、谦逊、礼让) - 瞬时的，暂时放了马上再抢
两个线程抢占CPU各自执行任务,代码如下: public class Demo03 { public static void main(String[] args) throws Interrupte ...
【洛谷P1983 车站分级】
这题好像是个蓝题.(不过也确实差不多QwQ)用到了拓扑排序的知识我们看这些这车站,沿途停过的车站一定比未停的车站的级别高所以,未停靠的车站向已经停靠的车站连一条边,入度为0的车站级别就看做1 然后 ...
scrapy 配置文件指定如何导出数据
1.导出文件路径 FEED_URI = 'export_data/%(name)s.data' 2.导出数据格式 FEED_FORMAT = 'csv' 3.导出文件编码 FEED_EXPORT_EN ...
Spring Cloud Stream 使用延迟消息实现定时任务（RabbitMQ）
应用场景通常在应用开发中我们会碰到定时任务的需求,比如未付款订单,超过一定时间后,系统自动取消订单并释放占有物品. 许多同学的第一反应就是通过spring的schedule定时任务轮询数据库来实现, ...
format和urlencode的使用对比
一:format的基本语法使用基本语法是通过 {} 和 : 来代替以前的 % . format 函数可以接受不限个参数,位置可以不按顺序. 例如: >>>"{} {}&q ...
Jmeter响应中中文乱码怎么解决？
在jmeter的bin目录下有一个jmeter.properties的文件,打开它,搜索sampleresult.default.encoding,把它的注释打开,也就是把最前面的#去掉,改成samp ...
从Android手机中取出已安装的app包，导出apk
从Android手机中取出已安装的app包,导出apk TAG:Android,提取,apk,adb,pm,root,导出apk 假设有这样一个场景,A君看到你手机上一个实用APP,想要安装到自己手机 ...

python3.7爬取墨菲定律保存在本地txt

python3.7爬取墨菲定律保存在本地txt的更多相关文章

随机推荐

热门专题