python3.7爬取墨菲定律保存在本地txt

#!/usr/local/bin/python3.7

# -*- coding: utf-8 -*-

# @Time: 2019/07/15

# @Function 获取在线文本内容

import requests

from bs4 import BeautifulSoup

import re

import codecs

url = 'https://www.shuhaige.com/7518/'

header = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',

    'Origin': 'https://www.shuhaige.com',

    'Host': 'www.shuhaige.com'

}

# 设置代理服务器

proxies = {

    'http:': 'http://121.232.146.184',

    'https:': 'https://144.255.48.197'

}

def getContent():

    contents = requests.get(url, headers=header).text

    html = BeautifulSoup(contents, 'html.parser')

    lists = html.select('dl')[0].select('a')

    for list in lists:

        itemUrl = f'https://www.shuhaige.com{list["href"]}'

        itemContent = requests.get(itemUrl, headers=header).text

        itemHtml = BeautifulSoup(itemContent, 'html.parser')

        saveToTxt(itemHtml.select('div .content')[0], list.string)

# 写入文本文件

def saveToTxt(comments, title):

    commentsList = ''

    for item in comments:

        comment_info = f'{item}'.replace(f'<br/>', '')

        comment_info = re.sub(f'<p>.*</p>', '', comment_info)

        commentsList += comment_info

    with codecs.open(f'MoFeiDingLv/{title}.txt', 'w', encoding='utf-8') as file:

        file.writelines(commentsList)

    print(f'{title}写入文件成功!')

getContent()

　　书本内容来自书海阁《墨菲定律》

python3.7爬取墨菲定律保存在本地txt的更多相关文章

Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
Python-爬虫实战简单爬取豆瓣top250电影保存到本地
爬虫原理发送数据获取数据解析数据保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法:res.content ...
atitit.管理学三大定律：彼得原理、墨菲定律、帕金森定律
atitit.管理学三大定律:彼得原理.墨菲定律.帕金森定律彼得原理(The Peter Principle) 1 彼得原理解决方案1 帕金森定律 2 如何理解墨菲定律2 彼得原理(The Pete ...
墨菲定律-Murphy's Law (转载)
墨菲定律 “墨菲定律”(Murphy's Law)亦称莫非定律.莫非定理.或摩菲定理,是西方世界常用的俚语. “墨菲定律”:事情往往会向你所想到的不好的方向发展,只要有这个可能性.比如你衣袋里有两把钥 ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...

随机推荐

Coffee Chicken
Coffee Chicken 字符串斐波那契输出第s[n]个字符串的第k位及后十位暴力算出前20项,超过20,跑dfs #include<bits/stdc++.h> using na ...
2.Vue子组件给父组件通信
子组件给父组件通信如果子组件想要改变数据呢?这在vue中是不允许的,因为vue只允许单向数据传递,这时候我们可以通过触发事件来通知父组件改变数据,从而达到改变子组件数据的目的子组件: <te ...
C# WPF 4.5 RibbonWindow
WPF RibbonWindow , Z .Net4.5里有自带的RibbonWindow,需要引用 System.Windows.Controls.Ribbon.dll 题外话:自带的Ribbon ...
Celery多任务结构
视图结构 pro_cel ├── celery_task# celery相关文件夹 │ ├── celery.py # celery连接和配置相关文件,必须叫这个名字 │ └── tasks1.py ...
C++类前置声明
cpp前置声明: 前置声明只能作为指针或引用,不能定义类的对象,也不能调用对象中的方法. 详见:https://www.cnblogs.com/dobben/p/7440745.html
spring map获取同类型的bean
今天看博客怎么减少if else 方法, 才发现spring 还有很多功能我没有用到,以后真的得花时间学学spring,今天学到的东西如下: 1.定义一个接口 store public interfa ...
修改属性item1(1变化)
给imgList1,7,12,16添加数据数据层data:{imgList1:[],imgList7:[],imgList12:[],imgList16:[],} 处理层let _this=this ...
shell命令传参数（参数长度不定）
脚本 sudo echo "[mysqlMaster<$1>]" >> /home/admin/hostrecord count= ];do >> ...
git比较重要但是又容易忘记的操作
git rebase head~1 把多次commit合并成一次 git reset head 撤销已缓存的内容 git checkout . git stash 去除改动未提交的代码
python列表-简单操作
一.下标操作(下标只能是整数,不能是浮点值) 1.用下标取值 (1)取单个值 In [69]: list01 Out[69]: [2, 3, 4, 5, 'b', 'v', 'c', 666] In ...

python3.7爬取墨菲定律保存在本地txt

python3.7爬取墨菲定律保存在本地txt的更多相关文章

随机推荐

热门专题