11-内涵段子-爬虫(python+正则)

爬取内涵段子，使用正则进行简单处理：

#_*_ coding: utf-8 _*_

'''

Created on 2018年7月14日

@author: sss

function:爬去内涵段子（静态网页抓取）

'''

import requests

import urllib

import re

import random

from Tools.scripts.treesync import raw_input

class Spider:

    def __init__(self):

        #初始话起始页的位置

        self.page = 1

        #爬去开关，ture表示继续爬取

        self.switch = True

    def loadPage(self):

        """

                    下载页面

        """

        print('开始下载第'+ str(self.page) + '页：')

        url = 'https://www.neihan8.com/article/list_5_' + str(self.page) + '.html'

        ua_list = [

            "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",

            "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko",

            "Mozilla/5.0 (X11; CrOS i686 2268.111.0)like Gecko",

            "Mozilla/5.0 (Macintosh; U; PPC Mac OS X ",

            "Mozilla/5.0 (Macintosh; Intel Mac OS "

        ]

        user_agnet = random.choice(ua_list)

        headers = {

                "Connection" : "keep-alive",

                "Accept" : "application/json, text/javascript, */*; q=0.01",

                "User-Agent" : user_agnet,

            }

#         response = requests.get(url, headers = headers)

        request = urllib.request.Request(url, headers = headers)

        response = urllib.request.urlopen(request)

        #获取每页的html源码：

        html = response.read().decode('gbk')

#         print(html)

        #创建正则表达式规则对象，匹配每页里的段子内容，re.Sb表示匹配全部字符串内容

        pattern = re.compile('<div\sclass="f18 mb20">(.*?)</div>', re.RegexFlag.S)  #在py3中不是re.S

        #将正则匹配的对象应用到html源码字符串里，返回这个页面里的所有段子的列表

        content_list = pattern.findall(html)

#         print(content_list)

        self.dealPage(content_list)

    def dealPage(self, content_list ):

        """

                    处理每页都段子

        """

        for item in content_list:

            item = item.replace('<p>', '').replace('</p>',''.replace('<br>', '')).replace("<br />", '')

#             print(itme)

            self.writePage(item)

    def writePage(self, item):

        """

                    把每条段子写入到文件里

        """

        with open('duanzi.txt', 'a') as f:

            f.write(item)

    def startWork(self):

        """

                     控制爬虫的运行

        """

        while self.switch:

            self.loadPage()

            command = raw_input('如果继续爬去，请按回车(退出输入q)')

            if command == 'q':

                self.switch = False

            self.page += 1

        print('finish!')

if __name__ == '__main__':

    duanziSpider = Spider()

    duanziSpider.startWork()

11-内涵段子-爬虫(python+正则)的更多相关文章

内涵段子爬取及re匹配
案例:使用正则表达式的爬虫现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/ ...
python爬虫（四）内涵段子
import requests import time import json from urllib import request from urllib import parse url = 'h ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
python内涵段子爬取练习
# -*- coding:utf-8 -*-from urllib import request as urllib2import re# 利用正则表达式爬取内涵段子url = r'http://ww ...
python 爬虫之正则的一些小例子
什么是正则表达式正则表达式是对字符串操作的一种逻辑公式,就是事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑. 正则并不是pyth ...
Python正则式的基本用法
Python正则式的基本用法 1.1基本规则 1.2重复 1.2.1最小匹配与精确匹配 1.3前向界定与后向界定 1.4组的基本知识 2．re模块的基本函数 2.1使用compile加速 2.2 ma ...
iOS高仿app源码：纯代码打造高仿优质《内涵段子》
iOS高仿app源码:纯代码打造高仿优质<内涵段子>收藏下来字数1950 阅读4999 评论173 喜欢133 Github 地址 https://github.com/Charlesy ...
爬虫常用正则、re.findall 使用
爬虫常用正则爬虫经常用到的一些正则,这可以帮助我们更好地处理字符. 正则符单字符 . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D ...
python 正则,常用正则表达式大全
Nginx访问日志匹配 re.compile #re.compile 规则解释,改规则必须从前面开始匹配一个一个写到后面,前面一个修改后面全部错误.特殊标准结束为符号为空或者双引号: 改符号开始从 ...

随机推荐

Jolt Awards: The Best Books
Jolt大奖素有“软件业界的奥斯卡”之美誉,共设通用类图书.技术类图书.语言和开发环境.框架库和组件.开发者网站等十余个分类,每个分类设有一个“震撼奖”(Jolt Award)和三个“生产力奖”(Pr ...
kali视频（26-30）学习
第七周 kali视频(26-30)学习 26.KaliSecurity漏洞利用之检索与利用 27.KaliSecurity漏洞利用之Metasploit基础 28.KaliSecurity漏洞利用之M ...
Spring按名称自动装配--byName
在Spring中,“按名称自动装配”是指,如果一个bean的名称与其他bean属性的名称是一样的,那么将自动装配它. 例如,如果“customer” bean公开一个“address”属性,Sprin ...
错过的sql语句
总结: 内链接:适合和自己的条件对比,但并没有给出具体条件,要从数据库表里面找,注意有些条件两个表都需要写(嵌套查询貌似也可以左连接:适合一个表要全部列出来的情况(使用count的时候,注意coun ...
TCP/IP/HTTP
一.什么是TCP连接的三次握手第一次握手:客户端发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认; 第二次握手:服务器收到syn包,必须确认客户的SYN(ack=j+1 ...
thinkphp5 设置.htaccess报input file specified的解决方法
先去检查服务器设置,这个网上方法很多就不说了,如果服务器没问题还是报这个错误的话可能和php版本有关 php5.4和以下版本的.htaccess <IfModule mod_rewrite.c& ...
gitlab的本地搭建和部署使用
公司现在的代码管理是在公司的服务器上部署了gitlab,这样既方便协同开发,有可以很好的保护代码的安全性. 那么我们就来研究一下如何给自己的服务器上部署gitlab吧! 学习源头:https://w ...
java排序。。简单的冒泡排序
总结:一种简单的交换顺序,从数左边开始扫描待排序的元素,在扫描过程中依次对相邻元素进行比较,将较大值后移,每经过一轮排序后,值最大的元素将移到末尾, 此时记下该元素的位置,下一轮排序只需比较到此位置即 ...
第一章为什么使用NoSQL
1.1 关系型数据库的价值 1.1.1 获取持久化数据 1.1.2 并发通过”事务“ 来控制,出错有“回滚”机制. 1.1.3 集成共享数据库集成,多个应用程序将数据 ...
01_java之基本语法
01java语言概述 * A: java语言概述 * a: Java是sun公司开发的一门编程语言,目前被Oracle公司收购,编程语言就是用来编写软件的. * b: Java的应用 * 开发QQ.迅 ...

11-内涵段子-爬虫(python+正则)

11-内涵段子-爬虫(python+正则)的更多相关文章

随机推荐

热门专题