内涵段子——脑筋急转弯—

# python 3.7

from urllib.request import Request,urlopen

import re,time

class Neihan(object):

    def __init__(self):

        self.header={

            'Host': 'www.neihan8.com',

            'Referer': 'https: // www.neihan8.com / njjzw //',

            'Upgrade - Insecure - Requests': 1,

            'User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',

            "Cookie": 'UM_distinctid=1673e837ae7146-0363c5477e0b8a-424f0928-13c680-1673e837ae9355; CNZZDATA1274349754=965294396-1542939999-%7C1542939999; Hm_lvt_94f4eb93f17efa632a5c8a01b23da410=1542942067; npreuecookieclassrecord=%2C2%2C14%2C1%2C; CNZZDATA5804950=cnzz_eid%3D222162018-1542942068-https%253A%252F%252Fwww.neihan8.com%252F%26ntime%3D1542942068; Hm_lpvt_94f4eb93f17efa632a5c8a01b23da410=1542943190'

        }

        self.static = 'https://www.neihan8.com/njjzw/'

    def getPage(self,url,refer=None):

        res = urlopen(Request(url=url,headers=self.header)).read()

        self.parsePage(res.decode(),refer)

    def parsePage(self,htmlres,*args):

        patten = 'class="title" title=".*?">(.*?)</a></h3>\s+<div class="desc">(.*?)</div>'

        p = re.findall(patten,htmlres)

        self.writePge(p,args)

    def writePge(self,p,*args):

        with open('11.txt','a+',encoding='utf8') as f:

            print(args)

            for i in p:

                if args[0][0] is not None:

                    print(args)

                    f.write('问题：'+i[0]+'\n'+args[0][0]+i[1].strip()+'\n')

                else:

                    f.write('问题：'+i[0]+'\n'+i[1].strip()+'\n')

                f.write('\n')

    def workon(self):

        # 爬取 20 页

        for i in range(1,10):

            if i == 1:

                url = self.static

                self.getPage(url, refer='答案:')

            else:

                url = self.static+'index_%s.html'%i

                self.getPage(url)

            time.sleep(2)

if __name__ == '__main__':

    spider  = Neihan()

    spider.workon()

内涵段子——脑筋急转弯——spider的更多相关文章

内涵段子爬取及re匹配
案例:使用正则表达式的爬虫现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/ ...
iOS高仿app源码：纯代码打造高仿优质《内涵段子》
iOS高仿app源码:纯代码打造高仿优质<内涵段子>收藏下来字数1950 阅读4999 评论173 喜欢133 Github 地址 https://github.com/Charlesy ...
python内涵段子爬取练习
# -*- coding:utf-8 -*-from urllib import request as urllib2import re# 利用正则表达式爬取内涵段子url = r'http://ww ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
python爬虫（四）内涵段子
import requests import time import json from urllib import request from urllib import parse url = 'h ...
python抓取内涵段子文章
# coding:utf-8 from urllib.request import urlretrieve import threading import requests from bs4 impo ...
Spider_reg
# 解析数据的分类结构化数据有固定的格式,如 :HTML.XML.JSON 非结构化数据图片.音频.视频,这类数据一般都存储为二进制 # 正则表达式 re 使用流程创建编译对象:p = re ...
【爬虫入门01】我第一只由Reuests和BeautifulSoup4供养的Spider
[爬虫入门01]我第一只由Reuests和BeautifulSoup4供养的Spider 广东职业技术学院欧浩源 1.引言网络爬虫可以完成传统搜索引擎不能做的事情,利用爬虫程序在网络上取得数据 ...
11-内涵段子-爬虫(python+正则)
爬取内涵段子,使用正则进行简单处理: #_*_ coding: utf-8 _*_ ''' Created on 2018年7月14日 @author: sss function:爬去内涵段子(静态网 ...

随机推荐

iOS 点击空白处收回键盘的几个简单代码
//收回键盘1 -(void)touchesBegan:(NSSet *)touches withEvent:(UIEvent *)event { [self.view.subviews enumer ...
货币转换函数：CURRENCY_CONVERTING_FACTOR
针对不同币别要做金额栏位转换计算规则: 金额 = 原始金额 * 转换率以下转自博客:https://www.cnblogs.com/sanlly/p/3371568.html 货币转换函数:CUR ...
kubenetes安装
master节点主要由四个模块组成: APIServer 提供了资源操作的唯一入口,任何对资源进行增删改查的操作都要交给APIServer处理后再提交给etcd.kubectl就是对api ser ...
【计算机视觉】BING: Binarized Normed Gradients for Objectness Estimation at 300fps
BING: Binarized Normed Gradients for Objectness Estimation at 300fps Ming-Ming Cheng, Ziming Zhang, ...
python 内置函数input/eval（22）
python的内置函数其实挺多的,其中input和eval算得上比较特殊,input属于交互式内置函数,eval函数能直接执行字符串表达式并返回表达式的值. 一.input函数 input是Pytho ...
PCL学习（五）如何在mesh模型上sample更多点及三维物体姿态估计
---恢复内容开始--- 最近在做关于物体姿态估计的项目基本思路就是我们在估计物体的pose的时候,需要用分割得到的点云与模型库中的模型做匹配 1.通过基于RANSANC的SAC-IA将点云和模型 ...
SQL入门经典（第四版）学习记录——欢迎来到SQL世界（一）
1.结构化查询语言——SQL,关系型数据库通信的标准语言: 2.关系型数据库:表的逻辑单元组成,这些表在内部彼此关联,组成了关系型数据库: 3.SQL会话:用户用SQL命令语句与关系型数据库进行交互时 ...
Python【BeautifulSoup解析和提取网页数据】
[解析数据] 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 [提取数据]是指把我们需要的数据从众多数据中挑 ...
20191011-构建我们公司自己的自动化接口测试框架-Util的AssertResult模块
AssertResult主要就是进行结果断言的了,因为断言结果分2种情况,一种是断言词,一种是断言sheet,如果涉及断言sheet,则需要操作excel到对应的断言表断言所有的字段并且书写断言结果主 ...
机器学习-svd实现人脸识别
加载sklearn中的人脸数据集 from sklearn.datasets import fetch_lfw_people faces = fetch_lfw_people() 执行上面的第二行程序 ...

内涵段子——脑筋急转弯——spider

内涵段子——脑筋急转弯——spider的更多相关文章

随机推荐

热门专题