spider_爬取内涵吧的段子（二级深度爬取）

'''
爬取内涵吧段子所有笑话（带标题，作者）
总结：解码上，使用gbk2312编码的，我们可以采取gbk解码。  不会报错
'''

from fake_useragent import FakeUserAgent
import requests
import chardet
import re
from lxml import etree
import os
import time
# 定义一个url
def neiHan():
    num=1
    base_url = 'https://www.neihanba.com/dz/'
    while True:
        base_headers = {
            'User-Agent':FakeUserAgent().random
        }
        base_bytesHtml = requests.get(url=base_url,headers=base_headers).content
        # print(base_bytesHtml)
        # 判断网页编码格式  返回一个列表
        result = chardet.detect(base_bytesHtml)
        # print(result)
        # 解码  原网站使用的 是gbk2312编码。 我们碰到诸如此类的可以使用，gbk解码。
        # 有兴趣的同学可以自行百度两者的关系
        base_html = base_bytesHtml.decode('gbk')
        # print(base_html)

        # 构造树状图
        base_html=etree.HTML(base_html)
        # 使用xpath提取url列表
        urls = base_html.xpath('/html/body/div[1]/div/div[1]/ul/li[*]/h4/a/@href')
        # print(urls)
        for url in urls:
            # print(url)
            url = 'https://www.neihanba.com'+url
            headers = {
                'User-Agent':FakeUserAgent().random
            }
            # 请求网页
            bytesHtml=requests.get(url,headers=headers).content
            # 解码
            html=bytesHtml.decode('gbk')
            # print(html)
            # 提取内容（标题）  使用正则
            # 定义正则表达式（url）
            title = r'<h1>(.*?)</h1>'
            # 编译
            title = re.compile(title,re.S)
            # 正则提取标题
            title = re.findall(title,html)
            print(title)
            # 定义正则提取内容
            detail = r'<p>(.*?)</p>'
            # 编译
            detail = re.compile(detail,re.S)
            # 进行提取
            detail = re.findall(detail,html)
            # # 处理字符串，去掉多余的空格，替换&rdquo为右引号。使用正则sub方法
            # detail = re.sub('&ldquo','"',detail[0])
            # 处理字符串使用replace方法
            detail_list = []
            detail=detail[0].replace('&ldquo','"').replace('&rdquo','"').strip()
            detail_list.append(detail)
            # print(detail)
            # print(detail_list)

            # 保存成txt文本
            dir = os.makedirs("./neibanba")
            with open(dir+title[0].txt,'w',encoding='utf-8') as f:
                f.write(detail)
            # 设置延时
            time.sleep(1.5)
        # 判断是否有下一页,如果没有循环停止，使用的是尾页判断。
        res=base_html.find('<a href="/dz/list_100.html">尾页</a>')
        # 如果没有
        if res == -1:
            break
        num+=1
        # print(num)
        base_url = 'https://www.neihanba.com/dz/list_{}.html'.format(num)

if __name__ == '__main__':
    neiHan()

spider_爬取内涵吧的段子（二级深度爬取）的更多相关文章

Python爬虫实战三之爬取嗅事百科段子
一.前言俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页首先我 ...
scrapy基于请求传参实现深度爬取
请求传参实现深度爬取请求传参: 实现深度爬取:爬取多个层级对应的页面数据使用场景:爬取的数据没有在同一张页面中在手动请求的时候传递item:yield scrapy.Request(url,ca ...
Python爬虫之利用正则表达式爬取内涵吧
首先,我们来看一下,爬虫前基本的知识点概括一. match()方法: 这个方法会从字符串的开头去匹配(也可以指定开始的位置),如果在开始没有找到,立即返回None,匹配到一个结果,就不再匹配. 我们 ...
Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/h ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...
Python爬上不得姐并将段子写入数据库
#Python2.7 可以优化一下前10页每页点赞最多的段子百思不得姐 # -*- coding: utf-8 -*-import MySQLdbimport urllib,urllib2imp ...
深度爬取之rules
深度爬取之rules CrawlSpider使用rules来决定爬虫的爬取规则,并将匹配后的url请求提交给引擎.所以在正常情况下,CrawlSpider不需要单独手动返回请求了. 在rules中包含 ...

随机推荐

flask-基础篇03 请求钩子与上下文
一.异常处理 1.HTTP 异常主动抛出 ①abort 方法: 抛出一个给定状态代码的 HTTPException 或者指定响应,例如想要用一个页面未找到页面未找到异常来终止请求,你可以调用 abo ...
注意注意！！！！关于keil的问题，调试时候的bug
1.keil变量不区分大小写: 2.KEIL调试debug时误报,未定义某变量但是实际定义了的. 今天用keil写代码感觉逻辑上没问题但是始终不是那个效果检查了半天错误问题.最后debug居然 ...
记：java.lang.IllegalArgumentException: DAY_OF_MONTH 报错
查询的时候报错: 月份中的天数错误原因: date日期列中有数据错误修改数据库中错误的数据就可以了.
通过Python获取cpu、硬盘和主板等硬件序列号组成的唯一识别码
import wmi c = wmi.WMI() def yingpan(): # # 硬盘序列号 cc = "" for physical_disk in c.Win32_Dis ...
inux配置PATH路径
查看PATH:echo $PATH以添加python3为列修改方法一:export PATH=P A T H : PATH:PATH:HOME/bin:export PATH=P A T H : P ...
日志服务化&可视化&统计化
概述: ELK是Elasticsearch(简称es).Logstash.Kibana的简称,这三者是核心套件,但并非全部. Filebeat 日志采集工具 Logstash数据处理引擎 ela ...
C语言学习记录（三）
C语言学习记录(三) 一.知识要点(数据类型.运算符与表达式) 1.C语言的数据类型 C语言数据结构有:基本类型.指针类型.构造类型和空类型.其中基本类型:查看书籍的22页表3-1. C语言的基本数据 ...
centos7下的apache2.4安全配置
基本概括关键词Server ServerRoot "/etc/httpd" #apache软件安装的位置 Listen 80 #监听的端口号 ServerName ww ...
Android NDK build vsomeip3
Build Boost for Android https://github.com/moritz-wundke/Boost-for-Android set the NDK_ROOT environm ...
3阶（次）贝塞尔曲线的JavaScript(JS)实现
php中文网数学符号的显示太差了,推荐看这里贝塞尔曲线简介:贝塞尔曲线,是贝塞尔老爷子在使用电子计算机设计汽车零件的时候进行曲面设计而采用的一种参数化的样条曲线. 一般参数方程: B(t) = \ ...

spider_爬取内涵吧的段子（二级深度爬取）

spider_爬取内涵吧的段子（二级深度爬取）的更多相关文章

随机推荐

热门专题