爬取Discuz!社区的教程标题-史上最详细解析(实现分页)

摘要：本文记录了爬取Discuz!社区的教程标题的详细过程，过程清晰

这是O的第一篇博客，如有排版问题请大佬见谅，O非常希望大佬能在评论区给出宝贵的意见共同进步
经过千辛万苦终于实现了自己的第一个爬虫，以此纪念一下

总代码

import requests

from lxml import etree

class Disspider:

    #获取头部及开始url

    def __init__(self):

        self.start_url = "https://www.discuz.net/portal.php?mod=list&catid=8&page={}"

        self.headers = {"user-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Mobile Safari/537.36"}

    #构建url列表

    def get_url_list(self):

        url_list=[]

        for i in range(19):

            url_list.append(self.start_url.format(i+1))

        return url_list

    #获取所需要的信息

    def spider_information(self,url):

        resp = requests.get(url,headers=self.headers).content

        html=etree.HTML(resp)

        result=html.xpath('//p[@class="wz_tits"]/text()')

        return result

    #保存数据

    def save(self,result):

        #'a'表示循环写入不覆盖之前写的内容

        with open('text.txt','a',encoding='utf-8') as f:

            #此时result为列表，write函数只能接收字符串类型的数据

            for i in result:

                f.write("\n"+i)

    #主逻辑函数

    def run(self):

        url_list=self.get_url_list()

        for url in url_list:

            result=self.spider_information(url)

            self.save(result)

if __name__ == '__main__':

    disspider=Disspider()

    disspider.run()

分函数解析

从上至下数的第一个函数：

#self作用类似于指针

def __init__(self):

        #self.start_url表示起始url地址（即第一页地址），因为要实现分页所以page后是大括号不写死，留给构建url_list列表函数来填充page

        self.start_url = "https://www.discuz.net/portal.php?mod=list&catid=8&page={}"

        #写self.headers主要是为了模拟浏览器欺骗服务器，获取和浏览器一致的内容

        #如果需要也可以加cookie来帮忙反反爬，不过此处不需要，当然因为cookie往往和一个用户对应，请求太快，容易被服务器识别为爬虫，故不需要cookie时

        #尽量不要用cookie

        self.headers = {"user-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Mobile Safari/537.36"}

第二个函数：

 #构建url列表

    def get_url_list(self):

        url_list=[]

        #Discuz!社区的教程我写这个爬虫时是一个19页，故直接用for循环来构建url_list列表

        for i in range(19):

            #字符串的format方法，实现格式化,基本语法是通过 {} 和 : 来代替以前的 %,

            url_list.append(self.start_url.format(i+1))

        #这时在第一个函数写的start_url中的{}以被填充完毕，形成了19页对应的19个url写入url_list列表中，再return

        return url_list

第三个函数：

 #获取所需要的信息

    def spider_information(self,url):

        #获取响应内容，resp.content返回的字节流数据

        resp = requests.get(url,headers=self.headers).content

        #此为lxml的etree用法，能更好的发挥xpath的作用

        html=etree.HTML(resp)

        #这个xpath路径为标题路径，如果需要爬取其他东西例如发布时间等直接替换xpath路径就好

        result=html.xpath('//p[@class="wz_tits"]/text()')

        return result

第四个函数：

#保存数据

    def save(self,result):

        #'a'表示循环写入不覆盖之前写的内容

        with open('text.txt','a',encoding='utf-8') as f:

            #此时result为列表，write函数只能接收字符串类型的数据

            for i in result:

                #为了输出在不同的行上在前面加上换行符，方便阅读

                f.write("\n"+i)

第五个函数：

#主逻辑函数，实现之前的函数调用，类似于c语言的main函数

    def run(self):

        #构建url_list列表

        url_list=self.get_url_list()

        #取出url_list列表里的每一个url进行下一步操作

        for url in url_list:

            #获取想要的数据

            result=self.spider_information(url)

            #保存

            self.save(result)

第六个函数：

#主要功能是让你写的脚本模块既可以导入到别的模块中用，另外该模块自己也可执行

if __name__ == '__main__':

    #该语句O理解为

    disspider=Disspider()

    disspider.run()

fighting！，一起成长(^^)

爬取Discuz!社区的教程标题的更多相关文章

利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
学以致用:Python爬取廖大Python教程制作pdf
当我学了廖大的Python教程后,感觉总得做点什么,正好自己想随时查阅,于是就开始有了制作PDF这个想法. 想要把教程变成PDF有三步: 先生成空html,爬取每一篇教程放进一个新生成的div,这样就 ...
python制作爬虫爬取京东商品评论教程
作者:蓝鲸类型:转载本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...
爬取知乎热榜标题和连接（python，requests，xpath）
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agen ...
适合初学者的Python爬取链家网教程
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: TinaLY PS:如有需要Python学习资料的小伙伴可以加点击下 ...
CVPR顶会论文爬取存入MySQL数据库（标题、摘要、作者、PDF链接和原地址)
main.py import pymysql import re import requests # 连接数据库函数 from bs4 import BeautifulSoup def insertC ...
爬取知名社区技术文章_items_2
item中定义获取的字段和原始数据进行处理并合法化数据 #!/usr/bin/python3 # -*- coding: utf-8 -*- import scrapy import hashlib ...
webmagic 爬取网页所有文章的标题时间作者和内容
package com.ij34; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Page; import us.co ...
爬取知名社区技术文章_setting_5
# -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file contains ...
爬取知名社区技术文章_pipelines_4
获取字段的存储处理和获取普通的路径 #!/usr/bin/python3 # -*- coding: utf-8 -*- import pymysql import gevent import pym ...

随机推荐

深入了解 GPU 互联技术——NVLINK
随着人工智能和图形处理需求的不断增长,多 GPU 并行计算已成为一种趋势.对于多 GPU 系统而言,一个关键的挑战是如何实现 GPU 之间的高速数据传输和协同工作.然而,传统的 PCIe 总线由于带宽 ...
掌握Go类型内嵌：设计模式与架构的新视角
本文深入探讨了Go语言中的类型内嵌特性,从基础概念到实际应用,以及相关的最佳实践.文章不仅讲解了如何在Go中实现和使用类型内嵌,还通过具体的代码示例展示了其应用场景和潜在陷阱.最后,文章总结了类型内嵌 ...
docker 下拉取oracle_11G镜像配置
1.拉取镜像 docker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g#查看镜像信息docker images 2.创建容器 # ...
Web服务器及Web应用服务器
1. 如果仅需要展示html页面,而不要其他功能,apache:(nginx也是类似功能:它本身仅提供html静态页面的功能,不能支持jsp.java servlet.asp等功能,但通过同其他应用服 ...
C#.NET 国密SM4 CBC 对称加解密与JAVA互通 ver:20231103
C#.NET 国密SM4 CBC 对称加解密与JAVA互通 ver:20231103 .NET 环境:.NET6 控制台程序(.net core). JAVA 环境:JAVA8,带maven 的JA ...
Prime Distance 区间筛
给定 l, r,求出相差最小和相差最大的在l,r范围内相邻的质数 1 < l, r < 2,147,483,647, r - l < = le6 主要思路 : 埃氏筛因为 r的最小 ...
字节跳动AB实验经验分享：企业如何构建数据驱动的实验文化？
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群近日,CCF TF 举办了第 123 期分享活动,本期主题为"用户体验工程". CCF TF ...
C++ MiniZip实现目录压缩与解压
Zlib是一个开源的数据压缩库,提供了一种通用的数据压缩和解压缩算法.它最初由Jean-Loup Gailly和Mark Adler开发,旨在成为一个高效.轻量级的压缩库,其被广泛应用于许多领域,包括 ...
【主流技术】详解 Spring Boot 2.7.x 集成 ElasticSearch7.x 全过程（二）
目录前言一.添加依赖二. yml 配置三.注入依赖四.CRUD 常用 API ES 实体类 documents 操作常见条件查询(重点) 分页查询排序构造查询测试调用五.文章小结 ...
深入了解HMAC加密技术：原理、应用与实践
一.引言在网络安全领域,消息认证码(MAC)是一种重要的技术手段.Hash-based Message Authentication Code(HMAC)作为其中的一种,凭借其简单.高效.安全的特性 ...

爬取Discuz!社区的教程标题

爬取Discuz!社区的教程标题-史上最详细解析(实现分页)

总代码

分函数解析

从上至下数的第一个函数：

第二个函数：

第三个函数：

第四个函数：

第五个函数：

第六个函数：

爬取Discuz!社区的教程标题的更多相关文章

随机推荐

热门专题