爬取Discuz!社区的教程标题-史上最详细解析(实现分页)

摘要:本文记录了爬取Discuz!社区的教程标题的详细过程,过程清晰

  • 这是O的第一篇博客,如有排版问题请大佬见谅,O非常希望大佬能在评论区给出宝贵的意见共同进步
  • 经过千辛万苦终于实现了自己的第一个爬虫,以此纪念一下

总代码

import requests
from lxml import etree
class Disspider:
#获取头部及开始url
def __init__(self):
self.start_url = "https://www.discuz.net/portal.php?mod=list&catid=8&page={}"
self.headers = {"user-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Mobile Safari/537.36"}
#构建url列表
def get_url_list(self):
url_list=[]
for i in range(19):
url_list.append(self.start_url.format(i+1))
return url_list
#获取所需要的信息
def spider_information(self,url):
resp = requests.get(url,headers=self.headers).content
html=etree.HTML(resp)
result=html.xpath('//p[@class="wz_tits"]/text()')
return result
#保存数据
def save(self,result):
#'a'表示循环写入不覆盖之前写的内容
with open('text.txt','a',encoding='utf-8') as f:
#此时result为列表,write函数只能接收字符串类型的数据
for i in result:
f.write("\n"+i)
#主逻辑函数
def run(self):
url_list=self.get_url_list()
for url in url_list:
result=self.spider_information(url)
self.save(result)
if __name__ == '__main__':
disspider=Disspider()
disspider.run()

分函数解析

从上至下数的第一个函数:

#self作用类似于指针
def __init__(self):
#self.start_url表示起始url地址(即第一页地址),因为要实现分页所以page后是大括号不写死,留给构建url_list列表函数来填充page
self.start_url = "https://www.discuz.net/portal.php?mod=list&catid=8&page={}"
#写self.headers主要是为了模拟浏览器欺骗服务器,获取和浏览器一致的内容
#如果需要也可以加cookie来帮忙反反爬,不过此处不需要,当然因为cookie往往和一个用户对应,请求太快,容易被服务器识别为爬虫,故不需要cookie时
#尽量不要用cookie
self.headers = {"user-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Mobile Safari/537.36"}

第二个函数:

 #构建url列表
def get_url_list(self):
url_list=[]
#Discuz!社区的教程我写这个爬虫时是一个19页,故直接用for循环来构建url_list列表
for i in range(19):
#字符串的format方法,实现格式化,基本语法是通过 {} 和 : 来代替以前的 %,
url_list.append(self.start_url.format(i+1))
#这时在第一个函数写的start_url中的{}以被填充完毕,形成了19页对应的19个url写入url_list列表中,再return
return url_list

第三个函数:

 #获取所需要的信息
def spider_information(self,url):
#获取响应内容,resp.content返回的字节流数据
resp = requests.get(url,headers=self.headers).content
#此为lxml的etree用法,能更好的发挥xpath的作用
html=etree.HTML(resp)
#这个xpath路径为标题路径,如果需要爬取其他东西例如发布时间等直接替换xpath路径就好
result=html.xpath('//p[@class="wz_tits"]/text()')
return result

第四个函数:

#保存数据
def save(self,result):
#'a'表示循环写入不覆盖之前写的内容
with open('text.txt','a',encoding='utf-8') as f:
#此时result为列表,write函数只能接收字符串类型的数据
for i in result:
#为了输出在不同的行上在前面加上换行符,方便阅读
f.write("\n"+i)

第五个函数:

#主逻辑函数,实现之前的函数调用,类似于c语言的main函数
def run(self):
#构建url_list列表
url_list=self.get_url_list()
#取出url_list列表里的每一个url进行下一步操作
for url in url_list:
#获取想要的数据
result=self.spider_information(url)
#保存
self.save(result)

第六个函数:

#主要功能是让你写的脚本模块既可以导入到别的模块中用,另外该模块自己也可执行
if __name__ == '__main__':
#该语句O理解为
disspider=Disspider()
disspider.run()

fighting!,一起成长(^^)

爬取Discuz!社区的教程标题的更多相关文章

  1. 利用Python网络爬虫爬取学校官网十条标题

    利用Python网络爬虫爬取学校官网十条标题 案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...

  2. 学以致用:Python爬取廖大Python教程制作pdf

    当我学了廖大的Python教程后,感觉总得做点什么,正好自己想随时查阅,于是就开始有了制作PDF这个想法. 想要把教程变成PDF有三步: 先生成空html,爬取每一篇教程放进一个新生成的div,这样就 ...

  3. python制作爬虫爬取京东商品评论教程

    作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...

  4. 爬取知乎热榜标题和连接 (python,requests,xpath)

    用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agen ...

  5. 适合初学者的Python爬取链家网教程

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: TinaLY PS:如有需要Python学习资料的小伙伴可以加点击下 ...

  6. CVPR顶会论文爬取存入MySQL数据库(标题、摘要、作者、PDF链接和原地址)

    main.py import pymysql import re import requests # 连接数据库函数 from bs4 import BeautifulSoup def insertC ...

  7. 爬取知名社区技术文章_items_2

    item中定义获取的字段和原始数据进行处理并合法化数据 #!/usr/bin/python3 # -*- coding: utf-8 -*- import scrapy import hashlib ...

  8. webmagic 爬取网页所有文章的标题时间作者和内容

    package com.ij34; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Page; import us.co ...

  9. 爬取知名社区技术文章_setting_5

    # -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file contains ...

  10. 爬取知名社区技术文章_pipelines_4

    获取字段的存储处理和获取普通的路径 #!/usr/bin/python3 # -*- coding: utf-8 -*- import pymysql import gevent import pym ...

随机推荐

  1. 深入了解 GPU 互联技术——NVLINK

    随着人工智能和图形处理需求的不断增长,多 GPU 并行计算已成为一种趋势.对于多 GPU 系统而言,一个关键的挑战是如何实现 GPU 之间的高速数据传输和协同工作.然而,传统的 PCIe 总线由于带宽 ...

  2. 掌握Go类型内嵌:设计模式与架构的新视角

    本文深入探讨了Go语言中的类型内嵌特性,从基础概念到实际应用,以及相关的最佳实践.文章不仅讲解了如何在Go中实现和使用类型内嵌,还通过具体的代码示例展示了其应用场景和潜在陷阱.最后,文章总结了类型内嵌 ...

  3. docker 下拉取oracle_11G镜像配置

    1.拉取镜像 docker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g#查看镜像信息docker images 2.创建容器 # ...

  4. Web服务器及Web应用服务器

    1. 如果仅需要展示html页面,而不要其他功能,apache:(nginx也是类似功能:它本身仅提供html静态页面的功能,不能支持jsp.java servlet.asp等功能,但通过同其他应用服 ...

  5. C#.NET 国密SM4 CBC 对称加解密 与JAVA互通 ver:20231103

    C#.NET 国密SM4 CBC 对称加解密 与JAVA互通 ver:20231103 .NET 环境:.NET6 控制台程序(.net core). JAVA 环境:JAVA8,带maven 的JA ...

  6. Prime Distance 区间筛

    给定 l, r,求出相差最小和相差最大的在l,r范围内相邻的质数 1 < l, r < 2,147,483,647, r - l < = le6 主要思路 : 埃氏筛 因为 r的最小 ...

  7. 字节跳动AB实验经验分享:企业如何构建数据驱动的实验文化?

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 近日,CCF TF 举办了第 123 期分享活动,本期主题为"用户体验工程". CCF TF ...

  8. C++ MiniZip实现目录压缩与解压

    Zlib是一个开源的数据压缩库,提供了一种通用的数据压缩和解压缩算法.它最初由Jean-Loup Gailly和Mark Adler开发,旨在成为一个高效.轻量级的压缩库,其被广泛应用于许多领域,包括 ...

  9. 【主流技术】详解 Spring Boot 2.7.x 集成 ElasticSearch7.x 全过程(二)

    目录 前言 一.添加依赖 二. yml 配置 三.注入依赖 四.CRUD 常用 API ES 实体类 documents 操作 常见条件查询(重点) 分页查询 排序 构造查询 测试调用 五.文章小结 ...

  10. 深入了解HMAC加密技术:原理、应用与实践

    一.引言 在网络安全领域,消息认证码(MAC)是一种重要的技术手段.Hash-based Message Authentication Code(HMAC)作为其中的一种,凭借其简单.高效.安全的特性 ...