爬取Discuz!社区的教程标题
爬取Discuz!社区的教程标题-史上最详细解析(实现分页)
摘要:本文记录了爬取Discuz!社区的教程标题的详细过程,过程清晰
- 这是O的第一篇博客,如有排版问题请大佬见谅,O非常希望大佬能在评论区给出宝贵的意见共同进步
- 经过千辛万苦终于实现了自己的第一个爬虫,以此纪念一下
总代码
import requests
from lxml import etree
class Disspider:
#获取头部及开始url
def __init__(self):
self.start_url = "https://www.discuz.net/portal.php?mod=list&catid=8&page={}"
self.headers = {"user-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Mobile Safari/537.36"}
#构建url列表
def get_url_list(self):
url_list=[]
for i in range(19):
url_list.append(self.start_url.format(i+1))
return url_list
#获取所需要的信息
def spider_information(self,url):
resp = requests.get(url,headers=self.headers).content
html=etree.HTML(resp)
result=html.xpath('//p[@class="wz_tits"]/text()')
return result
#保存数据
def save(self,result):
#'a'表示循环写入不覆盖之前写的内容
with open('text.txt','a',encoding='utf-8') as f:
#此时result为列表,write函数只能接收字符串类型的数据
for i in result:
f.write("\n"+i)
#主逻辑函数
def run(self):
url_list=self.get_url_list()
for url in url_list:
result=self.spider_information(url)
self.save(result)
if __name__ == '__main__':
disspider=Disspider()
disspider.run()
分函数解析
从上至下数的第一个函数:
#self作用类似于指针
def __init__(self):
#self.start_url表示起始url地址(即第一页地址),因为要实现分页所以page后是大括号不写死,留给构建url_list列表函数来填充page
self.start_url = "https://www.discuz.net/portal.php?mod=list&catid=8&page={}"
#写self.headers主要是为了模拟浏览器欺骗服务器,获取和浏览器一致的内容
#如果需要也可以加cookie来帮忙反反爬,不过此处不需要,当然因为cookie往往和一个用户对应,请求太快,容易被服务器识别为爬虫,故不需要cookie时
#尽量不要用cookie
self.headers = {"user-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Mobile Safari/537.36"}
第二个函数:
#构建url列表
def get_url_list(self):
url_list=[]
#Discuz!社区的教程我写这个爬虫时是一个19页,故直接用for循环来构建url_list列表
for i in range(19):
#字符串的format方法,实现格式化,基本语法是通过 {} 和 : 来代替以前的 %,
url_list.append(self.start_url.format(i+1))
#这时在第一个函数写的start_url中的{}以被填充完毕,形成了19页对应的19个url写入url_list列表中,再return
return url_list
第三个函数:
#获取所需要的信息
def spider_information(self,url):
#获取响应内容,resp.content返回的字节流数据
resp = requests.get(url,headers=self.headers).content
#此为lxml的etree用法,能更好的发挥xpath的作用
html=etree.HTML(resp)
#这个xpath路径为标题路径,如果需要爬取其他东西例如发布时间等直接替换xpath路径就好
result=html.xpath('//p[@class="wz_tits"]/text()')
return result
第四个函数:
#保存数据
def save(self,result):
#'a'表示循环写入不覆盖之前写的内容
with open('text.txt','a',encoding='utf-8') as f:
#此时result为列表,write函数只能接收字符串类型的数据
for i in result:
#为了输出在不同的行上在前面加上换行符,方便阅读
f.write("\n"+i)
第五个函数:
#主逻辑函数,实现之前的函数调用,类似于c语言的main函数
def run(self):
#构建url_list列表
url_list=self.get_url_list()
#取出url_list列表里的每一个url进行下一步操作
for url in url_list:
#获取想要的数据
result=self.spider_information(url)
#保存
self.save(result)
第六个函数:
#主要功能是让你写的脚本模块既可以导入到别的模块中用,另外该模块自己也可执行
if __name__ == '__main__':
#该语句O理解为
disspider=Disspider()
disspider.run()
fighting!,一起成长(^^)
爬取Discuz!社区的教程标题的更多相关文章
- 利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题 案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
- 学以致用:Python爬取廖大Python教程制作pdf
当我学了廖大的Python教程后,感觉总得做点什么,正好自己想随时查阅,于是就开始有了制作PDF这个想法. 想要把教程变成PDF有三步: 先生成空html,爬取每一篇教程放进一个新生成的div,这样就 ...
- python制作爬虫爬取京东商品评论教程
作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...
- 爬取知乎热榜标题和连接 (python,requests,xpath)
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agen ...
- 适合初学者的Python爬取链家网教程
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: TinaLY PS:如有需要Python学习资料的小伙伴可以加点击下 ...
- CVPR顶会论文爬取存入MySQL数据库(标题、摘要、作者、PDF链接和原地址)
main.py import pymysql import re import requests # 连接数据库函数 from bs4 import BeautifulSoup def insertC ...
- 爬取知名社区技术文章_items_2
item中定义获取的字段和原始数据进行处理并合法化数据 #!/usr/bin/python3 # -*- coding: utf-8 -*- import scrapy import hashlib ...
- webmagic 爬取网页所有文章的标题时间作者和内容
package com.ij34; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Page; import us.co ...
- 爬取知名社区技术文章_setting_5
# -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file contains ...
- 爬取知名社区技术文章_pipelines_4
获取字段的存储处理和获取普通的路径 #!/usr/bin/python3 # -*- coding: utf-8 -*- import pymysql import gevent import pym ...
随机推荐
- 第五周单元测验题英语教学与互联网 mooc
第五周单元测验题 返回 本次得分为:16.00/20.00, 本次测试的提交时间为:2020-08-30, 如果你认为本次测试成绩不理想,你可以选择 再做一次 . 1 单选(2分) 从评价的主体来看, ...
- 深度学习 YOLO v1 源码+笔记
""" Yolo V1 by tensorflow """ import numpy as np import tensorflow._ap ...
- CF1534C
题目简化和分析: 涉及算法:并查集. 为什么要使用并查集: 因为交换只能是列交换,并且保证不与别的重复 我们通过观察题目发现,某些列之间互为限制关系 即如果某列序列排序方式固定,则被限制的列也为固定的 ...
- 图形学、02 推导证明 | 任意一点经过透视投影后 z 坐标相对于之前有什么变化
齐次坐标知识点: \(\begin{bmatrix} x \\ y \\ z \\ 1 \\\end{bmatrix} \Rightarrow\begin{bmatrix} nx \\ ny \\ n ...
- ABC319 A-E 题解
A 用 map <string, int> 将名字对应的值存下来即可. 赛时代码 B 按照题意暴力模拟,注意细节. 赛时代码 C 答辩题,卡了我半个小时. 枚举 \(1\sim 9\) 的 ...
- 【不限框架】超好用的3d开源图片预览插件推荐
今天给大家推荐一款超好用的图片预览插件-image-preview 简单说明 image-preview是一款主要面向移动端web应用,同时兼容pc,基于原生js,不限框架,react,vue,ang ...
- 舞会(lgP1352)
写了一个多小时,本来觉得 bfs 能过然后码了好久发现不会确定顺序,又重新写了一遍 dfs /kk 好吧其实是因为我记得上次做这题的时候写的是 bfs 设 \(f[i][0]\) 表示以 \(i\) ...
- CSS属性 Position的几种定位方式
作者:WangMin 格言:努力做好自己喜欢的每一件事 在讲几种定位方式之前,我们先来了解一下什么是普通流(normal flow)? 除非专门指定,否则所有框都在普通流中定位.普通流中元素框的位置由 ...
- 2022.7.16 lhm_ 讲课纪要
前言 啊好的,这节课又是对牛弹琴课...... 虽说题给的不难,以黄绿为主,,穿插了一个蓝一个紫,但是给一群不知道什么是树什么是DAG的人讲树形dp和dag上dp有点.... 顺便讲了讲拓扑排序和记忆 ...
- 一种全新的日志异常检测评估框架:LightAD
本文分享自华为云社区<[AIOps]一种全新的日志异常检测评估框架:LightAD,相关成果已被软工顶会ICSE 2024录用>,作者: DevAI. 深度学习(DL)虽然在日志异常检测中 ...