[Python]爬取CSDN论坛标题 2020.2.8

首先新建一个Lei.txt

内容为：

CloudComputing
ParentBlockchainTechnology
Enterprise
DotNET
Java
WebDevelop
VC
VB
Delphi
BCB
Cpp
OtherLanguage
MSSQL
PowerBuilder
Oracle
Linux
Windows
Embedded
GameDevelop
Network_communication
Other
Network_communication
OtherTechnicalForum
AI

爬虫代码如下：

 import requests

 from bs4 import BeautifulSoup

 import io

 import re

 url="https://bbs.csdn.net/forums/Mobile?page="

 def Content(url):

     try:

         kv = {'user-agent': 'Mozilla/5.0'}

         r = requests.get(url, headers=kv)

         r.encoding = r.apparent_encoding

         demo = r.text

         soup = BeautifulSoup(demo, "html.parser")

         text=""

         for a in soup.find_all("a",class_="forums_title"):

             text+=str(a.string).replace("【CSDN 20周年】8场大牛直播+周年T恤免费领", "").replace("小白学习笔记干货，记得点赞哦！", "").replace("有奖征集话题： 区块链大火，对于区块链开发零基础的我来说，要怎么入门呢？", "")

             text+="\n"

         print(text.lstrip())

         write(text.lstrip())

         #print(soup.prettify())

     except:

         print("没有数据了！")

 #写入内容

 def write(contents):

     f=open('E://luntan.txt','a+',encoding='utf-8')

     f.write(contents)

     print('写入成功！')

     f.close()

 #循环写入

 def write_all():

     try:

         f=open('E://Lei.txt','r+',encoding='utf-8')

         for line in f:

             line=line.rstrip("\n")

             for i in range(1,100):

                 url="https://bbs.csdn.net/forums/"+line+"?page="+str(i)

                 Content(url)

     except:

         print("超出页数！")

 if __name__=="__main__":

     write_all()

[Python]爬取CSDN论坛标题 2020.2.8的更多相关文章

Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
【Python爬虫案例学习】Python爬取天涯论坛评论
用到的包有requests - BeautSoup 我爬的是天涯论坛的财经论坛:'http://bbs.tianya.cn/list.jsp?item=develop' 它里面的其中的一个帖子的URL ...
Python 爬取CSDN博客频道
初次接触python,写的很简单,开发工具PyCharm,python 3.4很方便 python 部分模块安装时需要其他的附属模块之类的,可以先 pip install wheel 然后可以直接下载 ...
Python 爬取盗墓笔记的标题,章节,章节名称
# coding:utf-8import requestsimport jsonfrom bs4 import BeautifulSoup user_agent = 'Mozilla/5.0 (Win ...
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...
【Python】爬取理想论坛单帖爬虫
代码: # 单帖爬虫,用于爬取理想论坛帖子得到发帖人,发帖时间和回帖时间,url例子见main函数 from bs4 import BeautifulSoup import requests impo ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
Python 爬取热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取途虎养车全系车型轮胎保养数据
Python 爬取途虎养车全系车型轮胎保养数据 2021.7.27 更新增加标题.发布时间参数 demo文末自行下载,需要完整数据私聊我 2021.2.19 更新增加大保养数据 2020. ...

随机推荐

干货！手把手教你使用数据可视化BI软件创建企业变更流程监控大屏
灯果数据可视化BI软件是新一代人工智能数据可视化大屏软件,内置丰富的大屏模板,可视化编辑操作,无需任何经验就可以创建属于你自己的大屏.大家可以在他们的官网下载软件. 本文以企业变更流程监控大屏为例 ...
PPT导出为图片
使用Aspose组件导出 Aspose有Aspose.Slides.dll,可以无需安装office,进行读写PPT文件. Aspose可能通过Aspose.Slides.NET安装简单的导出图片d ...
CAP原理
定义在一个分布式系统(指系统中的节点互相连接并共享数据)中,当涉及读写操作时,只能保证一致性 (Consistency).可用性 (Availability).分区容错性 (Partition To ...
ES6 - 基础学习(3): 变量的解构赋值
解构赋值概述 1.解构赋值是对赋值运算符的扩展. 2.它是一种针对数组或者对象进行模式匹配,然后对其中的变量进行赋值. 3.代码书写上显得简洁且易读,语义更加清晰明了:而且还方便获取复杂对象中的数据字 ...
JavaScript 基础学习（一）JavaScript 简介
定义 JavaScript是基于对象和事件驱动的语言,应用与客户端.其中: 基于对象:提供好了很多对象,可以直接拿过来使用事件驱动:html做网站静态效果,javascript动态效果(网页能根据客 ...
python爬虫步骤（新手备学）爬虫编程。
Python爬虫是用Python编程语言实现的网络爬虫,主要用于网络数据的抓取和处理,相比于其他语言,Python是一门非常适合开发网络爬虫的编程语言,大量内置包,可以C Python爬虫可以做的事情 ...
Resnet——深度残差网络（二）
基于上一篇resnet网络结构进行实战. 再来贴一下resnet的基本结构方便与代码进行对比 resnet的自定义类如下: import tensorflow as tf from tensorflo ...
shell脚本监测进程并重启
本人实例: #!/bin/bash ps -ef | grep elastic | grep -v grepif [ $? -ne 0 ]thenecho "start process... ...
echarts--可拖动的曲线图
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
PHP-CMS代码审计(4)
这次找了个发卡平台,url: https://files.cnblogs.com/files/b1gstar/kamiphp.zip 从52破解上下载的 : 先把网站搭建起来. 网站没有采用mvc框 ...

[Python]爬取CSDN论坛 标题 2020.2.8

[Python]爬取CSDN论坛 标题 2020.2.8的更多相关文章

随机推荐

热门专题

[Python]爬取CSDN论坛标题 2020.2.8

[Python]爬取CSDN论坛标题 2020.2.8的更多相关文章