【Python爬虫案例学习】Python爬取天涯论坛评论
用到的包有requests - BeautSoup
我爬的是天涯论坛的财经论坛:‘http://bbs.tianya.cn/list.jsp?item=develop’
它里面的其中的一个帖子的URL:‘http://bbs.tianya.cn/post-develop-2279340-1.shtml’
第一步:定义了三个函数跟一个main函数
def getHtmlText(url):
pass
def getHtmlList(list,url,main_url):
pass
def getHtmlInfo(list,fpath):
pass
def main():
pass
第一个函数是获取一个url,通过requests.get()方法,获取页面的信息,这是一个获取url资源的模块
第二个函数是获取一个url,调用第一个函数解析财经论坛页面,获取到其中的子帖子的url,存放在list中
第三个函数是把list中的url通过for循环一个一个解析页面,获取其中我们想要的内容,然后把得到的内容存放在指定的电脑的位置里
main函数里就是调用这几个函数
第二步:代码的具体实现
# encoding:utf8
import requestsfrom bs4 import BeautifulSoup
'''
遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!
'''
#获取一个url,通过requests.get()方法,获取页面的信息,这是一个获取url资源的模块
def getHtmlText(url):
try:
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
soup = BeautifulSoup(html,'html.parser')
return soup
except:
print("解析网页出错")
#获取一个url,调用第一个函数解析财经论坛页面,获取到其中的子帖子的url,存放在list中
def getHtmlList(list,url,main_url):
try:
soup = getHtmlText(url)
managesInfo = soup.find_all('td',attrs={'class':'td-title faceblue'})
for m in range(len(managesInfo)):
a = managesInfo[m].find_all('a')//获取帖子的位置
for i in a:
try:
href = i.attrs['href']
list.append(main_url+href)//把帖子的url存放在list中
except:
continue
except:
print("获取网页失败")
#把list中的url通过for循环一个一个解析页面,获取其中我们想要的内容,然后把得到的内容存放在指定的电脑的位置里
def getHtmlInfo(list,fpath):
for i in list:
infoDict = {}//初始化存放帖子要获取的全部信息的字典
authorInfo = []//初始化存放帖子评论的作者的信息的列表
comment = []//初始化存放帖子评论的信息的列表
try:
soup = getHtmlText(i)
if soup ==""://如果页面不存在则跳过,继续获取
continue
Info = soup.find('span',attrs={'style':'font-weight:400;'})
title = Info.text//获取帖子的标题
infoDict.update({'论坛话题: ':title})//把帖子的标题内容存放到字典中
author = soup.find_all('div',attrs={'class':'atl-info'})
for m in author:
authorInfo.append(m.text)//把帖子中的评论的作者的信息存放到列表里
author = soup.find_all('div',attrs={'class':'bbs-content'})
for m in author:
comment.append(m.text)//把帖子的评论的信息存放在列表里
for m in range(len(authorInfo)):
key = authorInfo[m]+'\n'
value = comment[m]+'\n'
infoDict[key] = value//把评论的作者的信息跟评论的内容以键值对的形式存储起来
#把获取到的信息存放在自己指定的位置
with open(fpath,'a',encoding='utf-8')as f:
for m in infoDict:
f.write(str(m)+'\n')
f.write(str(infoDict[m])+'\n')
except:
continue
def main():
main_url = 'http://bbs.tianya.cn'
develop_url = 'http://bbs.tianya.cn/list-develop-1.shtml'
ulist = []
fpath = r'E:\tianya.txt'
getHtmlList(ulist,develop_url,main_url)
getHtmlInfo(ulist,fpath)
main()//运行main函数
好了,这个代码就写完了,我来总结下我在写这个代码中遇到的问题。
总结:
这个代码很简单,但是其中的一些细节我一开始没有处理好
在写第三个函数的时候,把获取到的信息全部存放在字典中,在调试中发现获取到的信息有很多重复的,
后来发现是没有初始化每个列表里的信息。因为是循环存放信息的,读取完一个帖子的信息之后要把存放
信息的列表初始化,要不会重复输出之前存入的信息。
【Python爬虫案例学习】Python爬取天涯论坛评论的更多相关文章
- python 网络爬虫(一)爬取天涯论坛评论
我是一个大二的学生,也是刚接触python,接触了爬虫感觉爬虫很有趣就爬了爬天涯论坛,中途碰到了很多问题,就想把这些问题分享出来, 都是些简单的问题,希望大佬们以宽容的眼光来看一个小菜鸟
- python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐 前言 大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...
- Python爬虫:为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
- Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
- Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
- 转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
- 转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...
- 【Python爬虫案例学习】python爬取淘宝里的手机报价并以价格排序
第一步: 先分析这个url,"?"后面的都是它的关键字,requests中get函数的关键字的参数是params,post函数的关键字参数是data, 关键字用字典的形式传进去,这 ...
- 【Python爬虫案例学习】Python爬取淘宝店铺和评论
安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动sel ...
随机推荐
- make CMake 来龙去脉
理论上说,任意一个C++程序都可以用g++来编译. 大家都知道,写程序大体步骤如下: 1.用编辑器编写源代码,如.c文件. 2.用编译器编译代码生成目标文件,如.o. 3.用链接器连接目标代码生成可执 ...
- Web API接口安全了解
2017版OWASP top 10 将API安全纳入其中,足以说明API被广泛使用且安全问题严重.自己尝试整理一下,但限于本人搬砖经验还不足.水平有限,本文只能算是抛砖引玉,希望大伙不吝赐教. 了解W ...
- vue+element省市县的二级联动功能
项目中有选择省市县的需求,先选择省,再选择县 解决这个需求也不是很难,总体思路就是看后端接口, 一般后端接口都是请求参数为 0 返回省的数据,不为 0 的话返回相对应的市的数据 template代码: ...
- android 第三方开源库 学习汇总之Butter Knife
如果直接在App中使用,那么只需要在app的build.gradle中添加即可. android { ... // Butterknife requires Java 8. compileOption ...
- Canny算法检测边缘
Canny算法是边缘检测的一个经典算法,比单纯用一些微分算子来检测的效果要好很多,其优势有以下几点: 边缘误检与漏检率低. 边缘定位准确,且边界较细. 自带一定的滤噪功能,或者说,对噪声的敏感度要比单 ...
- Spark调用Linux命令实现解压和压缩功能
一.应用场景 在Spark程序中调用Linux命令,实现一些程序难以实现的功能,例如:发送模拟邮件.文件打包或解压等等 二.代码实现 package big.data.analyse.linux im ...
- Python Django 实现简单注册功能
Python Django 实现简单注册功能 项目创建略,可参考前期文档介绍. 目录结构如下 编辑views.py from django.shortcuts import render # Crea ...
- 蓝色映象 幻舞少女之剑 BLUE REFLECTION 后感
到底是看片收获多还是游戏收获多?在刷蓝色反射的时候刷了2部番.所以,我到底是为了什么在玩游戏呢? 岸田メル的人设,毋庸置疑,唯美想舔,且总能给人一种绝无杂质,纯洁治愈的感觉,再加上浅野隼人的配乐,恰如 ...
- eslint的语法配置项
其实我并不反对这些语法检测,但是像许多反个人意愿的那就真的不得不吐槽了,比如vue-cli脚手架创建的默认eslint规则: 代码末尾不能加分号 ; 代码中不能存在多行空行 tab键不能使用,必须换成 ...
- 用 Splashtop Wired XDisplay HD 让 ipad做电脑扩展屏幕__亲测有效
参考: [1]https://blog.csdn.net/Tang_Chuanlin/article/details/86433152