python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name

需求：爬取豆瓣小组所有话题（话题title，内容，作者，发布时间），及回复（最佳回复，普通回复，回复_回复，翻页回复，0回复）

解决：1. 先爬取小组下，所有的主题链接，通过定位nextpage翻页获取总过700+条话题；

2. 访问700+ 链接，在内页+start=0中，获取话题相关的四部分（话题title，内容，作者，发布时间），及最佳回复、回复；

3. 在2的基础上，判断是否有回复，如果有回复才进一步判断是否有回复翻页，回复翻页通过nextpage 获取start=100、start=200的页；

4. 进入下一个爬取函数，将抓取的回复续写到2 中的文件；

解决思路：

Before：一开始建立2个文件，article.txt 用来存储所有话题相关的内容（700+话题、作者信息）；

同时，建立以title命名的回复文件；

After: 统一建立以话题title命名的文章，先写入文章相关内容，再续写回复；这样方便读取；

遇到的坑：

1. 要获取某个div下直接的text，div.span下的text，div.h下的text：

——有2个解决方法：

A. 通过xpath //text，意思是获取div 下的所有text文件；

B. 通过css 拼接，逗号隔开即可：

2. 巩固了不同函数之间通过meta传递参数的方法：

3. python open file with a variable name

f = open('%s.txt' % title_end,'a')

a: 续写

4.去掉 str 中的空格，换行等符号

# 去掉在x左右的空白,\t,\n和\r字符.
 x1 = x.strip(' \t\n\r')

5 . strip 去掉数据中的\r，''.join 将列表转回字符串；

# 先将文章中的\r 都去掉，有些单独的'\r' 就变成了空的列表元素：''，再用if 来判断下就好了
        artical_end = []
        for x in  article:
            x1 = x.replace('\r','')
            if x1 != '':
                artical_end.append(x1)
# 将artical_end 列表 转为字符串
        ar =''.join(artical_end)

python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name的更多相关文章

Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...
Python 爬取单个网页所需要加载的地址和CSS、JS文件地址
Python 爬取单个网页所需要加载的URL地址和CSS.JS文件地址通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题.图片.文章等等).而我从测试的角度去使用Python爬 ...
python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
python 爬取豆瓣书籍信息
继爬取猫眼电影TOP100榜单之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分语言:pyth ...
python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...

随机推荐

window安装Elasticsearch
下载,https://www.elastic.co/cn/downloads/elasticsearch 下载后解压,进入解压目录,运行./elasticsearch.bat 运行成功如下 (运行需要 ...
Spark 分布式环境---slave节点无法启动（已解决）
soyo@soyo-VPCCB3S1C:~$ start-slaves.sh soyo-slave01: starting org.apache.spark.deploy.worker.Worker, ...
15.extjs tabPanel的用法
转自:https://blog.csdn.net/mezhaha/article/details/78878894 本文导读:TabPanel继承于Ext.Panel,Ext.TabPanel就是有选 ...
论文翻译-SELF TRAINING AUTONOMOUS DRIVING AGENT
文献地址链接:https://pan.baidu.com/s/1gHrpnOf1FXLp9u8OJ2-oCg 提取码:y2w6 作者 Shashank Kotyan, Danilo Vasconce ...
CSS左侧固定右侧自适应
方法一: float + margin.left{ float: left; width: 100px; }.right {margin-left:100px; } /*清除浮动*/ .contain ...
Linux用户、用户组权限管理详解
Linux用户管理三个重要文件详解: Linux登陆需要用户名.密码./etc/passwd 文件保存用户名.登录Linux时,Linux 先查找 /etc/passwd 文件中是否有这个用户名,没有 ...
367 Valid Perfect Square 有效的完全平方数
给定一个正整数 num,编写一个函数,如果 num 是一个完全平方数,则返回 True,否则返回 False.注意:不要使用任何内置的库函数,如 sqrt.示例 1:输入: 16输出: True示例 ...
Spring-Aop的两种代理方式
Spring-Aop两种代理方式: 1.JDK动态代理:用于目标类实现了接口: 2.Cglib动态代理:用于目标类没有实现接口: spring会依据目标类是否实现接口来选择使用哪种代理方式(目标类:相 ...
如何取消android studio启动时自动打开上次关闭的项目
Androidstudio默认每次android studio启动就会自动打开上次关闭的项目,如果想要取消并让它显示此界面只需要
IDEA提示 found duplicate code
原因: IntelliJ IDEA提示Found duplicated code in this file 这不是我们代码错误,而是idea提示说我们的代码有重复,在项目的其他地方有同样的代码片段解 ...

python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name

python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name的更多相关文章

随机推荐

热门专题