python3 requests + BeautifulSoup 爬取阳光网投诉贴详情实例代码

用到了requests、BeautifulSoup、urllib等，具体代码如下。

# -*- coding: utf-8 -*-

"""

Created on Sat Jul 21 09:13:07 2018

@author: brave_man

email: 1979887709@qq.com

这里先说一个坑。。

页面不存在404的坑。

首先，我们把包含30个投诉的一个页面，称作一个主界面。每一个主界面是包含有30个投诉贴，我们获取每一个投诉贴的超链接，

然后，将获取到的超链接传到getDetails()中，去获取每一个投诉贴的详细内容，包括标题，内容，处理状态等。

当我第一次爬的时候，爬到第十页，显示索引超出了范围，就去找了一下，打开相关投诉贴，显示的是404，页面不存在，程序报错了。

为了增强我们小蜘蛛的健壮性，在获取每个投诉贴详情的时候，先用try语句试一下，当然，前提是你已经确定在获取网页元素的

时候不会出错。

"""

import requests

from bs4 import BeautifulSoup

#import json

#from threading import Thread

import urllib

from time import sleep

def getDetails(url):

    try:

        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0"}

        res = requests.get("{}".format(url), headers = headers)

        res.encoding = "GBK"

        soup = BeautifulSoup(res.text, "html.parser")

        try:

            content = soup.select(".contentext")[0].text.strip()

        except:

            content = soup.select(".greyframe")[0].text.split("\n")[7].strip()

        try:

            imgUrl = "http://wz.sun0769.com/" + soup.select(".textpic")[0].img["src"]

            imgSaveUrl = "D:\\downloadPhotos" + "\\" + soup.select(".textpic")[0].img["src"][-10:]

            urllib.request.urlretrieve(imgUrl, "D:\\downloadPhotos" + "\\" + soup.select(".textpic")[0].img["src"][-10:])

        except:

            imgSaveUrl = "无图片"

        try:

            status = soup.select(".qgrn")[0].text

        except:

            try:

                status = soup.select(".qblue")[0].text

            except:

                status = soup.select(".qred")[0].text

        details = {"Title": soup.select(".tgray14")[0].text[4:-12].strip(),

                   "Code": soup.select(".tgray14")[0].text[-8:-2],

                   "Picture": imgSaveUrl,

                   "Content": content,

                   "Status": status,

                   "NetFriend": soup.select(".te12h")[0].text.lstrip("  网友：")[0:-27],

                   "Time": soup.select(".te12h")[0].text[-21:-2]}

#        jd = json.dumps(details)

#        print(type(jd))

        try:

            with open("saveComplaints.txt", "a") as f:

                f.write(str(details))

        except:

            print("存入失败")

    except:

        print("页面不存在")

        sleep(5)

def getA(url):

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0"}

    res = requests.get("{}".format(url), headers = headers)

    res.encoding = "GBK"

    soup = BeautifulSoup(res.text, "html.parser")

    for i in soup.select(".news14"):

        url = i["href"]

        getDetails(url)

def getPages():

    rUrl = "http://wz.sun0769.com/index.php/question/questionType?type=4&page="

    for i in range(30):

        url = rUrl + str((i - 1) * 30)

        getA(url)

if __name__ == "__main__":

#    getA("http://wz.sun0769.com/index.php/question/questionType?type=4")

#    getDetails("http://wz.sun0769.com/html/question/201807/379074.shtml")

    getPages()

在编代码的时候，有一些小细节的处理不够熟练，比如文件的读写。下面再搞一搞。

# -*- coding: utf-8 -*-

"""

Created on Sat Jul 21 13:51:40 2018

@author: brave_man

email: 1979887709@qq.com

"""

import json

try:

    with open("saveComplaints.txt", "r") as f:

        print("开始读取")

        s = f.readline()

#        print(s)

except:

    print("存入失败")

# 将文件中数据读取出来

s1 = s.encode("utf8").decode("unicode-escape")

print(s1)

# 转换成json格式

jd = json.dumps(s1)

print(jd)

#d = {"name": "张飞", "age": "29"}

#print(str(d))

#jd = json.dumps(d)

#print(jd)

#js = json.loads(jd)

#print(js)

爬虫爬取了前30个页面保存到本地文件中，其实可以考虑用多线程，线程池的方法去分别爬取每一个主页面，这样可能效率会更高一些。至于多线程的部分，还是不太熟练，需要多注意。

python3 requests + BeautifulSoup 爬取阳光网投诉贴详情实例代码的更多相关文章

Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
使用requests+BeautifulSoup爬取龙族V小说
这几天想看龙族最新版本,但是搜索半天发现没有网站提供下载, 我又只想下载后离线阅读(写代码已经很费眼睛了).无奈只有自己爬取了. 这里记录一下,以后想看时,直接运行脚本下载小说. 这里是从 ...
python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例
第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...
requests+BeautifulSoup | 爬取电影天堂全站电影资源
import requests import urllib.request as ur from bs4 import BeautifulSoup import csv import threadin ...
python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例
以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页. 详细介绍都在代码中注释了,大家可以参阅. # -* ...
requests+beautifulsoup爬取豆瓣图书
使用Xpath和BeautifulSoup来解析网页可以说真的很简便. import requests from bs4 import BeautifulSoup from random import ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...

随机推荐

Unicode 是不是只有两个字节，为什么能表示超过 65536 个字符
Unicode 目前规划的总空间是17个平面(平面0至16),0x0000 至 0x10FFFF.每个平面有 65536 个码点.你只是大致知道平面0(「Basic Multilingual Pl ...
监控报I/O问题，怎么办？
Linux系统出现了性能问题,一般我们可以通过top.iostat.free.vmstat等命令来查看初步定位问题.其中iostat可以给我们提供丰富的IO状态数据. 一.查询命令基本使用 1.命令介 ...
Jenkins入门之任务基本操作
首先先简单讲一下Jenkins构建任务各种图标的含义我的主界面有以下构建任务,这里前两列都是图标,第一列为构建的状态,前面已经讲过蓝色代表成功,红色代表失败.当然那是针对一次构建,一个构建任务可能有 ...
翻译：SET子句（已提交到MariaDB官方手册）
本文为mariadb官方手册:SET的译文. 原文:https://mariadb.com/kb/en/set/我提交到MariaDB官方手册的译文:https://mariadb.com/kb/zh ...
GVRP 的工作机制和工作模式
GVRP 简介 GVRP 基于 GARP 的工作机制来维护设备中的 VLAN 动态注册信息,并将该信息向其他设备传播:当设备启动了 GVRP 之后,就能够接收来自其他设备的 VLAN 注册信息,并动态 ...
vsphere 虚拟机的迁移，冷迁移，vmotion（热迁移）
备注:(理论部分参考王春海老师的课程) 一.概述 1.vsphere数据中心当处于某种目的进行维护时,需要将某台主机上运行或关闭的虚拟机,迁移到其他主机上,这个时候就需要使用迁移 2.可以使用冷迁移或 ...
南大算法设计与分析课程OJ答案代码（2）最大子序列和问题、所有的逆序对
问题 A: 最大子序列和问题时间限制: 1 Sec 内存限制: 4 MB提交: 184 解决: 66提交状态算法问答题目描述给定一整数序列 a1, a2, …, an,求 a1~an 的 ...
[转]win10中安装JDK8以及环境配置
本文转自:https://blog.csdn.net/yangsummer2426/article/details/80499775 1. 首先下载jdk,网址如下: http://www. ...
python使用udp实现聊天器
聊天器简易版使用udp实现一个简单的聊天器程序,要求如下: 在一个电脑中编写1个程序,有2个功能 1.获取键盘数据,并将其发送给对方 2.接收数据并显示并且功能数据进行选择以上的2个功能调用例子 ...
Maven（七）Eclipse使用Maven命令
由于没有mvn compile (其余命令类似) 可以点解上面框中选项手动输入compile

python3 requests + BeautifulSoup 爬取阳光网投诉贴详情实例代码

python3 requests + BeautifulSoup 爬取阳光网投诉贴详情实例代码的更多相关文章

随机推荐

热门专题