【Python爬虫实战】微信爬虫

所谓微信爬虫，即自动获取微信的相关文章信息的一种爬虫。
微信对我们的限制是很多的，所以我们需要采取一些手段解决这些限制
主要包括伪装浏览器、使用代理IP等方式
http://weixin.sogou.com/

微信网站的限制还是很多的，当你使用你自己的IP地址去爬取的时候，大概率会出现服务器的错误，那是因为你的IP被封了
所以我们需要使用代理IP且伪装浏览器。
首先也是同样对网址进行分析，分析之后就能得到query后面对应的是搜索的内容page 后面对应的是页码。
然后分析源码就能构造出文章的正则，之后都和前面的淘宝爬取和千图网爬取是一样的原理操作。
直接上代码

import re

import urllib.request

import time

import urllib.error

#自定义函数，功能为使用代理服务器爬一个网址

def use_proxy(proxy_addr,url):

    #建立异常处理机制

    try:

        req = urllib.request.Request(url)

        req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

        proxy = urllib.request.ProxyHandler({"http:":proxy_addr})

        opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)

        urllib.request.install_opener(opener)

        data = urllib.request.urlopen(req).read()

        return data

    except urllib.error.URLError as e:

        if hasattr(e,"code"):

            print(e.code)

        if hasattr(e,"reason"):

            print(e.reason)

        #若为URLError异常，延时10秒执行

        time.sleep(10)

    except Exception as e:

        print("exception:"+str(e))

        #若为Exception异常，延时1秒执行

        time.sleep(1)

#设置关键词

key = "Python"

#设置代理服务器  西刺

proxy = "127.0.0.1:8888"

#爬取多少页

for i in range(1,10):

    key = urllib.request.quote(key)

    thispageurl = "http://weixin.sogou.com/weixin?query="+key+"&type=2&page="+str(i)

    thispagedata = use_proxy(proxy,thispageurl)

    print(len(str(thispagedata)))

    pat1 = '<a href="(.*?)"'

    rs1 = re.compile(pat1,re.S).findall(str(thispagedata))

    #re.S  .任意匹配模式

    if(len(rs1) == 0):

        print("此次（"+str(i)+"页）没成功")

        continue

    for j in range(0,len(rs1)):

        thisurl = rs1[j]

        thisurl = thisurl.replace("amp;","")

        file = "E://pythoncode/weixin/第"+str(i)+"页第"+str(j)+"篇文章.html"

        thisdata = use_proxy(proxy,thisurl)

        try:

            fh = open(file,"wb")

            fh.write(thisdata)

            fh.close()

            print("第"+str(i)+"页第"+str(j)+"篇文章成功")

        except Exception as e:

            print(e)

            print("第"+str(i)+"页第"+str(j)+"篇文章失败")

【Python爬虫实战】微信爬虫的更多相关文章

爬虫实战：爬虫之 web 自动化终极杀手 ( 上）
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:陈象导语: 最近写了好几个简单的爬虫,踩了好几个深坑,在这里总结一下,给大家在编写爬虫时候能给点思路.本次爬虫内容有:静态页面的爬 ...
python应用之爬虫实战1 爬虫基本原理
知识内容: 1.爬虫是什么 2.爬虫的基本流程 3.request和response 4.python爬虫工具参考:http://www.cnblogs.com/linhaifeng/article ...
Python 爬虫实战
图片爬虫实战链接爬虫实战糗事百科爬虫实战微信爬虫实战多线程爬虫实战
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...

随机推荐

需要序列化的类中没有写serialVersionUID的解决办法
由于没赋值serialVersionUID 只是警告,不是错误,造成先前没留意设定serialVersionUID,网络两端上线运行一段时间也感觉正常.如果再增减修改field,没赋值好serialV ...
调试PHP错误
error_reporting(E_ALL & ~E_NOTICE); ini_set('display_errors', "On");
禁止用键盘左右箭头，去切换PageControl页签
unit Unit1; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms ...
system.Data.Entity.Infrastructure.DbUpdateConcurrencyException: Store update, insert, or delete statement affected an unexpected number of rows (0) 问题
页面控件没有做限制.提交后还可以继续点击,造成了在短时间内的多次请求.查看日志两次错误在200ms之内. 错误信息 system.Data.Entity.Infrastructure.DbUpdate ...
TableLayoutPanel 行高列宽设置
/// <summary> /// 获取TableLayoutPanel指定行的高度 /// </summary> /// <param name="layou ...
EXSI6.5复制文件太慢的解决方法
听说裸金属服务器性能比在windows中安装VMware workstations要好,就在电脑上安装了一个EXSI6.5. 可是在复制文件时很慢,一个3G的文件复制了两三个小时,还时常担心网络会断, ...
Java第02次实验提纲(Java基本语法与类库)
1. 熟悉Git 1.1 学会使用网页版的操作代码仓库(gitee) 申请账号,然后根据老师提供的链接或者二维码加入团队,然后修改昵称. fork老师提供的代码库项目,新建自己学号命名的文件并上传一些 ...
【java】之彻底明白进制转换
首先区分 2进制只有0和1组成如:0101018进制以0开头,0~7组成如:01234510进制以1~9开头,0~9组成如:10016进制以0X开头,0~9或者a ...
spring 如何决定使用jdk动态代理和cglib(转)
Spring1.2: 将事务代理工厂[TransactionProxyFactoryBean] 或自动代理拦截器[BeanNameAutoProxyCreator] 的 proxyTargetCla ...
win10以上系统设定PPTP自动拨号
:bohaorasdial adsl 123 123if not %errorlevel% == 0 goto :bohaoexit rasdial adsl 123 123 rasdial是开始拨号 ...

【Python爬虫实战】微信爬虫

【Python爬虫实战】微信爬虫的更多相关文章

随机推荐

热门专题