利用python实现新浪微博爬虫
第一个模块,模拟登陆sina微博,创建weiboLogin.py文件,输入以下代码:
- #! /usr/bin/env python
- # -*- coding: utf-8 -*-
- import sys
- import urllib
- import urllib2
- import cookielib
- import base64
- import re
- import json
- import hashlib
- class weiboLogin:
- cj = cookielib.LWPCookieJar()
- cookie_support = urllib2.HTTPCookieProcessor(cj)
- opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
- urllib2.install_opener(opener)
- postdata = {
- 'entry': 'weibo',
- 'gateway': '1',
- 'from': '',
- 'savestate': '7',
- 'userticket': '1',
- 'ssosimplelogin': '1',
- 'vsnf': '1',
- 'vsnval': '',
- 'su': '',
- 'service': 'miniblog',
- 'servertime': '',
- 'nonce': '',
- 'pwencode': 'wsse',
- 'sp': '',
- 'encoding': 'UTF-8',
- 'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
- 'returntype': 'META'
- }
- def get_servertime(self):
- url = 'http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dW5kZWZpbmVk&client=ssologin.js(v1.3.18)&_=1329806375939'
- data = urllib2.urlopen(url).read()
- p = re.compile('(.∗)')
- try:
- json_data = p.search(data).group(1)
- data = json.loads(json_data)
- servertime = str(data['servertime'])
- nonce = data['nonce']
- return servertime, nonce
- except:
- print 'Get severtime error!'
- return None
- def get_pwd(self, pwd, servertime, nonce):
- pwd1 = hashlib.sha1(pwd).hexdigest()
- pwd2 = hashlib.sha1(pwd1).hexdigest()
- pwd3_ = pwd2 + servertime + nonce
- pwd3 = hashlib.sha1(pwd3_).hexdigest()
- return pwd3
- def get_user(self, username):
- username_ = urllib.quote(username)
- username = base64.encodestring(username_)[:-1]
- return username
- def login(self,username,pwd):
- url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.3.18)'
- try:
- servertime, nonce = self.get_servertime()
- except:
- print 'get servertime error!'
- return
- weiboLogin.postdata['servertime'] = servertime
- weiboLogin.postdata['nonce'] = nonce
- weiboLogin.postdata['su'] = self.get_user(username)
- weiboLogin.postdata['sp'] = self.get_pwd(pwd, servertime, nonce)
- weiboLogin.postdata = urllib.urlencode(weiboLogin.postdata)
- headers = {'User-Agent':'Mozilla/5.0 (X11; Linux i686; rv:8.0) Gecko/20100101 Firefox/8.0 Chrome/20.0.1132.57 Safari/536.11'}
- req = urllib2.Request(
- url = url,
- data = weiboLogin.postdata,
- headers = headers
- )
- result = urllib2.urlopen(req)
- text = result.read()
- p = re.compile('location\.replace\'(.∗?)\'')
- try:
- login_url = p.search(text).group(1)
- urllib2.urlopen(login_url)
- print "Login success!"
- except:
- print 'Login error!'
然后创建main.py文件,输入以下代码:
- #!/usr/bin/env python
- # -*- coding: utf-8 -*-
- import weiboLogin
- import urllib
- import urllib2
- username = '你的微博用户名'
- pwd = '你的微博密码'
- WBLogin = weiboLogin.weiboLogin()
- WBLogin.login(username, pwd)
注意:若登陆失败,可能是你的账号在登陆的时候需要输入验证码!你在网页上登陆你的账号试试看,在账号设置里面可以设置某些地区不输入验证码。
参考:http://www.douban.com/note/201767245/
接下来,考虑实现抓取微博的内容。
此时遇到一个困难,当抓取指定URL的微博时,初始显示只有15条。后面的是延迟显示的(ajax里面叫lazy load?)。也就是说,当滚动条第一次拖到最下面的时候,会显示第二部分,再拖到最下面,会显示第三部分。此时一个页面的微博才是完整的。所以,要获取一个微博页面的全部微博,需要访问这个页面三次。创建getWeiboPage.py文件,相应代码如下:
- #!/usr/bin/env python
- # -*- coding: utf-8 -*-
- import urllib
- import urllib2
- import sys
- import time
- reload(sys)
- sys.setdefaultencoding('utf-8')
- class getWeiboPage:
- body = {
- '__rnd':'',
- '_k':'',
- '_t':'0',
- 'count':'50',
- 'end_id':'',
- 'max_id':'',
- 'page':1,
- 'pagebar':'',
- 'pre_page':'0',
- 'uid':''
- }
- uid_list = []
- charset = 'utf8'
- def get_msg(self,uid):
- getWeiboPage.body['uid'] = uid
- url = self.get_url(uid)
- self.get_firstpage(url)
- self.get_secondpage(url)
- self.get_thirdpage(url)
- def get_firstpage(self,url):
- getWeiboPage.body['pre_page'] = getWeiboPage.body['page']-1
- url = url +urllib.urlencode(getWeiboPage.body)
- req = urllib2.Request(url)
- result = urllib2.urlopen(req)
- text = result.read()
- self.writefile('./output/text1',text)
- self.writefile('./output/result1',eval("u'''"+text+"'''"))
- def get_secondpage(self,url):
- getWeiboPage.body['count'] = '15'
- # getWeiboPage.body['end_id'] = '3490160379905732'
- # getWeiboPage.body['max_id'] = '3487344294660278'
- getWeiboPage.body['pagebar'] = '0'
- getWeiboPage.body['pre_page'] = getWeiboPage.body['page']
- url = url +urllib.urlencode(getWeiboPage.body)
- req = urllib2.Request(url)
- result = urllib2.urlopen(req)
- text = result.read()
- self.writefile('./output/text2',text)
- self.writefile('./output/result2',eval("u'''"+text+"'''"))
- def get_thirdpage(self,url):
- getWeiboPage.body['count'] = '15'
- getWeiboPage.body['pagebar'] = '1'
- getWeiboPage.body['pre_page'] = getWeiboPage.body['page']
- url = url +urllib.urlencode(getWeiboPage.body)
- req = urllib2.Request(url)
- result = urllib2.urlopen(req)
- text = result.read()
- self.writefile('./output/text3',text)
- self.writefile('./output/result3',eval("u'''"+text+"'''"))
- def get_url(self,uid):
- url = 'http://weibo.com/' + uid + '?from=otherprofile&wvr=3.6&loc=tagweibo'
- return url
- def get_uid(self,filename):
- fread = file(filename)
- for line in fread:
- getWeiboPage.uid_list.append(line)
- print line
- time.sleep(1)
- def writefile(self,filename,content):
- fw = file(filename,'w')
- fw.write(content)
- fw.close()
在刚刚的main.py中加入相应内容,完整内容为:
- #!/usr/bin/env python
- # -*- coding: utf-8 -*-
- import weiboLogin
- import getWeiboMsg
- import urllib
- import urllib2
- username = '你的微博用户名'
- pwd = '你的微博密码'
- WBLogin = weiboLogin.weiboLogin()
- WBLogin.login(username, pwd)
- WBmsg = getWeiboMsg.getWeiboMsg()
- url = 'http://weibo.com/1624087025?from=otherprofile&wvr=3.6&loc=tagweibo'
- WBmsg.get_firstpage(url)
- WBmsg.get_secondpage(url)
- WBmsg.get_thirdpage(url)
利用python实现新浪微博爬虫的更多相关文章
- 利用Python编写网络爬虫下载文章
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...
- 用Python制作新浪微博爬虫
早上刷空间发现最近好多人过生日诶~ 仔细想想,好像4月份的时候也是特别多人过生日[比如我 那么每个人生日的月份有什么分布规律呢...突然想写个小程序统计一下 最简单易得的生日数据库大概就是新浪微博了: ...
- 利用Python实现12306爬虫--查票
在上一篇文章(http://www.cnblogs.com/fangtaoa/p/8321449.html)中,我们实现了12306爬虫的登录功能,接下来,我们就来实现查票的功能. 其实实现查票的功能 ...
- 读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫 作者: [澳]理查德 劳森(Richard Lawson) 原版名称: web scra ...
- 利用python爬取海量疾病名称百度搜索词条目数的爬虫实现
实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...
- 如何利用Python网络爬虫抓取微信朋友圈的动态(上)
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
- 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
- 爬虫学习笔记(1)-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
- 我的第一个爬虫程序:利用Python抓取网页上的信息
题外话 我第一次听说Python是在大二的时候,那个时候C语言都没有学好,于是就没有心思学其他的编程语言.现在,我的毕业设计要用到爬虫技术,在网上搜索了一下,Python语言在爬虫技术这方面获得一致好 ...
随机推荐
- Eureka简介
Eureka是Spring Cloud Netfix 的一个子模块,也是核心模块之一,用于云端服务发现.一个基于RestFul的服务,用于定位服务,以实现云端中间层服务发现和中间层转移. 服务注册与发 ...
- 对string 的操作
相信使用过MFC编程的朋友对CString这个类的印象应该非常深刻吧?的确,MFC中的CString类使用起来真的非常的方便好用.但是如果离开了MFC框架,还有没有这样使用起来非常方便的类呢?答案是肯 ...
- container_of分析【转】
转自:http://blog.csdn.net/tigerjibo/article/details/8299589 1.container_of宏 1> Container_of在Linux内核 ...
- 【bzoj3065】: 带插入区间K小值 详解——替罪羊套函数式线段树
不得不说,做过最爽的树套树———— 由于有了区间操作,我们很容易把区间看成一棵平衡树,对他进行插入,那么外面一层就是平衡树了,这就与我们之前所见到的不同了.我们之前所见到的大多数是线段树套平衡树而此题 ...
- 使用UDP和TCP协议的各种应用和应用层协议
IGMP和ICMP是传输层协议
- 十、springcloud之Consul注销实例
@Autowired //com.ecwid.consul.v1.ConsulClient private ConsulClient consulClient; @PostMapping(" ...
- Scrapy项目之User timeout caused connection failure(异常记录)
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 提示:此文存在问题,真正测试, 请勿阅读, 07-14 14:26更新: 经过两个多小时的测试,发现此问题的原因是 ...
- [ python ] 学习目录大纲
简易博客[html+css]练习 MySQL 练习题及答案 MySQL视图.触发器.函数.存储过程 MySQL 操作总结 Day41 - 异步IO.协程 Day39/40 - 线程的操作 Day36/ ...
- tf.summary.merge_all()
1.自动管理模式 summary_writer = tf.summary.FileWriter('E:/data/tensorflow-master/1.Cnn_Captcha/result/', f ...
- 静态链接库(lib)、动态链接库(dll)与动态链接库的导入库(lib)
静态链接库与动态链接库相对应.动态链接库的导入库不同于以上两种库. 1.静态链接库(lib) 程序编译一般需经编辑.编译.连接.加载和运行几个步骤.在我们的应用中,有一些公共代码是需要反复使用 ...