利用python实现新浪微博爬虫

第一个模块，模拟登陆sina微博，创建weiboLogin.py文件，输入以下代码：

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import urllib
import urllib2
import cookielib
import base64
import re
import json
import hashlib
class weiboLogin:
cj = cookielib.LWPCookieJar()
cookie_support = urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)
postdata = {
'entry': 'weibo',
'gateway': '1',
'from': '',
'savestate': '7',
'userticket': '1',
'ssosimplelogin': '1',
'vsnf': '1',
'vsnval': '',
'su': '',
'service': 'miniblog',
'servertime': '',
'nonce': '',
'pwencode': 'wsse',
'sp': '',
'encoding': 'UTF-8',
'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
'returntype': 'META'
}
def get_servertime(self):
url = 'http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dW5kZWZpbmVk&client=ssologin.js(v1.3.18)&_=1329806375939'
data = urllib2.urlopen(url).read()
p = re.compile('(.∗)')
try:
json_data = p.search(data).group(1)
data = json.loads(json_data)
servertime = str(data['servertime'])
nonce = data['nonce']
return servertime, nonce
except:
print 'Get severtime error!'
return None
def get_pwd(self, pwd, servertime, nonce):
pwd1 = hashlib.sha1(pwd).hexdigest()
pwd2 = hashlib.sha1(pwd1).hexdigest()
pwd3_ = pwd2 + servertime + nonce
pwd3 = hashlib.sha1(pwd3_).hexdigest()
return pwd3
def get_user(self, username):
username_ = urllib.quote(username)
username = base64.encodestring(username_)[:-1]
return username
def login(self,username,pwd):
url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.3.18)'
try:
servertime, nonce = self.get_servertime()
except:
print 'get servertime error!'
return
weiboLogin.postdata['servertime'] = servertime
weiboLogin.postdata['nonce'] = nonce
weiboLogin.postdata['su'] = self.get_user(username)
weiboLogin.postdata['sp'] = self.get_pwd(pwd, servertime, nonce)
weiboLogin.postdata = urllib.urlencode(weiboLogin.postdata)
headers = {'User-Agent':'Mozilla/5.0 (X11; Linux i686; rv:8.0) Gecko/20100101 Firefox/8.0 Chrome/20.0.1132.57 Safari/536.11'}
req = urllib2.Request(
url = url,
data = weiboLogin.postdata,
headers = headers
)
result = urllib2.urlopen(req)
text = result.read()
p = re.compile('location\.replace\'(.∗?)\'')
try:
login_url = p.search(text).group(1)
urllib2.urlopen(login_url)
print "Login success!"
except:
print 'Login error!'

然后创建main.py文件，输入以下代码：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import weiboLogin
import urllib
import urllib2
username = '你的微博用户名'
pwd = '你的微博密码'
WBLogin = weiboLogin.weiboLogin()
WBLogin.login(username, pwd)

注意：若登陆失败，可能是你的账号在登陆的时候需要输入验证码！你在网页上登陆你的账号试试看，在账号设置里面可以设置某些地区不输入验证码。

参考：http://www.douban.com/note/201767245/

接下来，考虑实现抓取微博的内容。

此时遇到一个困难，当抓取指定URL的微博时，初始显示只有15条。后面的是延迟显示的（ajax里面叫lazy load?）。也就是说，当滚动条第一次拖到最下面的时候，会显示第二部分，再拖到最下面，会显示第三部分。此时一个页面的微博才是完整的。所以，要获取一个微博页面的全部微博，需要访问这个页面三次。创建getWeiboPage.py文件，相应代码如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib
import urllib2
import sys
import time
reload(sys)
sys.setdefaultencoding('utf-8')
class getWeiboPage:
body = {
'__rnd':'',
'_k':'',
'_t':'0',
'count':'50',
'end_id':'',
'max_id':'',
'page':1,
'pagebar':'',
'pre_page':'0',
'uid':''
}
uid_list = []
charset = 'utf8'
def get_msg(self,uid):
getWeiboPage.body['uid'] = uid
url = self.get_url(uid)
self.get_firstpage(url)
self.get_secondpage(url)
self.get_thirdpage(url)
def get_firstpage(self,url):
getWeiboPage.body['pre_page'] = getWeiboPage.body['page']-1
url = url +urllib.urlencode(getWeiboPage.body)
req = urllib2.Request(url)
result = urllib2.urlopen(req)
text = result.read()
self.writefile('./output/text1',text)
self.writefile('./output/result1',eval("u'''"+text+"'''"))
def get_secondpage(self,url):
getWeiboPage.body['count'] = '15'
# getWeiboPage.body['end_id'] = '3490160379905732'
# getWeiboPage.body['max_id'] = '3487344294660278'
getWeiboPage.body['pagebar'] = '0'
getWeiboPage.body['pre_page'] = getWeiboPage.body['page']
url = url +urllib.urlencode(getWeiboPage.body)
req = urllib2.Request(url)
result = urllib2.urlopen(req)
text = result.read()
self.writefile('./output/text2',text)
self.writefile('./output/result2',eval("u'''"+text+"'''"))
def get_thirdpage(self,url):
getWeiboPage.body['count'] = '15'
getWeiboPage.body['pagebar'] = '1'
getWeiboPage.body['pre_page'] = getWeiboPage.body['page']
url = url +urllib.urlencode(getWeiboPage.body)
req = urllib2.Request(url)
result = urllib2.urlopen(req)
text = result.read()
self.writefile('./output/text3',text)
self.writefile('./output/result3',eval("u'''"+text+"'''"))
def get_url(self,uid):
url = 'http://weibo.com/' + uid + '?from=otherprofile&wvr=3.6&loc=tagweibo'
return url
def get_uid(self,filename):
fread = file(filename)
for line in fread:
getWeiboPage.uid_list.append(line)
print line
time.sleep(1)
def writefile(self,filename,content):
fw = file(filename,'w')
fw.write(content)
fw.close()

在刚刚的main.py中加入相应内容，完整内容为：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import weiboLogin
import getWeiboMsg
import urllib
import urllib2
username = '你的微博用户名'
pwd = '你的微博密码'
WBLogin = weiboLogin.weiboLogin()
WBLogin.login(username, pwd)
WBmsg = getWeiboMsg.getWeiboMsg()
url = 'http://weibo.com/1624087025?from=otherprofile&wvr=3.6&loc=tagweibo'
WBmsg.get_firstpage(url)
WBmsg.get_secondpage(url)
WBmsg.get_thirdpage(url)

利用python实现新浪微博爬虫的更多相关文章

利用Python编写网络爬虫下载文章
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...
用Python制作新浪微博爬虫
早上刷空间发现最近好多人过生日诶~ 仔细想想,好像4月份的时候也是特别多人过生日[比如我那么每个人生日的月份有什么分布规律呢...突然想写个小程序统计一下最简单易得的生日数据库大概就是新浪微博了: ...
利用Python实现12306爬虫--查票
在上一篇文章(http://www.cnblogs.com/fangtaoa/p/8321449.html)中,我们实现了12306爬虫的登录功能,接下来,我们就来实现查票的功能. 其实实现查票的功能 ...
读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫作者: [澳]理查德劳森(Richard Lawson) 原版名称: web scra ...
利用python爬取海量疾病名称百度搜索词条目数的爬虫实现
实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
我的第一个爬虫程序：利用Python抓取网页上的信息
题外话我第一次听说Python是在大二的时候,那个时候C语言都没有学好,于是就没有心思学其他的编程语言.现在,我的毕业设计要用到爬虫技术,在网上搜索了一下,Python语言在爬虫技术这方面获得一致好 ...

随机推荐

es6解构、中括号前加分号
在写项目的时候,为了方便使用了下对象的解构,无奈又遇到一坑. 为什么会不能解构呢?因为这里的{}会导致歧义,因为 JavaScript 引擎会将{xxxxx}理解成一个代码块,从而发生语法错误.只有不 ...
Java并发编程(2) AbstractQueuedSynchronizer的设计与实现
一前言上一篇分析AQS的内部结构,其中有介绍AQS是什么,以及它的内部结构的组成,那么今天就来分析下前面说的内部结构在AQS中的具体作用(主要在具体实现中体现). 二 AQS的接口和简单示例上篇 ...
Electron build 无法下载 winCodeSign 等资源
将 7z 文件下载到以下 cache 目录并解压 macOS: ~/Library/Caches/electron-builder Linux: ~/.cache/electron-builder ...
margin-bottom无效问题以及div里内容动态居中样式!
最近调前端样式时候,遇到一个需求,在中间文字不对等的情况下想让下面的操作文字距离底部对齐,如图: , 刚开始觉得使用margin-bottom就可以,后来发现只有margin-top是管用的,查了资料 ...
Kettle进行数据迁移（ETL）
由于开发新的系统,需要将之前一个老的C/S应用的数据按照新的数据设计导入到新库中.此过程可能涉及到表结构不一致.大数据量(千万级,甚至上亿)等情况,包括异构数据的抽取.清洗等等工作.部分复杂的工作需要 ...
PHP在引号前面添加反斜杠的原因及PHP去除反斜杠的办法
昨天用PHP做了个读写html文档的小程序,本地测试正常但是传到网站后发现,提交内容保存的时候会自动在双引号前面增加一个反斜杠“\”,而且每保存一次增加一个反斜杠,很是郁闷. 当然做这个只是为了参加电 ...
mybatis 控制台打印sql脚本
在mybatis-config.xml文件中加一句 <setting name="logImpl" value="STDOUT_LOGGING" /> ...
IPv4的核心管理功能/proc/sys/net/ipv4/*
I /proc/sys/net/ipv4/tcp_syncookies SYN Cookies模块可以在系统随机端口(1024:65535)即将用完时自动启动,用来应对Dos攻击.当启动SYN Coo ...
B树 B+树红黑树
B-Tree(B树) 具体讲解之前,有一点,再次强调下:B-树,即为B树.因为B树的原英文名称为B-tree,而国内很多人喜欢把B-tree译作B-树,其实,这是个非常不好的直译,很容易让人产生误解. ...
day5模块学习--XML模块
XML文件处理 XML文件处理,有好几种方式,这里介绍一下xml.etree.ElementTree as ET. 注意:xml.etree.ElementTree模块在应对恶意结构数据时显得并不安全 ...

利用python实现新浪微博爬虫

利用python实现新浪微博爬虫的更多相关文章

随机推荐

热门专题