第一个模块,模拟登陆sina微博,创建weiboLogin.py文件,输入以下代码:

  1. #! /usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3. import sys
  4. import urllib
  5. import urllib2
  6. import cookielib
  7. import base64
  8. import re
  9. import json
  10. import hashlib
  11. class weiboLogin:
  12. cj = cookielib.LWPCookieJar()
  13. cookie_support = urllib2.HTTPCookieProcessor(cj)
  14. opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
  15. urllib2.install_opener(opener)
  16. postdata = {
  17. 'entry': 'weibo',
  18. 'gateway': '1',
  19. 'from': '',
  20. 'savestate': '7',
  21. 'userticket': '1',
  22. 'ssosimplelogin': '1',
  23. 'vsnf': '1',
  24. 'vsnval': '',
  25. 'su': '',
  26. 'service': 'miniblog',
  27. 'servertime': '',
  28. 'nonce': '',
  29. 'pwencode': 'wsse',
  30. 'sp': '',
  31. 'encoding': 'UTF-8',
  32. 'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
  33. 'returntype': 'META'
  34. }
  35. def get_servertime(self):
  36. url = 'http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dW5kZWZpbmVk&client=ssologin.js(v1.3.18)&_=1329806375939'
  37. data = urllib2.urlopen(url).read()
  38. p = re.compile('(.∗)')
  39. try:
  40. json_data = p.search(data).group(1)
  41. data = json.loads(json_data)
  42. servertime = str(data['servertime'])
  43. nonce = data['nonce']
  44. return servertime, nonce
  45. except:
  46. print 'Get severtime error!'
  47. return None
  48. def get_pwd(self, pwd, servertime, nonce):
  49. pwd1 = hashlib.sha1(pwd).hexdigest()
  50. pwd2 = hashlib.sha1(pwd1).hexdigest()
  51. pwd3_ = pwd2 + servertime + nonce
  52. pwd3 = hashlib.sha1(pwd3_).hexdigest()
  53. return pwd3
  54. def get_user(self, username):
  55. username_ = urllib.quote(username)
  56. username = base64.encodestring(username_)[:-1]
  57. return username
  58. def login(self,username,pwd):
  59. url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.3.18)'
  60. try:
  61. servertime, nonce = self.get_servertime()
  62. except:
  63. print 'get servertime error!'
  64. return
  65. weiboLogin.postdata['servertime'] = servertime
  66. weiboLogin.postdata['nonce'] = nonce
  67. weiboLogin.postdata['su'] = self.get_user(username)
  68. weiboLogin.postdata['sp'] = self.get_pwd(pwd, servertime, nonce)
  69. weiboLogin.postdata = urllib.urlencode(weiboLogin.postdata)
  70. headers = {'User-Agent':'Mozilla/5.0 (X11; Linux i686; rv:8.0) Gecko/20100101 Firefox/8.0 Chrome/20.0.1132.57 Safari/536.11'}
  71. req  = urllib2.Request(
  72. url = url,
  73. data = weiboLogin.postdata,
  74. headers = headers
  75. )
  76. result = urllib2.urlopen(req)
  77. text = result.read()
  78. p = re.compile('location\.replace\'(.∗?)\'')
  79. try:
  80. login_url = p.search(text).group(1)
  81. urllib2.urlopen(login_url)
  82. print "Login success!"
  83. except:
  84. print 'Login error!'

然后创建main.py文件,输入以下代码:

  1. #!/usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3. import weiboLogin
  4. import urllib
  5. import urllib2
  6. username = '你的微博用户名'
  7. pwd = '你的微博密码'
  8. WBLogin = weiboLogin.weiboLogin()
  9. WBLogin.login(username, pwd)

注意:若登陆失败,可能是你的账号在登陆的时候需要输入验证码!你在网页上登陆你的账号试试看,在账号设置里面可以设置某些地区不输入验证码。

参考:http://www.douban.com/note/201767245/

接下来,考虑实现抓取微博的内容。

此时遇到一个困难,当抓取指定URL的微博时,初始显示只有15条。后面的是延迟显示的(ajax里面叫lazy load?)。也就是说,当滚动条第一次拖到最下面的时候,会显示第二部分,再拖到最下面,会显示第三部分。此时一个页面的微博才是完整的。所以,要获取一个微博页面的全部微博,需要访问这个页面三次。创建getWeiboPage.py文件,相应代码如下:

  1. #!/usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3. import urllib
  4. import urllib2
  5. import sys
  6. import time
  7. reload(sys)
  8. sys.setdefaultencoding('utf-8')
  9. class getWeiboPage:
  10. body = {
  11. '__rnd':'',
  12. '_k':'',
  13. '_t':'0',
  14. 'count':'50',
  15. 'end_id':'',
  16. 'max_id':'',
  17. 'page':1,
  18. 'pagebar':'',
  19. 'pre_page':'0',
  20. 'uid':''
  21. }
  22. uid_list = []
  23. charset = 'utf8'
  24. def get_msg(self,uid):
  25. getWeiboPage.body['uid'] = uid
  26. url = self.get_url(uid)
  27. self.get_firstpage(url)
  28. self.get_secondpage(url)
  29. self.get_thirdpage(url)
  30. def get_firstpage(self,url):
  31. getWeiboPage.body['pre_page'] = getWeiboPage.body['page']-1
  32. url = url +urllib.urlencode(getWeiboPage.body)
  33. req = urllib2.Request(url)
  34. result = urllib2.urlopen(req)
  35. text = result.read()
  36. self.writefile('./output/text1',text)
  37. self.writefile('./output/result1',eval("u'''"+text+"'''"))
  38. def get_secondpage(self,url):
  39. getWeiboPage.body['count'] = '15'
  40. #   getWeiboPage.body['end_id'] = '3490160379905732'
  41. #   getWeiboPage.body['max_id'] = '3487344294660278'
  42. getWeiboPage.body['pagebar'] = '0'
  43. getWeiboPage.body['pre_page'] = getWeiboPage.body['page']
  44. url = url +urllib.urlencode(getWeiboPage.body)
  45. req = urllib2.Request(url)
  46. result = urllib2.urlopen(req)
  47. text = result.read()
  48. self.writefile('./output/text2',text)
  49. self.writefile('./output/result2',eval("u'''"+text+"'''"))
  50. def get_thirdpage(self,url):
  51. getWeiboPage.body['count'] = '15'
  52. getWeiboPage.body['pagebar'] = '1'
  53. getWeiboPage.body['pre_page'] = getWeiboPage.body['page']
  54. url = url +urllib.urlencode(getWeiboPage.body)
  55. req = urllib2.Request(url)
  56. result = urllib2.urlopen(req)
  57. text = result.read()
  58. self.writefile('./output/text3',text)
  59. self.writefile('./output/result3',eval("u'''"+text+"'''"))
  60. def get_url(self,uid):
  61. url = 'http://weibo.com/' + uid + '?from=otherprofile&wvr=3.6&loc=tagweibo'
  62. return url
  63. def get_uid(self,filename):
  64. fread = file(filename)
  65. for line in fread:
  66. getWeiboPage.uid_list.append(line)
  67. print line
  68. time.sleep(1)
  69. def writefile(self,filename,content):
  70. fw = file(filename,'w')
  71. fw.write(content)
  72. fw.close()

在刚刚的main.py中加入相应内容,完整内容为:

    1. #!/usr/bin/env python
    2. # -*- coding: utf-8 -*-
    3. import weiboLogin
    4. import getWeiboMsg
    5. import urllib
    6. import urllib2
    7. username = '你的微博用户名'
    8. pwd = '你的微博密码'
    9. WBLogin = weiboLogin.weiboLogin()
    10. WBLogin.login(username, pwd)
    11. WBmsg = getWeiboMsg.getWeiboMsg()
    12. url = 'http://weibo.com/1624087025?from=otherprofile&wvr=3.6&loc=tagweibo'
    13. WBmsg.get_firstpage(url)
    14. WBmsg.get_secondpage(url)
    15. WBmsg.get_thirdpage(url)

利用python实现新浪微博爬虫的更多相关文章

  1. 利用Python编写网络爬虫下载文章

    #coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...

  2. 用Python制作新浪微博爬虫

    早上刷空间发现最近好多人过生日诶~ 仔细想想,好像4月份的时候也是特别多人过生日[比如我 那么每个人生日的月份有什么分布规律呢...突然想写个小程序统计一下 最简单易得的生日数据库大概就是新浪微博了: ...

  3. 利用Python实现12306爬虫--查票

    在上一篇文章(http://www.cnblogs.com/fangtaoa/p/8321449.html)中,我们实现了12306爬虫的登录功能,接下来,我们就来实现查票的功能. 其实实现查票的功能 ...

  4. 读书笔记汇总 --- 用Python写网络爬虫

    本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫 作者: [澳]理查德 劳森(Richard Lawson) 原版名称: web scra ...

  5. 利用python爬取海量疾病名称百度搜索词条目数的爬虫实现

    实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...

  6. 如何利用Python网络爬虫抓取微信朋友圈的动态(上)

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  7. 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  8. 爬虫学习笔记(1)-- 利用Python从网页抓取数据

    最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...

  9. 我的第一个爬虫程序:利用Python抓取网页上的信息

    题外话 我第一次听说Python是在大二的时候,那个时候C语言都没有学好,于是就没有心思学其他的编程语言.现在,我的毕业设计要用到爬虫技术,在网上搜索了一下,Python语言在爬虫技术这方面获得一致好 ...

随机推荐

  1. # 20155222 2016-2017-2 《Java程序设计》第5周学习总结

    20155222 2016-2017-2 <Java程序设计>第5周学习总结 教材学习内容总结 java中所有错误都会被包装为对象,如果你愿意,可以尝试(try)执行程序并捕捉代表错误的对 ...

  2. 微服务深入浅出(8)-- 配置中心Spring Cloud Config

    Config Server从本地读取配置文件 将所有的配置文件统一写带Config Server过程的目录下,Config Server暴露Http API接口,Config Client调用Conf ...

  3. netstat-ll-grep-nohup-df-supervisord

    ============http://man.linuxde.net/=========== 0 vi / n是查找下一个,alt+n是上一个  u撤销上一步,回到上一步 1. 根据进程号(4974) ...

  4. PHP获得用户的真实IP地址

    <?php /** * 获得用户的真实IP地址 * * @access public * @return string */ function real_ip() { static $reali ...

  5. java基础48 IO流技术(序列流)

    本文知识点目录: 1.SequenceInputStream序列流的步骤    2.实例    3.附录(音乐的切割与合并) 1.SequenceInputStream序列流的步骤 1.找到目标文件  ...

  6. WORDPRESS登录后台半天都无法访问或者是访问慢的解决方法

    wordpress登录后台如果打开速度慢,一般分为两部分,第一部分是php虚拟主机的原因,其中主机的原因,又分为很多种情况.第二部分就是WordPress程序本身的问题.这里无忧主机小编主要是讲第二部 ...

  7. oracle数据库11g(11.2.0.1)安装报错:提示ins_ctx.mk编译错误。

    https://blog.csdn.net/weixin_42967330/article/details/81668404

  8. Hadoop案例(十一)MapReduce的API使用

    一学生成绩---增强版 数据信息 computer,huangxiaoming,,,,,,, computer,xuzheng,,,,, computer,huangbo,,,, english,zh ...

  9. 【LOJ】#2291. 「THUSC 2016」补退选

    题解 在trie树上开vector记录一下这个前缀出现次数第一次达到某个值的下标,以及记录一下现在这个前缀有多少个 为什么thusc有那么水的题--是为了防我这种cai ji爆零么= = 代码 #in ...

  10. USACO 6.5 Betsy's Tour (插头dp)

    Betsy's TourDon Piele A square township has been divided up into N2 square plots (1 <= N <= 7) ...