python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）

相关代码已经修改调试成功----2017-4-13
详情代码请移步我的github：https://github.com/pujinxiao/sina_spider

一、说明

2.实现：跟踪比较活跃的微博号所发的微博内容，隔3-5分钟刷新（爬取）一次，只有更新了才爬的到，不爬取历史微博内容哦，爬取正文、文中图片、所属微博昵称、发布时间（时间戳格式)。

3.数据：数据都存在mysql数据库中。

4.补充：

1.表cookies_list是存放你登录微博的cookies，我这里选择cookie登录。在遇到cookie被禁止就换cookie，微博帐号可以在某宝买到，你懂得。

2.表headers_list是存放User-Agent，随机调用浏览器的头。

3.表weibo-id-list是存放你要跟踪的微博帐号的url，如：新浪电影微博

4.表weibo_logging是记录所有爬取的信息，不管有没有用，可以当做日志来看，其实在爬取的过程中有很多无效的信息，都需要过滤的。

5.表weibo_result是最终的有效结果。

二、运行

首先配置好数据库，mysql。除了表weibo_result不用创建以外，其他都要额外创建好。例如：我存放在百度网盘里面，可自行看相关字段-------链接：http://pan.baidu.com/s/1nuSx8vB 密码：krqp

备注处更改表明可以随便更改名称。很多说明程序也都有，点击运行即可。

三、问题----欢迎留言提出问题

声明：本项目原先是想监控某些微博帐号所发内容，但是本人能力有限，所写并不是很好，就当是练手了。在这里推荐一个开源的关于新浪微博的爬虫的项目，我也是写完才发现这个的，但是实现的功能和我不一样，里面东西比较多，也比较复杂，可以学习学习。

1.这次就不写问题了，当练手了。有学习python爬虫的欢迎一起学习，我的博客：https://www.cnblogs.com/jinxiao-pu/欢迎参观。

欢迎有兴趣的小伙伴帮我优化，解决以上问题，之后我将合并你的代码，作为贡献者,共同成长。

四、附加

我在另外的python_service.py文件中，我把次程序写进了windows服务里面，只要电脑一开机，设置一下就会自动启动爬取。具体的都在参考资料里面。

参考资料：

http://blog.csdn.net/zhou191954/article/details/8290010

http://www.tuicool.com/articles/Qjei2e

详情代码请移步我的github：https://github.com/pujinxiao/sina_spider

如果本项目对你有用请给我一颗star，万分感谢。

python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）的更多相关文章

Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

随机推荐

CollectionUtils.isEqualCollection的用法
在使用Java的集合时,有些时候会需要比较两个集合是否相等,自己写方法其实也简单,但是既然有了好的实现,就不要自己造轮子了,只要了解这个轮子是什么原理就好了. public static boolea ...
配置JNDI数据源
配置JNDI数据源: 在MATE-INF中新建一个context.xml <?xml version="1.0" encoding="UTF-8"?> ...
C# 实现java中 wiat/notify机制
最近在学习java,看到wiat/notify机制实现线程通信,由于平时工作用的C#,赶紧用C#方式实现一个demo. Java 代码: import java.util.ArrayList; imp ...
使用 WebSockets 技术的 9 个应用场景
没有其他技术能够像WebSocket一样提供真正的双向通信,许多web开发者仍然是依赖于ajax的长轮询来实现.对Websocket缺少热情,也许是因为多年前他的安全性的脆弱,抑或者是缺少浏览器的支持 ...
R1（下）—数据挖掘—关联规则理论介绍与R实现
Apriori algorithm是关联规则里一项基本算法.是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法.关联规则的目的就是在一 ...
DOM基础操作
本文地址:http://www.cnblogs.com/veinyin/p/7606972.html 1 访问 HTML 元素常用方法 document.getElementById(" ...
select多选框
select多选框效果: 代码: <HTML> <HEAD> <TITLE>选择下拉菜单</TITLE> <meta http-equiv=&q ...
MQTT协议及推送服务（二）
MQTT简介 MQTT全称叫做Message Queuing Telemetry Transport,意为消息队列遥测传输,是IBM开发的一个即时通讯协议.由于其维护一个长连接以轻量级低消耗著称,所以 ...
43、os和sys模块的作用？
os与sys模块的官方解释如下: os:这个模块提供了一种方便的使用操作系统函数的方法. sys:这个模块可供访问由解释器使用或维护的变量和与解释器进行交互的函数. 总结:os模块负责程序与操作系统的 ...
使用wifite破解路由器密码
使用wifite破解路由器密码发表于 2016-02-06 | 分类于 wifite | 暂无评论 | 10次阅读简介 wifite是一款自动化wep.wpa破解工具,不支持w ...