scrapy抓取人人网上的“新鲜事”

利用scrapy模拟登陆人人网，笔者本打算抓取一下个人页面新鲜事，感觉这个网站越做越差，都懒得抓里面的东西了。这里仅仅模拟人人网登陆，说明一下scrapy的POST请求问题。

人人网改版之后，反爬措施是明显加强了呀，post请求发送的东西增加了很多东西；

不过，笔者小测试了一下，发现改版前的网站接口居然都在，而且都是可用的！！！

因此，直接给出post请求提交的url：http://www.renren.com/PLogin.do

提交参数为：mail（账号）和password（密码）！

具体如何创建项目、创建爬虫文件、编写保存字段以及修改配置文件等，就不多写，参见之前的链接即可：

http://www.cnblogs.com/pythoner6833/p/9012695.html

这个链接以一个scrapy小项目为例，详细解释了scrapy创建项目到代码编辑过程的所有小细节。

这里仅仅贴出抓取人人网时，spider部分的代码：

# -*- coding: utf-8 -*-

import scrapy

class RenrenSpider(scrapy.Spider):

    name = 'renren'

    # allowed_domains = ['renren.com']

    # start_urls = ['http://renren.com/']

    # 重写start_requests方法，提交post请求

    def start_requests(self):

        # post提交的url

        url = 'http://www.renren.com/PLogin.do'

        yield scrapy.FormRequest(

            url=url,

            # 提交的数据

            formdata={

                "email": "xxx",  # 替换为自己的账号

                "password": "ddd",  # 替换为自己的密码

            },

            # 登录后回调的函数

            callback=self.parse

        )

    """

    人人网在登录之后会默认跳转到直播页面（什么鬼，感觉这个网站越做越垃圾，不过反爬都是加强了很多）

    """

    def parse(self, response):

        print(response.body.decode())

print的就是登陆成功后的页面源码，可以根据自己的需要，编写xpath来提取自己感兴趣的数据并保存。这里笔者是已经成功登录了。

运行结果：

scrapy抓取人人网上的“新鲜事”的更多相关文章

分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
scrapy抓取的页面中文会变成unicode字符串
不了解编码的,需要先补下:http://www.cnblogs.com/jiangtu/p/6245264.html 在学习&使用scrapy抓取网上信息时,发现scrapy 会将含有中文的f ...
通过Scrapy抓取QQ空间
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后 ...
python scrapy 抓取脚本之家文章(scrapy 入门使用简介)
老早之前就听说过python的scrapy.这是一个分布式爬虫的框架,可以让你轻松写出高性能的分布式异步爬虫.使用框架的最大好处当然就是不同重复造轮子了,因为有很多东西框架当中都有了,直接拿过来使用就 ...
scrapy抓取淘宝女郎
scrapy抓取淘宝女郎准备工作首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...
scrapy抓取拉勾网职位信息（一）——scrapy初识及lagou爬虫项目建立
本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...
scrapy抓取的中文结果乱码解决办法
使用scrapy抓取的结果,中文默认是Unicode,无法显示中文. 中文默认是Unicode,如: \u5317\u4eac\u5927\u5b66 在setting文件中设置: FEED_EXPO ...
解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题
注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'au ...
scrapy抓取中国新闻网新闻
目标说明利用scrapy抓取中新网新闻,关于自然灾害滑坡的全部国内新闻:要求主题为滑坡类新闻,包含灾害造成的经济损失等相关内容,并结合textrank算法,得到每篇新闻的关键词,便于后续文本挖掘分析 ...

随机推荐

LogViewer解君之忧
LogViewer是一款查看和搜索大型文本文件的工具,能够很快速的查看记事本无法打开的大容量文件,比如大数据的日志文件或数据库文件等,可支持最大4GB的大容量. 一.下载地址链接(中文破解版): ht ...
unity message
再用unity进行开发过程中,不可避免的用到消息的传递问题,以下介绍几种消息传递的方法: (一)拖动赋值此方法即为最普通的方法,即把需要引用的游戏物体或者需要引用的组件拖动到相关公有变量的槽上,然后 ...
我发现了Unity3D的2D Light Renderer, 随后就把它抄了过来
. 前几个月,偶然在群里看到有人讨论Unity3D光照,于是我又萌生了一个新的目标----把它抄过来! . 众所周知,3D渲染的整个流水线都跟光照密不可分,相关的技术更是数不甚数,而2D游戏的光照通常 ...
聊一聊Java中的各种运算符
计算机之所以叫“计算机”,其最基本用途之一就是运算,对应刚刚接触Java的小伙伴而言,熟悉并掌握Java中的各种运算符及其在表达式中的运算优先级是十分必要的. 算术运算算术运算主要用来处理数学中的加 ...
TCP/IP协议第一卷第三章 IP首部分析
IP介绍 IP是TCP/IP协议族中最为核心的协议.所有的TCP.UDP.ICMP.IGMP数据都以IP数据报格式传输. IP提供不可靠.无连接的数据报传送服务. 不可靠(unreliable)它不能 ...
网络安全-主动信息收集篇第二章-二层网络扫描之arping
arping二层网络发现介绍工具:arping arping主要查看IP的MAC地址缺点:工具本身只能ping一个IP地址,不能ping一个IP段.但是可以通过脚本将整个网络中的IP进行扫描. 脚 ...
没NOIP了？
HSEZ李亮:“考虑一下来HSEZ当艺术生吧!"
[AspNetCore 3.0 ] Blazor 服务端组件 Render, RenderFragment ，RenderTreeBuilder, CascadingValue/CascadingParameter 等等
一.组件支撑Blazor的是微软的两大成熟技术,Razor模板和SignalR,两者的交汇点就是组件.通常,我们从ComponentBase派生的类型,或者创建的.razor 文件,就可以称作组件. ...
安全路径——最短路径树+dsu缩边
题目描述思路首先想到$dijkstra$跑完之后$build$一棵最短路径树.要找到每个节点i到根的满足要求的最短路,考虑把一些非树边加进去. 对于非树边$(u,v)$,因为节点i上方的边被占领, ...
Html5在网页中引入视频音频的方法
1.<video> 标签定义视频,比如电影片段或其他视频流. 一段简单的 HTML5 视频: <video src="movie.ogg" controls=&q ...

scrapy抓取人人网上的“新鲜事”

scrapy抓取人人网上的“新鲜事”的更多相关文章

随机推荐

热门专题