python 爬取世纪佳缘,经过js渲染过的网页的爬取

#!/usr/bin/python

#-*- coding:utf-8 -*-

#爬取世纪佳缘

#这个网站是真的烦，刚开始的时候用scrapy框架写,但是因为刚接触框架,碰到js渲染的页面之后就没办法了,所以就采用一般的爬虫了

#js渲染过的数据，可能在网页源码里面没有数据，需要js异步请求提取数据，然后展示，所以爬取这类的数据，只需要找到js发送请求的url就行了

#js发送的请求可能是post(比如这个例子)或者是get(比如豆瓣电影剧情的排行榜),所以要看好是什么请求

import sys

import json

#from lxml import etree

import urllib

import urllib2 

reload(sys)

sys.setdefaultencoding("utf-8") #设置默认的编码格式,把Unicode格式转换成汉字写到文件里面的时候需要用到,要配合decode("unicode_escape")使用

class shiji():

    def __init__(self):

        self.page = 1 #初始化页面的第几页

        self.filename = open("sj.json","w") #打开文件用于写入数据

    def parse_page(self):

        url = "http://search.jiayuan.com/v2/search_v2.php?" #初始url的前半段,加上后半段发送的是post请求

        headers = {"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"}

        formdata = {

                "sex":"f",

                "key":"",

                "stc":"1:11,2:20.25,3:160.170,23:1",

                "sn":"default",

                "sv":"1",

                "p":self.page, #每次数据js异步提取数据的时候只有p变化了,p对应于当前页面是第几页

                "f":"select",

                "listStyle":"bigPhoto",

                "pri_uid":"170633820",

                "jsversion":"v5"

            }

        data = urllib.urlencode(formdata)

        request = urllib2.Request( url ,data = data , headers = headers)

        response = urllib2.urlopen(request)

#        print response.info().get('Content-Encoding') #这会打印出服务器返回数据的压缩方式,如果未有压缩则返回None

        js = response.read() #返回的response.read()是json格式的,但是首和尾多了一段字符串"##jiayse##"和"##jiayse##",所以下面就处理一下

        #print type(js) #字符串类型

        js = js.replace("##jiayser##","").replace("//","") #字符串里很牛X的一个函数replace()

        #print js

        content = json.loads(js) #字典类型(这个字典是大字典,key只有isLogin、count、pageTotal、userInfo，其中userInfo是每个人的资料)

        self.parse_person(content['userInfo']) #调用parse_person函数处理大字典的ueerInfo(还是字典类型的),即每个人的资料

#            print type(content['userInfo'])#字典类型

    def parse_person(self,userinfo):

        for i in range(len(userinfo)):

            form = {"昵称":userinfo[i]['nickname'],"年龄":userinfo[i]['age'],"内心独白":userinfo[i]['shortnote']} #把要爬取的数据写成一个字典

            #print form

            #print type(form)

            #不能把dict和list类型直接写入文件, 把字典写入json文件的时候要把字典转换成json字符串才行(json.dumps(form))

            #decode("unicode_escape")表示把unicode格式转换成汉字,但用一个这竟然还不行!还要加上上面的import sys... , 真麻烦

            form = json.dumps(form).decode("unicode_escape") 

            self.filename.write(form+"\n") #写入文件

        if self.page <10: #这里随便写self.page,只要不超过页面加载的范围就行

            self.page+=1

            self.parse_page() #自加一之后在调用parse_page()函数进行换页,然后接着爬

if __name__ == "__main__":

    sj = shiji()

    sj.parse_page() #调用parse_page()函数开始爬取

写这个爬虫浪费了一天的时间。。。我是真的菜。

错误总结：

关于unicode编码转汉字的方法以及UnicodeEncodeError: 'ascii' codec can't encode characters in position问题:

 https://www.cnblogs.com/technologylife/p/6071787.html

 http://blog.sina.com.cn/s/blog_64a3795a01018vyp.html

把dict写入文件的时候碰见的报的typeError的解决办法: http://blog.csdn.net/guoweish/article/details/47106263

另外加一篇ubuntu vim撤销操作的博客  http://blog.sina.com.cn/s/blog_7e9efc570101ays3.html

收获:这次的收获还可以，解决了很多没见过的bug，第一次爬取js渲染的网页的数据，值得记得的是：(1).js渲染过得网页怎么找数据来源(f12 network XHR 找是post请求还是get请求)，(2)字符串的强大替换函数replace，(3)字典写入文件怎么处理  (先转换成json的字符串再写入)，(4)unicode转汉字怎么处理(import sys + decode("unicode_escape"))

python 爬取世纪佳缘,经过js渲染过的网页的爬取的更多相关文章

python多线程爬取世纪佳缘女生资料并简单数据分析
一. 目标作为一只万年单身狗,一直很好奇女生找对象的时候都在想啥呢,这事也不好意思直接问身边的女生,不然别人还以为你要跟她表白啥的,况且工科出身的自己本来接触的女生就少,即使是挨个问遍,样本量也 ...
世纪佳缘信息爬取存储到mysql,下载图片到本地，从数据库选取账号对其发送消息更新发信状态
利用这种方法,可以把所有会员信息存储下来,多线程发信息,10秒钟就可以对几百个会员完成发信了. 首先是筛选信息后爬取账号信息, #-*-coding:utf-8-*- import requests, ...
批量采集世纪佳缘会员图片及winhttp异步采集效率
原始出处:http://www.cnblogs.com/Charltsing/p/winhttpasyn.html 最近老有人问能不能绕过世纪佳缘的会员验证来采集图片,我测试了一下,发现是可以的. 同 ...
java_爬虫_获取经过js渲染后的网页源码
md 弄了一天了……(这个月不会在摸爬虫了,浪费生命) 进入正题: 起初是想写一个爬虫来爬一个网站的视频,但是怎么爬取都爬取不到,分析了下源代码之后,发现源代码中并没有视频的dom 但是在浏览器检查元 ...
（转）Python网络爬虫实战：世纪佳缘爬取近6万条数据
又是一年双十一了,不知道从什么时候开始,双十一从“光棍节”变成了“双十一购物狂欢节”,最后一个属于单身狗的节日也成功被攻陷,成为了情侣们送礼物秀恩爱的节日. 翻着安静到死寂的聊天列表,我忽然惊醒,不行 ...
模仿世纪佳缘网站PC端的首页效果
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Python通过PhantomJS获取JS渲染后的网页源代码
新建一个文件,命名为test.js,内容如下: var page = require('webpage').create(), system = require('system'), address; ...
2）JS动态生成HTML元素的爬取
2)JS动态生成HTML元素的爬取 import java.util.List; import org.openqa.selenium.By; import org.openqa.selenium.W ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...

随机推荐

也谈matlab中读取视频的一个重要函数mmreader
也谈matlab中读取视频的一个重要函数mmreader 在matlab中输入help mmreader来查阅一下该函数,有如下信息: MMREADER Create a multimedia rea ...
【NOI2017】游戏 2-sat算法
[题目]LibreOJ [题意]n场游戏,有三种车ABC,给定长度为n的字符串,'a'表示不能选A,'b''c'同理,'x'表示不限,至多d个'x'.有m个限制(i,hi,j,hj)表示如果第i场选择 ...
详细说说如何生成验证码—ASP.NET细枝末节（4）
前言今天小编详细的说一下,ASP.NET网站开发过程中生成验证码的全部问题. 本文的目标,是让读者了解,生成验证码涉及的全部基础知识问题. 当然这里说的是比较简单的验证码. 真正符合要求的验证码,涉 ...
51Nod - 1127 最短的包含字符串
给出一个字符串,求该字符串的一个子串s,s包含A-Z中的全部字母,并且s是所有符合条件的子串中最短的,输出s的长度.如果给出的字符串中并不包括A-Z中的全部字母,则输出No Solution. Inp ...
【洛谷 P3648】 [APIO2014]序列分割（斜率优化）
题目链接假设有\(3\)段\(a,b,c\) 先切\(ab\)和先切\(bc\)的价值分别为 \(a(b+c)+bc=ab+bc+ac\) \((a+b)c+ab=ab+bc+ac\) 归纳一下可以 ...
php常用函数——数学函数
php常用函数——数学函数
分布式队列Celery入门
Celery 是一个简单.灵活且可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必需工具.它是一个专注于实时处理的任务队列,同时也支持任务调度.Celery 是语言无关的,虽然它是用 Py ...
vsftpd.log内容的意义
vsftpd日志(xferlog格式)的含义引用: Thu Mar 4 08:12:30 2004 1 202.114.40.242 37 /incoming/index.html a _ o a ...
HTML表格的基本操作
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xht ...
连接数据库：ERROR：The server time zone value '?й???????' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via the serverTimezone configuration prop
本打算在maven项目中配置mybatis试试看,想到mybatis如果不是在容器中运行,那么他的事务控制实际上可以使用的是jdbc的提交和回滚,这就要在pom.xml文件中配置mysql-conne ...

python 爬取世纪佳缘,经过js渲染过的网页的爬取

python 爬取世纪佳缘,经过js渲染过的网页的爬取的更多相关文章

随机推荐

热门专题