看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）

这里只是学习一下动态加载页面内容的抓取，并不适用于所有的页面。

使用到的工具就是python selenium和phantomjs，另外调试的时候还用了firefox的geckodriver.exe。

首先学习了下怎么在firefox中动态调试内容和抓取元素，这个其实在网页自动化测试中相当实用，想想测试同学每天重复点击业务页面和输入内容得有多痛苦吧。

一开始进展十分不顺利，因为phantomjs和firefox的调试加载的动态内容都不能在源码中有任何的体现，只能找出第一次get页面的内容，条目就30条左右，各种下拉加载，各种研究源码，均以失败告终。

最终我用chrome的开发工具找到了页面内容加载的api地址：

https://www.csdn.net/api/articles?type=more&category=home&shown_offset=0

后边就好办了，先用phantom加载首页，然后去访问api地址，这样循环访问，直到api的status为false，首页推荐的底裤就基本上扒掉了……

代码如下：

# coding=utf8

import json

import os

import sys

from selenium import webdriver

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

reload(sys)

sys.setdefaultencoding("utf-8")

if os.path.exists("csdn_home.txt"):

    os.remove("csdn_home.txt")

    print "csdn_home.txt removed"

dcap = dict(DesiredCapabilities.PHANTOMJS)

dcap[

    "phantomjs.page.settings.userAgent"] = "Mozilla / 5.0 (Windows NT 10.0 Win64 x64) AppleWebKit / 537.36 (KHTML, like Gecko) Chrome / 63.0.3 239.132 Safari / 537.36"

br = webdriver.PhantomJS()

br.get("https://www.csdn.net/")

data = br.find_elements_by_xpath('//ul/li[@class="clearfix"]/div/h2/a')

print len(data)

with open("csdn_home.txt", "a") as f:

    for title in data:

        print title.text

        f.write(title.text + '\n')

        print title.get_attribute('href')

        f.write(title.get_attribute('href') + '\n')

    while True:

        br.get("https://www.csdn.net/api/articles?type=more&category=home&shown_offset=0")

        data = json.loads(br.find_element_by_xpath('//pre').text)

        if data["status"] == "false":

            break

        else:

            for i in data["articles"]:

                print i["title"]

                f.write(i["title"] + '\n')

                print i["url"]

                f.write(i["url"] + '\n')

f.close()

br.quit()  # 退出phantomjs，否则phantomjs会一直留有进程，占用cpu和内存

看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）的更多相关文章

[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...
Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118
上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手 1.爬取的单页面还是这个rooturl:http://blog.csd ...
Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114
年前有点忙,没来的及更博,最近看爬虫正则的部分巩固下 1.爬取的单页面:http://blog.csdn.net/column/details/why-bug.html 2.过程解析url获得网站 ...
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
使用Jsoup 爬取网易首页所有的图片
package com.enation.newtest; import java.io.File; import java.io.FileNotFoundException; import java. ...
Java爬虫实践--爬取CSDN网站图片为例
实现的效果,自动在工程下创建Pictures文件夹,根据网站URL爬取图片,层层获取.在Pictures下以网站的层级URL命名文件夹,用来装该层URL下的图片.同时将文件名,路径,URL插入数据库, ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
Hello Python!用 Python 写一个抓取 CSDN 博客文章的简单爬虫
网络上一提到 Python,总会有一些不知道是黑还是粉的人大喊着:Python 是世界上最好的语言.最近利用业余时间体验了下 Python 语言,并写了个爬虫爬取我 csdn 上关注的几个大神的博客, ...
windows版爬取csdn
use LWP::UserAgent; use POSIX; use HTML::TreeBuilder::XPath; use Encode; use HTML::TreeBuilder; open ...

随机推荐

ubuntu server 启用mysql日志
1.要启动mysql日志,你就要找到mysql 核心的文件my.cnf (路径:/etc/mysql) 在命令窗口输入:cd /etc/mysql 在命令窗口输入:ls 你就可以看到my.cnf文件 ...
[NOIP 2014TG D1T3] 飞扬的小鸟
题目描述 Flappy Bird 是一款风靡一时的休闲手机游戏.玩家需要不断控制点击手机屏幕的频率来调节小鸟的飞行高度,让小鸟顺利通过画面右方的管道缝隙.如果小鸟一不小心撞到了水管或者掉在地上的话,便 ...
二十三、Spring框架的相关知识点总结
1.Spring的优点: 1.1.Spring在大小和透明性方面是轻量级的,Spring框架大约只有2MB大小. 1.2.控制反转(IOC):使用控制反转技术实现了低耦合,依赖注入(DI)到对象,而不 ...
33 个 2017 年必须了解的 iOS 开源库
本文翻译自Medium,原作者为Pawe? Bia?ecki 照片版权:(Unsplash/Markus Pe) 你好,iOS 开发者们!我的名字叫 Pawe?,我是一个独立 iOS 开发者,并且是 ...
JTA 使用 MySQL 分布式事务
假定在MySQL实例1上有表 create table person( id int, name ) ) MySQL实例2上也有一张同样的表,现在从实例1中的 person 表中删除一条数据,并把这条 ...
使用MongoDB数据库（1）（三十五）
MongoDB简介 MongoDB是一个基于分布式文件存储的数据库,它是一个介于关系数据库和非关系数据库之间的产品,其主要目标是在键/值存储方式(提供了高性能和高度伸缩性)和传统的RDBMS系统(具有 ...
kiss word memory post poly peri out ~p 4
1● post p əust 在后面,邮件 2● peri 多 3● poly 周围,靠近
Object转Integer，String
object先转为字符串,然后通过int 的封装类(Integer)的pasreInt()方法转为int 例如: Object ob = 123; Integer.parseInt(String.v ...
linux下/proc/diskstats文件详解
每一列的含义分别为: 第一列为设备号 (number of issued reads. This is the total number of reads completed successfull ...
css3 min-content，max-content，fit-content, fill属性
css3里有四个属性,用来实现以内容为主的尺寸计算方式,intrinsic sizing min-content max-content fit-content fill 其中 fill 关键字,需要 ...

看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）

看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）的更多相关文章

随机推荐

热门专题