【R】爬虫案例

爬取豆瓣相册

library(RCurl)

library(XML)

myHttpheader <- c("User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",

                  "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",

                  "Accept-Language"="en-us",

                  "Connection"="keep-alive",

                  "Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7")

ye<-c(1,seq(18,630,18))

info<-NULL

for(i in ye){

  url<-paste("https://www.douban.com/photos/album/50903114/?start=",i,sep="")

  web<-getURL(url,httpheader=myHttpheader)

  doc<- htmlTreeParse(web,encoding="UTF-8", error=function(...){}, useInternalNodes = TRUE,trim=TRUE)

  node<-getNodeSet(doc, "//div[@class='photo_wrap']/a")

  info=c(info,sapply(node,xmlGetAttr,"href"))

}

x<-1

dir.create("./image1/")

for(urlweb in info){

  web1<-getURL(urlweb,httpheader=myHttpheader)

  doc1<- htmlTreeParse(web1,encoding="UTF-8", error=function(...){}, useInternalNodes = TRUE,trim=TRUE)

  node1<-getNodeSet(doc1, "//div[@class='photo-edit']/a")

  info1=sapply(node1,xmlGetAttr,"href")

  web2<-getURL(info1,httpheader=myHttpheader)

  doc2<- htmlTreeParse(web2,encoding="UTF-8", error=function(...){}, useInternalNodes = TRUE,trim=TRUE)

  node2<-getNodeSet(doc2, "//td[@id='pic-viewer']/a/img")

  info2=sapply(node2,xmlGetAttr,"src")

  y<-paste("./image1/",x,".jpg")

  tryCatch({

    download.file(info2,y,mode="wb")

    x<-x+1},error=function(e){

      cat("ERROR:",conditionMessage(e),"\n")

      print("loser")})

}

【R】爬虫案例的更多相关文章

Golang - 爬虫案例实践
目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践 1. 爬虫步骤明确目标(确定在哪个网址搜索) 爬(爬下数据) 取(去掉没用 ...
Python 简单爬虫案例
Python 简单爬虫案例 import requests url = "https://www.sogou.com/web" # 封装参数 wd = input('enter a ...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...
支持向量机（SVM）理论总结系列.线性可分（附带R程序案例：用体重和心脏重量来预测一只猫的性别）
附注:不要问我为什么写这么快,是16年写的. 1.名词解释支持向量机中的机:在机器学习领域,常把一些算法看做一个机器,如分类机(也叫作分类器) 2.问题描述空间中有很多已知类别的点,现在想用一个面 ...
java爬虫案例学习
最近几天很无聊,学习了一下java的爬虫,写一些自己在做这个案例的过程中遇到的问题和一些体会1.学习目标练习爬取京东的数据,图片+价格+标题等等 2.学习过程 1·开发工具 ...
Python网络爬虫案例（二）——爬取招聘信息网站
利用Python,爬取 51job 上面有关于 IT行业的招聘信息版权声明:未经博主授权,内容严禁分享转载案例代码: # __author : "J" # date : 20 ...
R爬虫实战1（学习）—基于RVEST包
这里用Hadley Wickham开发的rvest包.再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖. 查阅资料如下: rvest的github rvest自身的帮助文档 rvest + CSS ...
【Python爬虫案例学习】下载某图片网站的所有图集
前言其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. 其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行. 基本环境配置 python 版本:2.7 ...
scrapy爬虫案例--爬取阳关热线问政平台
阳光热线问政平台:http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1 爬取最新问政帖子的编号.投诉标题.投诉内容以 ...

随机推荐

spring源码分析（二）- 容器基础
1.基本用法用过Spring的都知道,bean是Spring中最基础也是最核心的.首先看一个简单的例子. 一个类和一个配置文件 package bean; public class MyBean { ...
Beta Scrum Meeting汇总
第0次Alpha Scrum Meeting 第1次Alpha Scrum Meeting 第2次Alpha Scrum Meeting 第3次Alpha Scrum Meeting 第4次Alpha ...
[no code][scrum meeting] Alpha 10
项目内容会议时间 2020-04-16 会议主题用户管理第一版交付会议时长 15min 参会人员 PM+后端组成员 $( "#cnblogs_post_body" ).ca ...
Asp.Net 熟悉 Spring
注:(为加强记忆,所以记录下来,对于有些地方为什么那样写,我也不太理解) 一.我们先创建个窗体应用程序Demos,事先熟悉它是这么实现的第一步,先在项目的根目录下建一个library文件夹,目的是放 ...
Spark面试题整理（三）
1.为什么要进行序列化序列化? 可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU. 2.Yarn中的container是由谁负责销毁的,在Hadoop ...
对JavaScript中局部变量、全局变量和闭包的理解
对js中局部变量.全局变量和闭包的理解局部变量对于局部变量,js给出的定义是这样的:在 JavaScript函数内部声明的变量(使用 var)是局部变量,所以只能在函数内部访问它.(该变量的作用域 ...
hdu 5183 Negative and Positive (NP)（STL-集合【HASH】）
题意: When given an array (a0,a1,a2,⋯an−1) and an integer K, you are expected to judge whether there i ...
Java 中 List 分片的 5 种方法！
前些天在实现 MyBatis 批量插入时遇到了一个问题,当批量插入的数据量比较大时,会导致程序执行报错,如下图所示: 原因是 MySQL 只能执行一定长度的 SQL 语句,但当插入的数据量较多时,会生 ...
AC-DCN ESXi
传统IT架构中的网络,根据业务需求部署上线以后,如果业务需求发生变动,重新修改相应网络设备(路由器.交换机.防火墙)上的配置是一件非常繁琐的事情.在互联网/移动互联网瞬息万变的业务环境下,网络的高稳定 ...
Apache Solr应用服务器存在远程代码执行漏洞👻
Apache Solr应用服务器存在远程代码执行漏洞 1.描述 Apache Solr是一个开源的搜索服务,使用Java语言开发,主要基于HTTP和Apache Lucene实现的. Solr是一个高 ...

【R】爬虫案例

【R】爬虫案例的更多相关文章

随机推荐

热门专题