R语言爬虫:穿越表单
使用rvest包实现实现穿越表单以及页面的跳转
formurl <- "http://open.xmu.edu.cn/oauth2/authorize?client_id=1010&response_type=code"
session <- html_session(formurl)
#创建会话
form <- html_form(session)
#得到网页内的所有表单,以list形式返回
str(form)
form <- form[[1]]
#提取我们想要的表单
UserName <- "*******" #这里填写你自己的学号
Password <- "*******" #这里把password替换成你自己的密码
form <- set_values(form,'UserName'=UserName,'Password'=Password)
#填写表单内容
out_url <- submit_form(session,form,submit=NULL)
#在会话中提交表单,实现表单穿越
class(out_url)
session2 <- follow_link(out_url,'Advanced Econometrics')
course.info <- session2 %>% html_nodes("ul.section") %>% html_text()
#爬取属性为section的ul节点,获取其下面列表的所有文本内容
cat(course.info[1])
R语言爬虫:穿越表单的更多相关文章
- R语言爬虫初尝试-基于RVEST包学习
		注意:这文章是2月份写的,拉勾网早改版了,代码已经失效了,大家意思意思就好,主要看代码的使用方法吧.. 最近一直在用且有维护的另一个爬虫是KINDLE 特价书爬虫,blog地址见此: http://w ... 
- 给社团同学做的R语言爬虫分享
		大家好,给大家做一个关于R语言爬虫的分享,很荣幸也有些惭愧,因为我是一个编程菜鸟,社团里有很多优秀的同学经验比我要丰富的多,这次分享是很初级的,适用于没有接触过爬虫且有一些编程基础的同学,内容主要有以 ... 
- 简单R语言爬虫
		R爬虫实验 R爬虫实验 PeRl 简单的R语言爬虫实验,因为比较懒,在处理javascript翻页上用了取巧的办法. 主要用到的网页相关的R包是: {rvest}. 其余的R包都是常用包. libra ... 
- R 语言爬虫 之 cnblog博文爬取
		Cnbolg Crawl a). 加载用到的R包 ##library packages needed in this case library(proto) library(gsubfn) ## Wa ... 
- 【Python3爬虫】当爬虫碰到表单提交,有点意思
		一.写在前面 我写爬虫已经写了一段时间了,对于那些使用GET请求或者POST请求的网页,爬取的时候都还算得心应手.不过最近遇到了一个有趣的网站,虽然爬取的难度不大,不过因为表单提交的存在,所以一开始还 ... 
- Selenium常用API的使用java语言之13-多表单切换
		在 Web 应用中经常会遇到 frame/iframe 表单嵌套页面的应用, WebDriver 只能在一个页面上对元素识别与 定位, 对于 frame/iframe 表单内嵌页面上的元素无法直接定位 ... 
- R语言爬虫 rvest包  html_text()-html_nodes() 原理说明
		library(rvest) 例子网页:http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=010000% ... 
- R语言爬虫:使用R语言爬取豆瓣电影数据
		豆瓣排名前25电影及评价爬取 url <-'http://movie.douban.com/top250?format=text' # 获取网页原代码,以行的形式存放在web 变量中 web & ... 
- R语言爬虫:爬取百度百科词条
		抓取目标:抓取花儿与少年的百度百科中成员信息 url <- "http://baike.baidu.com/item/%E8%8A%B1%E5%84%BF%E4%B8%8E%E5%B0 ... 
随机推荐
- 解决yii2.0里url重写引用js路径问题(@web/的用法)
			在实际项目中,为了seo优化,使用了伪静态,开启了url重写 
- 有时间,可以研究哈redis的源代码
			1 2 3 4 留位,以后自己用! 
- 如何给Docker hub用户上传头像
			我第一次使用Docker hub时,觉得很奇怪,这个网站上面没有允许用户上传头像的地方. 后来经过研究才发现,需要用在Docker hub上注册用户的同一个邮箱到Gravatar这个网站上再注册一个账 ... 
- 记一次挖掘115网盘反射型xss,08xss的储存型xss
			记一次对115分站简单绕过过滤继续实现xss,08xss平台也中枪!! 115反射型xss url:http://115.qiye.115.com/disk/?ac=select_public_fil ... 
- Linux修改权限命令chmod用法详解
			Linux系统中的每个文件和目录都有访问许可权限,用它来确定谁可以通过何种方式对文件和目录进行访问和操作. 文件或目录的访问权限分为只读,只写和可执行三种.以文件为例,只读权限表示只允许读其内容,而禁 ... 
- linux一切皆文件之文件描述符
			一.知识准备 1.在linux中,一切皆为文件,所有不同种类的类型都被抽象成文件.如:普通文件.目录.字符设备.块设备.套接字等2.当一个文件被进程打开,就会创建一个文件描述符.这时候,文件的路径就成 ... 
- hdu1113 Word Amalgamation(详解--map和string的运用)
			版权声明:本文为博主原创文章.未经博主同意不得转载. vasttian https://blog.csdn.net/u012860063/article/details/35338617 转载请注明出 ... 
- ARM  内核 汇编指令 的   8种 寻址方式
			str: store register ->指令将寄存器内容存到内存空间中, ldr: load register 将内存内容加载到通用寄存器, ldr/str 组合来实现ARM CPU 和内 ... 
- Relay  GraphQL理解
			Relay是构建数据驱动 React 应用的js框架. Relay:特性一.声明式:不再使用一个命令式API与数据存储通讯.而是简单的使用RraphQL声明组件数据需求,让Relay理解如何及什么时候 ... 
- STL中sort、priority_queue、map、set的自定义比较函数
			STL中,sort的默认排序为less,也就是说从小到大排序:priority_queue默认是less,也就说大顶堆:map默认是less,也就说用迭代器迭代的时候默认是小的排在前面:set默认是l ... 
