解决Jsoup网页抓取过程中需要cookie的问题

最近在做城觅网的信息抓取，发现城觅网上海与北京的url是一样的。那怎样才确定信息的来源呢？折腾了半天，才发现城觅网是使用cookie的，如果你把网站的cookie禁用了，就无法在上海与北京之间切换了。

于是便想到了请求时将cookie带上。方法如下：

第一步，拿到上海或者北京的cookie

Map<String, String> cookies = null;

Response res = Jsoup.connect("http://www.chengmi.com/shanghai").timeout(30000).execute();

cookies = res.cookies();

第二步，抓取网页信息时将cookie信息带上

Document doc = null;

doc = Jsoup.connect(url).cookies(cookies).timeout(30000).get();

这样就解决了抓取网页需要cookie的问题

解决Jsoup网页抓取过程中需要cookie的问题的更多相关文章

Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
Spider_基础总结6--动态网页抓取--selenium
# 有些网站使用 '检查元素'也不能够好使,它们会对地址进行加密,此时使用Selenium 调用浏览器渲染引擎可以模拟用户的操作,完成抓取: # 注:selenium既可以抓取静态网页也可以抓取动态网 ...
Java开源网页抓取工具httpClient以及jsoup
网上看到不错的Java网页抓取工具和库先记录一下使用java开源工具httpClient及jsoup抓取解析网页数据
scrapy 在爬取过程中抓取下载图片
先说前提,我不推荐在sarapy爬取过程中使用scrapy自带的 ImagesPipeline 进行下载,是在是太耗时间了最好是保存,在使用其他方法下载我这个是在 https://blog.csd ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Nutch学习笔记二——抓取过程简析
在上篇学习笔记中http://www.cnblogs.com/huligong1234/p/3464371.html 主要记录Nutch安装及简单运行的过程. 笔记中通过配置抓取地址http://b ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
通过Java进行网页抓取并生成plist创建代码
抓取网页的方法: 抓取网页可以通过正则表达式也可以通过Java. 通过firefox浏览器,安装Firebug来查看网页的源代码. 首先将要抓取的部分保存到本地,步骤如下: 1.在要抓取的位置右键,选 ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...

随机推荐

crud springmvc
实体类:Student.java package demo.entity; public class Student { private int id; private String name; pr ...
spring @resource @ Autowired
Spring中什么时候用@Resource,什么时候用@service 当你需要定义某个类为一个bean,则在这个类的类名前一行使用@Service("XXX"),就相当于讲这个类 ...
android2.3 -添加自定义按键：作唤醒功能 .
最近需要做个唤醒功能,当按键的时候android系统唤醒并点亮屏,在长按键中,系统不能在进入睡眠. 驱动方面: 1:在平台设备文件中添加一个按键,定义为唤醒源! \arch\arm\mach-s5p ...
**CI两种方式查询所返回的结果数量
区别:第一个是有条件的:第二个没有条件 $this->db->count_all_results(); 允许你获得某个特定的Active Record查询所返回的结果数量.可以使用Acti ...
Fragment 与 Activity 通信
先说说背景知识: (From:http://blog.csdn.net/t12x3456/article/details/8119607) 尽管fragment的实现是独立于activity的,可以被 ...
lintcode : 二叉树的最小深度
题目: 二叉树的最小深度给定一个二叉树,找出其最小深度. 二叉树的最小深度为根节点到最近叶子节点的距离. 样例给出一棵如下的二叉树: 1 / \ 2 3 / \ 4 ...
Hibernate逍遥游记-第12章映射值类型集合-003映射List(<list-index>)
1. <?xml version="1.0"?> <!DOCTYPE hibernate-mapping PUBLIC "-//Hibernate/Hi ...
为什么国外程序员爱用Mac?
Mac 在国外很受欢迎,尤其是在设计/web开发/IT 人员圈子里.普通用户喜欢 Mac 可以理解,毕竟 Mac 设计美观,简单好用,没有病毒.那么为什么专业人士也对 Mac 情有独钟呢?从个人使用 ...
context:component-scan扫描使用上的容易忽略的use-default-filters
问题如下方式可以成功扫描到@Controller注解的Bean,不会扫描@Service/@Repository的Bean.正确 <context:component-scan base-pa ...
alias 命令
功能说明:设置指令的别名. 语法:alias[别名]=[指令名称] 参数 :若不加任何参数,则列出目前所有的别名设置. 举例 :ermao@lost-desktop:~$ alias ...

解决Jsoup网页抓取过程中需要cookie的问题

解决Jsoup网页抓取过程中需要cookie的问题的更多相关文章

随机推荐

热门专题