最近研究了下如何抓取为知笔记的内容,在抓取笔记里的图片内容时,老是提示403错误,用Chorme的开发者工具看了下:

这里的Cookie来自两个域,估计为知那边是验证了token(登录后才能获取到token)

下载图片的代码:

  1. var path = "https://note.wiz.cn/" + str.TrimStart('/');
  2. var extension = Path.GetExtension(path);
  3. var filepath = AppPath.Combine("Images/" + DateTime.Now.Ticks + extension);
  4. const string userAgent ="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.76 Safari/537.36";
  5. const string accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";
  6. const string acceptLanguage = "zh-CN,zh;q=0.8";
  7. const string acceptEncoding = "gzip,deflate,sdch";
  8. var cookieContainer = new CookieContainer();
  9. var cookie = new Cookie
  10. {
  11. Name = "token".Trim(),
  12. Value = Token,
  13. Domain = ".wiz.cn".Trim() //设置cookie域
  14. };
  15. cookieContainer.Add(cookie);
  16. string[] cookiesArr = txtCookie.Text.Split(';');
  17. foreach (string s in cookiesArr)
  18. {
  19. string[] keyValuePair = s.Split('=');
  20. if (keyValuePair.Length > 1)
  21. {
  22. cookie = new Cookie
  23. {
  24. Name = keyValuePair[0].Trim(),
  25. Value = keyValuePair[1].Trim(),
  26. Domain = "note.wiz.cn" //设置cookie域
  27. };
  28. cookieContainer.Add(cookie);
  29. }
  30. }
  31. var newUri = new Uri(path);
  32. var webRequest = (HttpWebRequest)WebRequest.Create(newUri);
  33. webRequest.Timeout = 20000;
  34. //webRequest.CookieContainer = cookieContainer;
  35. webRequest.UserAgent = userAgent;
  36. webRequest.Accept = accept;
  37. webRequest.Headers["Accept-Language"] = acceptLanguage;
  38. webRequest.Headers["Accept-Charset"] = acceptEncoding;
  39. webRequest.Headers["Accept-Encoding"] = acceptEncoding;
  40. webRequest.KeepAlive = true;
  41. webRequest.Headers["Cache-Control"] = "no-cache";
  42. webRequest.Headers["Upgrade-Insecure-Requests"] = "1";
  43. webRequest.Headers["Pragma"] = "no-cache";
  44. webRequest.Headers["Cookie"] = "token=" + Token + ";" + txtCookie.Text.Trim();//todo: Cookie 要这样赋值,不能用CookieContainer??
  45. webRequest.Referer = newUri.AbsoluteUri;
  46. HttpWebResponse rsp = (HttpWebResponse)webRequest.GetResponse();
  47. Stream stream = null;
  48. stream = rsp.GetResponseStream();
  49. Image.FromStream(stream).Save(filepath);
  50. // 释放资源
  51. if (stream != null) stream.Close();
  52. if (rsp != null) rsp.Close();

奇怪的是:用 webRequest.CookieContainer = cookieContainer; 来跟cookie赋值,token参数总是赋不上,

后面改为:webRequest.Headers["Cookie"] = "token=" + Token + ";" + txtCookie.Text.Trim(); 就可以了,

CookieContainer 不是支持多个域的cookie吗,难到跨域Cookie只能webRequest.Headers["Cookie"]这样赋值吗? 没弄明白,有知道的童鞋不吝赐教。

C# webrequest 抓取数据时,多个域Cookie的问题的更多相关文章

  1. jsoup使用样式class抓取数据时空格的处理

    最近在研究用android和jsoup抓取小说数据,jsoup的使用可以参照http://www.open-open.com/jsoup/;在抓纵横中文网永生这本书的目录内容时碰到了问题, 永生的书简 ...

  2. C# 从需要登录的网站上抓取数据

    [转] C# 从需要登录的网站上抓取数据 背景:昨天一个学金融的同学让我帮她从一个网站上抓取数据,然后导出到excel,粗略看了下有1000+条记录,人工统计的话确实不可能.虽说不会,但作为一个学计算 ...

  3. Java模拟新浪微博登陆抓取数据

    前言:  兄弟们来了来了,最近有人在问如何模拟新浪微博登陆抓取数据,我听后默默地抽了一口老烟,暗暗的对自己说,老汉是时候该你出场了,所以今天有时间就整理整理,浅谈一二. 首先:  要想登陆新浪微博需要 ...

  4. 测试开发Python培训:抓取新浪微博抓取数据-技术篇

    测试开发Python培训:抓取新浪微博抓取数据-技术篇   poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...

  5. C#抓取数据、正则表达式+线程池初步运用

    去年底用 多线程+HtmlAgilityPack.dll 写了一个抓取“慧聪网” 公司信息的小程序,代码惨不忍赌.好在能抓到数据,速度也能让人忍受就很久没管了. 最近这段时间把这个小程序发给同事看着玩 ...

  6. PHP Curl模拟登录并抓取数据

    使用PHP的Curl扩展库可以模拟实现登录,并抓取一些需要用户账号登录以后才能查看的数据.具体实现的流程如下(个人总结): 1. 首先需要对相应的登录页面的html源代码进行分析,获得一些必要的信息: ...

  7. 爬虫学习笔记(1)-- 利用Python从网页抓取数据

    最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...

  8. Web Scraper 翻页——控制链接批量抓取数据

    ![](https://image-1255652541.cos.ap-shanghai.myqcloud.com/images/20190708214014.png) 这是简易数据分析系列的第 5 ...

  9. Web Scraper 翻页——控制链接批量抓取数据(Web Scraper 高级用法)| 简易数据分析 05

    这是简易数据分析系列的第 5 篇文章. 上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据 ...

随机推荐

  1. Anaconda+django写出第一个web app(八)

    今天来实现网站的登入和登出功能. 首先我们需要在urls.py中添加路径,注意此处的路径和在导航栏中设置的文字路径保持一致: from django.urls import path from . i ...

  2. vue中,写在methods里的B方法去调A方法的数据,访问不到?

    今天在写项目的时候,发现了一个京城性忽略的问题,在vue的methods的方法里面定义了两个方法,如下: getTaskList() { api.growthDetails.taskList({ ap ...

  3. sql 跨服务器查询数据

    方法一:用OPENDATASOURCE [SQL SERVER] 跨服务器查询 --1 打开 reconfigure reconfigure SELECT * FROM OPENDATASOURCE( ...

  4. jmeter的环境配置

    工具/原料   WIN7 Jmeter安装包 JDK 一.安装JDK   1 [步骤一]安装jdk 1.下载jdk,到官网下载jdk,地址:http://www.oracle.com/technetw ...

  5. linux笔记_day09

    1.运算器.控制器.存储器.输入输出(IO) 地址总线:内存寻址 数据总线:传输数据 控制总线:控制指令 寄存器:cpu暂时存储器 2.系统设定 默认输出设备:标准输出,STDOUT,1(描述符)(显 ...

  6. linux网络配置原理

    一.网络连接的基本原理 http://www.cnblogs.com/dyllove98/archive/2013/08/06/3241294.html

  7. Python学习系列之(二)图解Windows8.1下安装Django

    一. 下载 去官网下载https://www.djangoproject.com/download/最新版,最新版本是1.6 二. 安装: 将下载下来的Django-1.6.tar.gz解压到D盘,接 ...

  8. PHP isset()、empty()、is_null()的使用区别详解

    PHP的isset()函数 一般用来检测变量是否设置 格式:bool isset ( mixed var [, mixed var [, ...]] ) 功能:检测变量是否设置 返回值: 若变量不存在 ...

  9. CI框架中自带的加密解密如何应用

    首先我们找到配置文件application/config/config.php  ,找到如下代码: ? 1 $config['encryption_key'] = "YOUR KEY&quo ...

  10. 在idea中关闭vim模式

    每次在idea的文件中插入新的内容时,都需要先点击键盘上的i 进入插入模式,感觉这是vim编辑器的模式,很不习惯. 你可能是按照了vim emulation 插件, 在setting-----plug ...