相信大家对于WebRequest 并不陌生,我们在C#中发请求的方式,就是创建一个WebRequest .那么如果我们想发一个请求到外网,比如国内上不了的一些网站,那么该怎么做呢? 其实WebRequest 已经帮我们想好了,WebRequest 独创了Proxy(不知道是不是独有的)模式,以下是部分代码,至于代理IP有兴趣的可以自己去网上搜索. 我这里用的是匿名代理,所以不需要凭据,这点要说明一下,有些代理是要账号名和密码的. System.Net.WebRequest req = Syste…
外连接抓取能限制执行SQL语句的次数来提高效率,这种外连接抓取通过在单个select语句中使用outer join来一次抓取多个数据表的数据. 外连接抓取允许在单个select语句中,通过@ManyToOne.@OneToMany.@ManyToMany和@OneToOne等关联获取连接对象的整个对象图. 将hibernate.max_fetch_depth 设为0,将在全局范围内禁止外连接抓取,设为1或更高值能启用N-1或1-1的外连接抓取.除此之外,还应该在持久化注解中通过fetch=Fet…
去年底用 多线程+HtmlAgilityPack.dll 写了一个抓取“慧聪网” 公司信息的小程序,代码惨不忍赌.好在能抓到数据,速度也能让人忍受就很久没管了. 最近这段时间把这个小程序发给同事看着玩,没想到他老感兴趣了.然后写了一个抓“新浪微博”个人资料的小程序,由于用正则表达式,代码精简不少,效率也很高,顿时觉得有种挫败感啊. 于是不懂正则的我决定学习下正则,顺便学习一下线程池的用法.  没有用正则和线程池之前,我的代码是这样的. //下面这段代码使用HtmlAgilityPack写的,由于…
其实 web scraper 说到底就是那点儿东西,所有的网站都是大同小异,但是都还不同.这也是好多同学总是遇到问题的原因.因为没有统一的模板可用,需要理解了 web scraper 的原理并且对目标网站加以分析才可以. 今天再介绍一篇关于 web scraper 抓取数据的文章,除了 web scraper 的使用方式外,还包括一些简单的数据处理和分析.都是基础的不能再基础了. 选择这个网站一来是因为作为一个开发者在上面买了不少课,还有个原因就是它的专栏也比较有特点,需要先滚动加载,然后再点击…
爬虫大家或多或少的都应该接触过的,爬虫有风险,抓数需谨慎.  爬虫有的是抓请求,有的是抓网页再解析 本着研究学习的目的,记录一下在 .NET Core 下抓取数据的实际案例.爬虫代码一般具有时效性,当我们的目标发生改版升级,规则转换后我们写的爬虫代码就会失效,需要重新应对.抓取数据的主要思路就是去分析目标网站的页面逻辑,利用xpath.正则表达式等知识去解析网页拿到我们想要的数据. 本篇主要简单介绍三个组件的使用,HtmlAgilityPack.AngleSharp.PuppeteerSharp…
原文网址:http://blog.csdn.net/mzy202/article/details/32408223 蓝牙4.0BLE cc2540 usb-dongle的 SmartRF Packet Sniffer 抓取数据方法 [原创,多图] (只发布于csdn博客, 如需转载,请注明出处,谢谢! ) 蓝牙4.0的开发, 现在真热火的很, 但是很多朋友买了我们出品的cc2540 usb-dongle后, 都反馈说不知道如何抓包, 并且, 即使很多朋友到TI官网论坛去找信息,不少朋友依然是无功…
蓝牙4.0BLE cc2540 usb-dongle的 SmartRF Packet Sniffer 抓取数据方法 [原创,多图] spm=a1z10.1.w4004-5319414070.11.ZdQnRC&id=38095054083"> (仅仅公布于csdn博客, 如需转载,请注明出处,谢谢! ) 蓝牙4.0的开发, 如今真热火的非常. 可是非常多朋友买了我们出品的cc2540 usb-dongle后, 都反馈说不知道怎样抓包, 而且. 即使非常多朋友到TI官网论坛去找信息,…
[转] C# 从需要登录的网站上抓取数据 背景:昨天一个学金融的同学让我帮她从一个网站上抓取数据,然后导出到excel,粗略看了下有1000+条记录,人工统计的话确实不可能.虽说不会,但作为一个学计算机的,我还是厚着脸皮答应了. . 刚开始想的是直接发送GET请求,然后再解析返回的html不就可以获取需要的信息吗?的确,如果是不需要登录的网站,这样可行,但对于这个网站就行不通.所以首先我们需要做的就是抓包,即分析用户登录时浏览器向服务器发送的POST请求.许多浏览器都自带抓包工具,但我还是更喜欢…
最近公司安排给我一个任务,抓取页面数据:http://survey.finance.sina.com.cn/static/20205/20131120.html?pid=20205&dpc=1,身为一个前端,还没搞过后台的东西,硬着头皮接下之后,就到网上各种找方法了.最终找到一个nodejs的方法,经过实践之后,觉得非常好用,所以分享给大家.此教程从0开始 ,适用于从来还没接触过nodejs的童鞋!1.先下载 nodejs,这个不多说,然后双击安装文件安装.下载地址:http://www.nod…
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一个jsoup的jar包,我用的1.6.0..下载地址为:http://pan.baidu.com/s/1mgqOuHa 1,获取网页内容(核心代码,技术有限没封装). 2,登录之后抓取网页数据(如何在请求中携带cookie). 3,获取网站的ajax请求方法(返回json). 以上这三点我就用一个类…