爬虫实现(hpricot)

1.基本代码

在gemfile中加入gem "hpricot"，bundler install之后，在application。rb中require "hpricot" require "open-uri".

 pp "===========begin============="

 url = "http://www.xiaochuncnjp.com/search.php?mod=forum&searchid=552&orderby=lastpost&ascdesc=desc&searchsubmit=yes&kw=%E6%90%AC%E5%AE%B6"

 doc = Hpricot(open(url))

 # 获取返回页面的编码，使用了gem rchardet。

 cd = CharDet.detect(doc.to_s)

 pp encoding = cd["encoding"]

 # pp doc.search("ul/.pbw")  #获取返回页面ul标签下class为pbw的元素

 doc.search("ul/.pbw").each do |item|

   # pp timeStr = item.inner_html

   pp titleStr = item.search("h3/a").inner_html

   pp urlStr = item.search("h3").inner_html.to_s.gsub(/href="/, 'href="http://www.xiaochuncnjp.com/')

   pp contentStr = item.search("p")[1].inner_html

 end

 pp "************end***********"

2。当链接的协议为https时，报certificate verify failed error，无法通过认证的错误。

https是安全协议，要通过验证可以add this ssl_verify option to the top of the file.来解决

FROM:

 module OpenURI

  Options = {

    :proxy => true,

    :progress_proc => true,

    :content_length_proc => true,

    :http_basic_authentication => true,

  }

 TO:

 module OpenURI

  Options = {

    :proxy => true,

    :progress_proc => true,

    :content_length_proc => true,

    :http_basic_authentication => true,

    :ssl_verify => true

  }

 Change the part where it enables verification

 FROM:

    if target.class == URI::HTTPS

      require 'net/https'

      http.use_ssl = true

      http.enable_post_connection_check = true

      http.verify_mode = OpenSSL::SSL::VERIFY_PEER

      store = OpenSSL::X509::Store.new

      store.set_default_paths

      http.cert_store = store

    end

 TO:

    if target.class == URI::HTTPS

      require 'net/https'

      http.use_ssl = true

      http.enable_post_connection_check = true

      if options[:ssl_verify] == false

        http.verify_mode = OpenSSL::SSL::VERIFY_NONE

      else

        http.verify_mode = OpenSSL::SSL::VERIFY_PEER

      end

      store = OpenSSL::X509::Store.new

      store.set_default_paths

      http.cert_store = store

    end

 run it like this:

 open("https://someurl", :ssl_verify => false) {|f|

  print f.read

 }

3.页面乱码

由于网页的编码方式不同意，当你摘录信息的时候，很容易出现乱码。因此，你需要根据网页的编码方式转换编码。这个过程使用到了rchardet插件。

4.rchardet的使用

在gemfile中加入gem "rchardet"，bundler install之后，在application。rb中require "rchardet".

cd = CharDet.detect(some_data)

  encoding = cd['encoding']

  confidence = cd['confidence'] # 0.0 <= confidence <= 1.0

  eg: CharDet.detect("\xA4\xCF")  #=>  {"encoding"=>"EUC-JP", "confidence"=>0.99}

爬虫实现(hpricot)的更多相关文章

设计爬虫Hawk背后的故事
本文写于圣诞节北京下午慵懒的午后.本文偏技术向,不过应该大部分人能看懂. 五年之痒 2016年,能记入个人年终总结的事情没几件,其中一个便是开源了Hawk.我花不少时间优化和推广它,得到的评价还算比较 ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
scrapy爬虫docker部署
spider_docker 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/Liu ...
scrapy 知乎用户信息爬虫
zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧.代码地 ...
120项改进：开源超级爬虫Hawk 2.0 重磅发布！
沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇 ...
Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
QQ空间动态爬虫
作者:虚静链接:https://zhuanlan.zhihu.com/p/24656161 来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 先说明几件事: 题目的意 ...

随机推荐

httpc服务器错误类型大全
HTTP 400 - 请求无效HTTP 401.1 - 未授权:登录失败HTTP 401.2 - 未授权:服务器配置问题导致登录失败HTTP 401.3 - ACL 禁止访问资源HTTP 401.4 ...
HTML5如何重塑O2O用户体验
低频次垂直O2O服务应该继续开发原生APP吗?大家有没有发现做一个APP的推广成本和获取用户的成本越来越高?第二,用户安装APP之后,用户并不是经常点击使用APP的,那这是为什么?数据表明90%的O2 ...
SQL Server 2008 安装或卸载时提示“重启计算机失败"的解决办法（转）
安装或卸载SQL Server 遇到错误提示:以前的某个程序安装已在安装计算机上创建挂起的文件操作.运行安装程序之前必须重新启动计算机.如下图: 解决办法: 1.在开始->运行中输入regedi ...
php微信支付（仅pc端扫码支付模式二）详细步骤.----仅适合第一次做微信开发的程序员
本人最近做了微信支付开发,是第一次接触.其中走了很多弯路,遇到的问题也很多.为了让和我一样的新人不再遇到类似的问题,我把我的开发步骤和问题写出来,以供参考. 开发时间是2016/8/10,所以微信支付 ...
让Ecshop网店系统用户自动登陆
让Ecshop网店系统用户户自动登陆,打开ecshop includes/init.php文件,可以发现Ecshop系统判断用户的SESSION不存在的时候会去读取存储在COOKIES里面的值.如下代 ...
nginx如何实现404状态返回 200隐藏URL
以http://WWW.cnblogs.COM为例: server { listen 80; server_nam ...
制作输入框(Input)
怎样判断是否应当使用输入框输入框,就是用户可以自由输入文本的地方.当需要判断是否需要使用输入框时,可以遵循一条原则:凡是需要用户自主输入文本的地方,几乎都必须使用输入框. 输入框的常见用法:输入登录 ...
OData 集成
OData 集成文档目录本节内容: 简介安装安装Nuget包设置模块依赖配置你的实体创建控制器示例获取实体列表请求响应获取单个实体请求响应获取单个实体及导航属性请求响 ...
Critical Rendering Path
1.生成 dom & cssom https://developers.google.com/web/fundamentals/performance/critical-rendering-p ...
tableView的基本使用（改良版）
@interface ViewController ()<UITableViewDataSource, UITableViewDelegate> { int i;//用来计算接受通知的次数 ...

爬虫实现(hpricot)

爬虫实现(hpricot)的更多相关文章

随机推荐

热门专题