爬虫实现(hpricot)

1.基本代码

在gemfile中加入gem "hpricot"，bundler install之后，在application。rb中require "hpricot" require "open-uri".

 pp "===========begin============="

 url = "http://www.xiaochuncnjp.com/search.php?mod=forum&searchid=552&orderby=lastpost&ascdesc=desc&searchsubmit=yes&kw=%E6%90%AC%E5%AE%B6"

 doc = Hpricot(open(url))

 # 获取返回页面的编码，使用了gem rchardet。

 cd = CharDet.detect(doc.to_s)

 pp encoding = cd["encoding"]

 # pp doc.search("ul/.pbw")  #获取返回页面ul标签下class为pbw的元素

 doc.search("ul/.pbw").each do |item|

   # pp timeStr = item.inner_html

   pp titleStr = item.search("h3/a").inner_html

   pp urlStr = item.search("h3").inner_html.to_s.gsub(/href="/, 'href="http://www.xiaochuncnjp.com/')

   pp contentStr = item.search("p")[1].inner_html

 end

 pp "************end***********"

2。当链接的协议为https时，报certificate verify failed error，无法通过认证的错误。

https是安全协议，要通过验证可以add this ssl_verify option to the top of the file.来解决

FROM:

 module OpenURI

  Options = {

    :proxy => true,

    :progress_proc => true,

    :content_length_proc => true,

    :http_basic_authentication => true,

  }

 TO:

 module OpenURI

  Options = {

    :proxy => true,

    :progress_proc => true,

    :content_length_proc => true,

    :http_basic_authentication => true,

    :ssl_verify => true

  }

 Change the part where it enables verification

 FROM:

    if target.class == URI::HTTPS

      require 'net/https'

      http.use_ssl = true

      http.enable_post_connection_check = true

      http.verify_mode = OpenSSL::SSL::VERIFY_PEER

      store = OpenSSL::X509::Store.new

      store.set_default_paths

      http.cert_store = store

    end

 TO:

    if target.class == URI::HTTPS

      require 'net/https'

      http.use_ssl = true

      http.enable_post_connection_check = true

      if options[:ssl_verify] == false

        http.verify_mode = OpenSSL::SSL::VERIFY_NONE

      else

        http.verify_mode = OpenSSL::SSL::VERIFY_PEER

      end

      store = OpenSSL::X509::Store.new

      store.set_default_paths

      http.cert_store = store

    end

 run it like this:

 open("https://someurl", :ssl_verify => false) {|f|

  print f.read

 }

3.页面乱码

由于网页的编码方式不同意，当你摘录信息的时候，很容易出现乱码。因此，你需要根据网页的编码方式转换编码。这个过程使用到了rchardet插件。

4.rchardet的使用

在gemfile中加入gem "rchardet"，bundler install之后，在application。rb中require "rchardet".

cd = CharDet.detect(some_data)

  encoding = cd['encoding']

  confidence = cd['confidence'] # 0.0 <= confidence <= 1.0

  eg: CharDet.detect("\xA4\xCF")  #=>  {"encoding"=>"EUC-JP", "confidence"=>0.99}

爬虫实现(hpricot)的更多相关文章

设计爬虫Hawk背后的故事
本文写于圣诞节北京下午慵懒的午后.本文偏技术向,不过应该大部分人能看懂. 五年之痒 2016年,能记入个人年终总结的事情没几件,其中一个便是开源了Hawk.我花不少时间优化和推广它,得到的评价还算比较 ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
scrapy爬虫docker部署
spider_docker 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/Liu ...
scrapy 知乎用户信息爬虫
zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧.代码地 ...
120项改进：开源超级爬虫Hawk 2.0 重磅发布！
沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇 ...
Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
QQ空间动态爬虫
作者:虚静链接:https://zhuanlan.zhihu.com/p/24656161 来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 先说明几件事: 题目的意 ...

随机推荐

position containing block原点
如果元素有属性 'position:absolute',containing block 由最近的 position 不是 static 的祖先建立,按下面的步骤: 1.如果祖先是块级元 ...
51nod1265四点共面
1265 四点共面基准时间限制:1 秒空间限制:131072 KB 分值: 0 难度:基础题给出三维空间上的四个点(点与点的位置均不相同),判断这4个点是否在同一个平面内(4点共线也算共面).如 ...
web一次请求的流程
1.客户端(浏览器输入网址)请求 2.发送http协议到web服务器(nginx),检测请求类别,如果时纯静态页面,则返响应返回给客户端. 3.如果有动态脚本(php语法)启动fastcgi进程,用解 ...
《C和指针》读书笔记 -- 第7章函数
1.当程序调用一个无法见到原型的函数时,编译器便认为该函数返回一个整型值.如果这个值实际上是非整型值时,还得执行类型转换,所以函数原型声明有时很重要. 2.值的类型并不是值的内在本质,而是取决于它被使 ...
poj 3518 Corporate Identity 后缀数组->多字符串最长相同连续子串
题目链接题意:输入N(2 <= N <= 4000)个长度不超过200的字符串,输出字典序最小的最长公共连续子串; 思路:将所有的字符串中间加上分隔符,注:分隔符只需要和输入的字符不同, ...
让<未将对象引用到实例>见鬼去吧！
未将对象引用到实例,即NullReferenceException异常,我相信这是c#编程中最常见的错误之一,至少我在做项目的过程中,有很多时候都会抛出这个异常.每当这个异常出现的时候,我都会头皮一紧 ...
论文阅读（2014-2）----The YouTube Video Recommendation System
这是谷歌youtube在2010的一篇文章,估计现在的思路有很多升级了,但是里面的知识点还是很不错的.主要讲youtube的个性化推荐思路.下面根据论文的结构我把我理解的思路整理如下,如果有问题,欢迎 ...
在openwrt上初体验PostgreSQL数据库
要求请确保在你的路由器shell 中有以下这些命令 adduser, deluser, addgroup, delgroup, su . 还需要熟悉su,chown ,opkg,mkdir,服务操作 ...
1017: [JSOI2008]魔兽地图DotR - BZOJ
Description DotR (Defense of the Robots) Allstars是一个风靡全球的魔兽地图,他的规则简单与同样流行的地图DotA (Defense of the Anc ...
jasper ireport create a report with parameters without sql query
I'm new in jasper ireport , and I want to know if it is possible to create a report only with static ...

爬虫实现(hpricot)

爬虫实现(hpricot)的更多相关文章

随机推荐

热门专题