之前用php写过一个爬虫,同样是获取局域网的网站数据,这次我使用相同的网络环境,更低的电脑配置,使用ruby来再次爬虫,惊人的发现ruby使用自带的类库net/http爬取速度要远远超过php的curl_*函数。在循环爬取网页时,ruby的cpu占用率上达到了40-70%,而php仅仅使用了可怜的5-10%,目前还不知这其中的奥秘,理论上都是使用的单线程,差距这么大是解释器还是类库的差距呢?

不管了,以后再做性能测试,简单说一下过程。

安装两个包

gem install mysql2

gem install nokogiri

导入三个相当必要的包

require 'net/http'
require 'mysql2'
require 'nokogiri'
  1. net/http相当于php的curl函数,可以实现http请求,模拟浏览器一样的请求,发送给http服务器得到返回数据。
  2. mysql2,mysql连接,相当于java的jdbc,实现数据库读写
  3. nokogiri,这是一个html的dom解析类库,可以快速的解析html,获得节点下的属性,文本,子节点等

开始

完整代码

require 'net/http'
require 'mysql2'
require 'nokogiri' client = Mysql2::Client.new(:host => 'localhost',:username => 'root', :database => 'cslg', :encoding => 'utf8'); url = [] #示例网站罢了
url << "http://www.baidu.com"
sql = "" url.each do |u|
u = URI(u);
http = Net::HTTP.new(u.host,u.port);
headers = {
'Cookie'=>''#设置访问时的cookie,如果没有则不需要传入这个headers散列
} doc = http.get(u,headers) #发送请求 html = Nokogiri::HTML(doc.body) #html格式化 tds=html.xpath("//td") #找到所有的td标签 #过滤爬取得空或者废页面,根据实际返回页面的数据量,比如td标签过少的就是空的,不存在的
if tds.size < 79
next
end #数据库语句准备好
sql ="insert into teacher_base_info values(null"
tds.each_with_index do |td,i|
if i<74 && i>8
text = td.text.strip
if !(text.include?":")
sql+=",'#{text.to_s.addslashes}'"
elsif i==57 || i==66 || i==73
#拼接数据库语句
sql+=",'#{text.split(":")[1].to_s.addslashes}'"
end
end
end
sql+=")"
puts sql
client.query(sql) end

分析

首先连接到数据库:

client = Mysql2::Client.new(:host => 'localhost',:username => 'root', :password=>'' :database => 'xxx', :encoding => 'utf8');

主机,用户名,密码,数据库,编码等参数

需要的变量:

url = []
url << "http://www.baidu.com"
sql = ""

主要是地址,需要遍历的话则使用数组存储地址,然后是数据库语句存储字符串,后面用于拼接语句

对数组遍历,开始爬虫:

	u = URI(u);

    http = Net::HTTP.new(u.host,u.port);
headers = {
'Cookie'=>''#设置访问时的cookie,如果没有则不需要传入这个headers散列
} doc = http.get(u,headers)

对于网页的访问,需要提供的有:地址,端口,get参数(或者post参数),还有header中的信息

那么对于那些需要登录的网站,往往需要提供cookie来保持会话,那么headers变量可以存储散列,将键值对放入其中,就可以发送请求同时发送已经登录获得的cookie

cookie的值从开发者工具中获取,chrome F12

headers变量键值对遵循上面的规则,并且Ruby中使用“=>”定义散列中的元素

URI类,URI方法可以格式化字符串地址,成为uri对象

Net::HTTP.new()返回一个http对象,调用get方法可以访问地址,第一个是uri对象,第二个是header散列,提供header信息

如果我的地址中存在?x=xx&y=yy&z=zz这样的的get参数呢?

依然使用上述方法!将u=URI(地址包括get)取得的u传入http.get的第一个参数,get中的参数会被自动发送到http,并不会遗漏

解析html

爬下来之后,需要对html进行解析,ruby我采用了nokogiri,php可以使用“Simple HTML DOM”

使用nokogiri格式化取得的html文件:

html = Nokogiri::HTML(doc.body)   #html格式化

tds=html.xpath("//td")   #找到所有的td标签

xpath方法可以获得所有指定标签,前面要加“//”

tds将会是一个对象数组,可以用each或者each_with_index遍历

通过.text.to_s获取标签里的内容,就像js的innerText!

nokogiri使用说明

拼接sql语句

sql+=",'#{text.to_s.addslashes}'"
sql+=",'#{text.split(":")[1].to_s.addslashes}'"

将逗号放在前面会相对方便,不会有多余的“,”出现

addslashes是我自己写的方法,扩展了ruby的String类,主要是为了避免sql语句中出现单引号!这很重要,因为爬下来的数据经常会出现单引号,一般我转化为html的转义符,这是安全的

class String
def addslashes
self.gsub(/\'/,'&apos;')
end
end

最后:数据爬取简单,数据分析难!写入数据库要做很多的分析,如何解析html或者json,如何格式化字符串,得到想要的内容,如何建立合适的表,合适的字段,并且如何将数据一一对应的插入进去,这些比爬虫本身复杂多

Ruby爬虫header发送cookie,nokogiri解析html数据的更多相关文章

  1. header发送Cookie

    Cookie传达给客户端的原理 平时执行setcookie('key1', 'value1');这样的代码时,浏览器就会收到cookie并保存,但我们并不能从echo出去的内容中看到cookie内容 ...

  2. 爬虫header和cookie

    def on_start(self): self.crawl('http://bbs.byr.cn/board/Python', headers={'X-Requested-With': 'XMLHt ...

  3. postman5.0.2_0+postmanInterceptor0.2.22_0下载安装,可发送header头 cookie 参数

    Postman是chrome上一个非常好用的http客户端插件,可惜由于chrome安全的限制,发不出带cookie的请求.如果想要发送带cookie的请求,需要开启Interceptor 安装方法: ...

  4. ruby 爬虫爬取拉钩网职位信息,产生词云报告

    思路:1.获取拉勾网搜索到职位的页数 2.调用接口获取职位id 3.根据职位id访问页面,匹配出关键字 url访问采用unirest,由于拉钩反爬虫,短时间内频繁访问会被限制访问,所以没有采用多线程, ...

  5. 跨域问题,前端主动向后台发送cookie

    跨域是什么? 从一个域名的网页访问另一个域名的资源,就会出现跨域.只要协议.端口.域名有一个不同就会出现跨域 例如: 1.协议不同  http://www.baidu.com:80 和 https:/ ...

  6. Jmeter(一)http接口添加header和cookie --转载

    Jmeter(一)http接口添加header和cookie   HTTP信息头管理器在Jmeter的使用过程中起着很重要的作用,通常我们在通过Jmeter向服务器发送http请求(get或者post ...

  7. Header和Cookie相关内容

    相信很多同学都对HTTP的header和cookie,和session都有疑问,因为我们开发的时候一般都需要请求网络获取数据,有时候还需要带cookie或者带特殊的字段发起请求. 现在我们就来简单的了 ...

  8. 对EL自己以及对于param、header、cookie的相关应用的相关知识点的复习

    EL表达式语言是一种可以计算和输出的java对象的简单语言. 列入请求语句为下面的方式:request.setAttribute("username","zhangsan ...

  9. Android端接收和发送cookie

    流程: 首先android端使用HttpClient的方式发送HTTP请求,此时服务器创立cookie,并发送cookie给android端,android端再将cookie保存起来,在需要发送coo ...

随机推荐

  1. PAT Basic 1083 是否存在相等的差 (20) [hash映射,map STL]

    题目 给定 N 张卡⽚,正⾯分别写上 1.2.--.N,然后全部翻⾯,洗牌,在背⾯分别写上 1.2.--. N.将每张牌的正反两⾯数字相减(⼤减⼩),得到 N 个⾮负差值,其中是否存在相等的差? 输⼊ ...

  2. linux 查看链接库的版本

    我们编译可执行文件的时候,会链接各种依赖库, 但是怎么知道依赖库的版本正确呢? 下面有几种办法: ldd 这是比较差的,因为打印结果更与位置相关 dpkg -l | grep libprotobuf ...

  3. 新手学习Web前端的三个高效学习方法,基础要重视

    作为新手,出于对风险的担心,不免在学习一项新技能或者转投一个新行业的时候,有所犹豫与徘徊.毕竟,在这场类似冒险的选择中,我们需要投入时间.精力以及承受相关的经济损失.但是,只有勇敢迈出第一步,才能为生 ...

  4. 蓝桥杯剪格子dfs

    #include<iostream> #include<cstring> #include<iomanip> #include<cmath> #incl ...

  5. 计量经济与时间序列_关于Box-Jenkins的ARMA模型的经济学意义(重要思路)

    1 很多人已经了解到AR(1)这种最简单的时间序列模型,ARMA模型包括AR模型和MA模型两个部分,这里要详细介绍Box-Jenkins模型的观念(有些资料中把ARMA模型叫做Box-Jenkins模 ...

  6. TPO6-1 Powering the Industrial Revolution

    By 1800 more than a thousand steam engines were in use in the British Isles, and Britain retained a ...

  7. Java线程池面试

    New Thread的弊端 每次new Thread会新建对象,性能差 线程缺乏统一管理,可能无限制的新建线程,相互竞争,有可能占用过多系统资源导致死机或OOM 缺少更多功能,如更多执行.定期执行.线 ...

  8. redis day02 下

    位图:是二进制数据(0101101010)2^32 强势点: 01_login :101110(比如:第一天登录,二天没登录) 传统的字符串解决方案中 记录用户登录日期  统计堪忧 01_login_ ...

  9. 在VMware装了linux系统,如何在windows系统中用xshell连接

    网上有好几种方法,不过我觉得这种比较简单 1.找到VMware菜单  打开 编辑>虚拟网络编辑器 如图: 点下面的更改设置 点确定就可以了,什么都不用改.然后回到linux系统中ifconfig ...

  10. 代码审计中的SQL注入

    0x00 背景 SQL注入是一种常见Web漏洞,所谓SQL注入,就是通过把SQL命令插入到Web表单提交或输入域名或页面请求的查询字符串,最终达到欺骗服务器执行恶意的SQL命令.本文以代码审计的形式研 ...