七周七语言之用ruby做点什么
如果你想获得更好的阅读体验,可以前往我在 github 上的博客进行阅读,http://lcomplete.github.io/blog/2013/05/25/sevenlang-ruby/。
每学一门语言,思维方式都会发生改变,编程语言亦是如此。
《七周七语言》
编程语言从范型上来划分,主要有过程式语言、面向对象式语言和函数式语言,只有了解这些语言的变化、发展和设计哲学,深入地学习它们,才能够将它们融汇贯通,体会到不同范型中的精华和思想。如今有众多的编程语言,五花八门,《七周七语言》中挑选了7门优秀的语言进行讲解,这些语言包括了以上三种范型,其中有Ruby这样的面向对象的脚本语言、Io这样的原型语言、Haskell这样的纯函数式语言,也有Scala这种融合了函数式编程和面向对象编程的语言,这些语言都有其特别的设计和独门绝技,比如Ruby的简洁、效率和它的元编程特性。
这一系列的博客打算写7篇,每一篇以一门编程语言为主,用它来实际写一些小程序,这些程序是可用但非正式的,一些逻辑不会写的很严谨,主要是为了突出语言的一些用法和特性,我不会列出一段段代码,然后讲解里面涉及的概念,而是直接贴出完整的代码,将一些语法规则以注释形式给出。
本次用Ruby写了一段抓取程序,可以抓取煎蛋上的优质无聊图和妹子图,其中解析html用到了nokogiri模块。这段程序总共只有几十行代码,为了多使用一些语言上的特性,我还加了一些没必要的代码,如果再精简一下的话,这段程序可以非常简短,实在是不得不佩服ruby的简洁和效率。
不多说了,直接上代码吧!
#encoding: utf-8 require 'net/http'
require 'open-uri'
require 'nokogiri' # 用于解析html的模块
# sudo apt-get install libxslt-dev libxml2-dev
# sudo gem install nokogiri
require 'pathname' class JanDanSpider
attr_accessor :base_uri, :cur_page # 定义属性访问器 def initialize(pagesize)
@base_uri = 'http://jandan.net/pic' # @表示实例变量、@@表示类变量、$表示全局变量
@dir = '/media/Develop/MyCode/SevenLang/ruby/pic'
@pagesize = Integer(pagesize) # 整型转换
end def crawl()
Dir.mkdir @dir unless File.directory? @dir # 表判断的方法结尾都有个?
totalpage = crawlpage(0)
puts "pagesize #{totalpage}" # ""字符会引发字符串替换,''则不会
(1..@pagesize-1).each do |i| # 遍历元组
crawlpage(totalpage - i)
end
puts 'complete!'
end def crawlpage(page)
url = page==0 ? @base_uri : @base_uri+'/page-'+page.to_s # to_s是必要的
puts "crawl-page: #{url}" fpage = open(url)
html = fpage.read
doc = Nokogiri::HTML(html)
doc.css('ol.commentlist li').each { |comment|
match = /comment-(\d+)/.match(comment['id'])
if match
id = match[1]
oo = Integer(comment.css('#cos_support'+'-'+id)[0].content);
xx = Integer(comment.css('#cos_unsupport'+'-'+id)[0].content);
xx = 1 if xx==0
if(oo>xx && (oo>200 || oo/xx >10) )
src = comment.css('p img')[0]["src"]
puts "crawl: oo #{oo} xx #{xx} src #{src}"
save_pic(src)
end
end
}
if page==0
cur_page = doc.css(".current-comment-page")[0].content
page = Integer(/\d+/.match(cur_page).to_s)
end
puts "page #{page} done!"
page # ruby中每条语句都有返回值,函数内最后一条语句的返回值会被return
end def save_pic(url)
urlpath = Pathname.new(url)
filename = urlpath.basename.to_s
dirpath = Pathname.new(@dir)
filepath = dirpath.join(filename).to_s
open(url) { |fin|
open(filepath,"wb") { |fout|
while buf = fin.read(4096) do
fout.write buf
end
}
} unless File.exists? filepath # 仅当文件不存在时进行抓取
puts 'done!'
end end if ARGV.length == 1
spider = JanDanSpider.new($*[0]) # 可从 ARGV 或 $* 读取命令行参数
spider.crawl()
else
puts 'please input pagesize' #tip: puts, 转义+换行符 print, 转义 p, 换行
end
七周七语言之用ruby做点什么的更多相关文章
- Seven xxx in Seven Weeks ebooks | 七周七 xxx 系列图书 电子书| share 分享 | free of charge 免费!
Seven xxx in Seven Weeks ebooks | 七周七 xxx 系列图书 电子书| share 分享 | free of charge 免费! Seven Languag ...
- 七周七语言之Ruby
1.安装 Ubuntu 14.04 sudo apt-get install ruby version 1.9.1 2.命令行运行: irb 3.文挡查看:man RDoc 4.猜数字 2.2.7程序 ...
- 七周七语言之用Io编写领域特定语言
如果你想获得更好的阅读体验,可以前往我在 github 上的博客进行阅读,http://lcomplete.github.io/blog/2013/06/05/sevenlang-io/. Io 语言 ...
- 七周七语言之使用prolog解决爱因斯坦斑马难题
如果你想获得更好的阅读体验,可以前往我在 github 上的博客进行阅读,http://lcomplete.github.io/blog/2013/06/28/sevenlang-prolog/. 目 ...
- 七周七语言——Prolog(二)
1 递归 首先来看一个知识库: father(zeb,john_boy_sr). father(john_boy_sr,john_boy_jr). ancestor(X,Y):-father(X,Y ...
- 第七周C语言代码
#ifndef NMN_LIST_H #define NMN_LIST_H #include <stdio.h> struct list_head { struct lis ...
- 程序设计入门-C语言基础知识-翁恺-第七周:指针与字符串-详细笔记(七)
目录 第七周:指针与字符串 7.1 指针初步 7.2 字符类型 7.3 字符串 7.3 课后练习 第七周:指针与字符串 7.1 指针初步 sizeof 是一个运算符,给出某个类型或变量在内存中所占据的 ...
- C语言程序设计I—第七周教学
第七周教学总结(14/10-20/10) 教学内容 第二章 用C语言编写程序 2.5 生成乘方表和阶乘表 课前准备 在蓝墨云班课发布资源: PTA:2018秋第七周作业 分享码:FE065DC5D8C ...
- C语言程序设计II—第七周教学
第七周教学总结(8/4-14/4) 教学内容 本周的教学内容为:8.3 冒泡排序,知识点:指针与数组.重点难点:指针.数组与地址的关系:数组名作为函数参数.要求学生能够使用数组名作为函数参数进行熟练编 ...
随机推荐
- Delphi 高效读写锁
本人设计了一个高效读写锁,可实现多个线程读一个线程写的锁,应该比Delphi自带的读写锁高效,本人没有做对比测试. 本文的锁不可以在一个线程里重入,否则会锁死,另外读写锁最多支持65535个线程同时读 ...
- Java实例 Part4:数组及其常用操作
目录 Part4:数组及其常用操作 Example01:将二维数组的行列交换 Example02:使用选择排序法对数组进行排序 Example03:使用冒泡排序法对数组进行排序 Example04:使 ...
- 基于opencv和qt的人脸检测小系统
摘要:利用opencv读取视频.图片并检测人脸,利用QT显示窗口,功能选择等 环境:Ubuntu18.04.OpenCV3.4.0.QT5.10.1 效果图: 代码如下(比较简单没什么注释): mai ...
- 基于EasyX库的贪吃蛇游戏——C语言实现
接触编程有段时间了,一直想学习怎么去写个游戏来练练手.在看了B站上的教学终于可以自己试试怎么实现贪吃蛇这个游戏了.好了,废话不多说,我们来看看如何用EasyX库来实现贪吃蛇. 一.准备 工具vc++6 ...
- Java动态代理代码快速上手
动态代理的两个核心的点是:代理的行为 和 代理机构. 举个例子,上大学的时候,很多同学吃午饭的时候都是叫别人带饭,有一个人H特别热心肠,想了一个办法,他在门口挂了个公示牌,每天有谁想要找人带饭就写公告 ...
- # 第二周课堂实践以及MyOD
第二周课堂实践以及MyOD 之前使用的虚拟机出现问题被我删掉了,开始学着使用Mac系统自带的终端.在课堂上出现了问题,询问王雄老师也没有解决,课下先使用了实验楼环境进行实验,后来又在Mac重新进行了尝 ...
- 20155302杨效宸《Java程序设计》课程总结
20155302杨效宸<Java程序设计>课程总结 一.每周作业 第一周学习总结:http://www.cnblogs.com/STILLlover521/p/6457914.html 第 ...
- 借助全新 MATLAB® 适配器代码示例读取英特尔® 实感™ 摄像头数据流
下载源代码请访问原文地址:借助全新 MATLAB® 适配器代码示例读取英特尔® 实感™ 摄像头数据流 简介 该可下载代码示例简要介绍了如何使用英特尔® 实感™ SDK 和 MATLAB 的图像采集工具 ...
- docker简单使用+django+uwsgi+nginx项目部署
使用docker 搭建 centos7 环境: 主机环境:windows 10专业版 一.安装docker Hub.docker.com官网下载 docker for windows 安装完成后,任务 ...
- fastCMS数据库相关操作类
fastCMS针对数据库的操作有以下几个类: 1.[paging_Class]分页类 此类用于分页检索数据库内符合条件的记录 1) 支持百万级数据分页 2) 支持多种类型的SQL语法,比如 Left ...