.NET Core+Selenium+Github+Travis CI => SiteHistory
前言
总是三分钟热度的我折腾了一个可以每天自动截取指定网站页面并保存到Github的项目SiteHistory,感觉挺好(每次都这样
)。
想知道YouTube今天的首页长啥样么?点此查看
想知道YouTube2017年8月31日的首页长啥样么?改天再点开
想为你的网站增加访客么?不要问我,我不知道。
那年那站那样
伴随着时间,记录着网站的历史
记录下网站现在的样子,待那年今日
那一年,那个网站,是那个样子
项目地址:https://github.com/yimogit/SiteHistory
技术栈
.NET Core:.NET Core 是.NET Framework的新一代版本,具有跨平台 (Windows、Mac OSX、Linux) 能力的应用程序开发框架 (Application Framework)。Selenium:一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。结合phantomjs等驱动可以实现页面自动化。Github:一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名GitHub,又名GayHubTravis CI:采用yaml格式配置,简洁清新的开源持续集成构建项目。
我将其用来打包vue的纯工具站点
metools,以及.net core程序(SiteHistory)
啥,还不会?戳这里→→使用travis-ci自动部署github上的项目
项目构建思路
- 运行程序,传入名称 网址 如:
dotnet run baidu https://www.baidu.com - 创建一个phanomjs无头浏览器:
IWebDriver driver = new PhantomJSDriver(); - 在浏览器中打开传入网站:
driver.Navigate().GoToUrl(sitePage); - 执行js使其滚动到底部,触发懒加载,等待网页图片加载
int waitTime=10;
var myScript = @"var ymtimer=setInterval(function(){
if (document.body.scrollHeight - 700 < document.body.scrollTop){
window.scroll(0, document.body.scrollHeight)
clearInterval(ymtimer);
return;
}
window.scroll(0, document.body.scrollTop + 700)
} ," + waitTime * 1000 / 10 + ");";
//10s中从头部滚动到底部
((IJavaScriptExecutor)driver).ExecuteScript(myScript);
//等待滚动完毕,图片也差不多能加载完闭
System.Threading.Thread.Sleep(1200 * waitTime);
- 开始截图:
((ITakesScreenshot)driver).GetScreenshot().SaveAsFile("baidu.com",ScreenshotImageFormat.Jpeg) - 拼接文本写入Readme.MD,Index.html
- 关闭无头浏览器,程序结束
driver.Quit()
项目文件预览
Program.cs加起来就一百多行代码,完整Program.cs代码请戳这里
程序运行
- 下载phantomjs,设置环境变量(Travis CI环境提供PhantomJS预装)
- 安装.net core2.0 SDK
- 执行命令:
dotnet run 参数1[名称] 参数2[网页链接] 参数3[图片格式] 参数4[等待时间] 参数5[保存目录] 参数6[可以执行一些js]dotnet run baidu https://www.baidu.com/保存[https://www.baidu.com]页面的截图名称为[baidu.jpg]
dotnet run baidu https://www.baidu.com/ png
指定图片类型为
pngdotnet run baidu https://www.baidu.com/ jpg 20
加载完毕后等待20s后截图(图片加载或网站速度过慢)
dotnet run baidu https://www.baidu.com/ jpg 10 download-test
下载的图片保存到download-test文件夹下
dotnet run baidu https://www.baidu.com/ jpg 10 download-test "document.body.innerHTML='test'
加载完毕后执行一段js
使用Travis CI 时的 .travis.yml配置
若使用Travis CI 集成 ,要新增网站截图项,则在travis.yml中script节点下添加命令即可
附Travis CI的环境变量配置图,具体戳此文章
# 语言为scharp,系统为ubuntu14.04(代号trusty),.netcore 版本2.0
# Travis CI提供 phantomjs预装
language: csharp
dist: trusty
dotnet: 2.0.0
# mono:latest Travis CI默认会安装mono,测试发现若不安装mono,Travis CI会在程序截图时报错
# 打印组件版本
before_install:
- dotnet --version
- phantomjs --version
script:
- dotnet restore
- dotnet run ip http://1212.ip138.com/ic.asp png
- dotnet run acfun http://www.acfun.cn/ jpg 20
- dotnet run bilibili https://www.bilibili.com jpg 20
- dotnet run youtube https://www.youtube.com jpg 20
- dotnet run google https://www.google.com
# 将截图提交到 ${P_BRANCH} 分支中(gh-pages)
# export abc='date +%Y%m%d' 获取年月日
# 脚本将根据时间创建新分支 `gh-pages_20170901`,并更新gh-pages分支
#
after_script:
- cd download
- git init
- git config user.name "${U_NAME}"
- git config user.email "${U_EMAIL}"
- git add .
- git commit -m "add imgs"
- git remote add orginimgs "https://${GH_TOKEN}@${GH_REF}"
- export current_date='date +%Y%m%d'
- echo "current_date:$($current_date)"
- git push --force --quiet orginimgs master:gh-pages
- git push --force --quiet orginimgs master:gh-pages_$($current_date)
branches:
only:
- master
总结
- 测试发现IP地址每次都会发生变化,引发无限遐想
- Linux下获取年月日字符串
设置:export current_date='date +%Y%m%d'
输出:echo "current_date:$($current_date)" .net core使用Selenium需要引入Nuget包为:CoreCompat.Selenium.WebDriver
配置中的变量按照此文章配置即可
亲测搭配travis-ci食用最佳,Fork之后,前往travis-ci配置即可 参阅文章:使用travis-ci自动部署github上的项目
欢迎分享值得记录的网站。
.NET Core+Selenium+Github+Travis CI => SiteHistory的更多相关文章
- github Travis CI 持续集成
一个项目如何保证代码质量是开发中非常重要的环节,对于开源项目来说更是如此,因为开源项目要面对的是来自不同水平开发者提交的代码.所以围绕开源做持续集成(Continuous Integration)变得 ...
- 利用Travis CI 让你的github项目持续构建
Travis CI 是目前新兴的开源持续集成构建项目,它与jenkins,GO的很明显的特别在于采用yaml格式,简洁清新独树一帜.目前大多数的github项目都已经移入到Travis CI的构建队列 ...
- 使用Travis CI自动部署Hexo到GitHub
原文链接(转载请注明出处):使用Travis CI自动部署Hexo到GitHub 前言 使用 hexo + gitPages 搭建个人博客的人都知道,每当要发表一篇博文,第一步得手动使用 hexo g ...
- 使用Travis CI自动部署博客到github pages和coding pages
每次换系统或换电脑之后重新部署博客总是很苦恼?想像jekyll那样,一次性部署完成后,以后本地不用安装环境直接 git push 就能生成博客?那推荐你应该使用使用 Travis CI了. 这篇文章我 ...
- 使用 Travis CI 自动部署 Hexo 站点至 GitHub Pages
Hexo 与 GitHub Pages 安装配置请参考:Hexo 与 GitHub Pages 本文源码与生成的静态文件在同一项目下,源码在 source 分支,静态文件在 master 分支 新增 ...
- GitHub搭配使用Travis CI 进行自动构建服务
Travis CI (Continuous Integration)持续集成服务 用处:自动监控软件仓库,可以在代码提交后立刻执行自动测试或构建 1.在Github自己的仓库根目录里添加.travis ...
- 博客 | 基于Travis CI实现Hexo在Github和Coding的同步自动化部署
文章目录 完成Hexo主题安装和配置 基于Travis CI实现同步部署 参考内容 相关链接 待补充 完成Hexo主题安装和配置 如果您还没有安装Hexo环境,请参考Hexo文档安装,也给出这样两篇博 ...
- 利用Travis CI+GitHub实现持续集成和自动部署
前言 如果你手动部署过项目,一定会深感持续集成的必要性,因为手动部署实在又繁琐又耗时,虽然部署流程基本固定,依然容易出错. 如果你很熟悉持续集成,一定会同意这样的观点:"使用它已经成为一种标 ...
- github pages与travis ci运作原理
当说到自动部署的时候,我很反感那些一上来就balabala说怎么操作的博文文章,照着别人的做法有样学样,经常会因为与自己项目实际情况不符而出现各种问题. 比如说github和travis,首先应该搞明 ...
随机推荐
- 基于layUI实现前端分页功能
一.layUI介绍 Layui 是一款采用自身模块规范编写的国产前端UI框架,遵循原生HTML/CSS/JS的书写与组织形式,门槛极低,拿来即用.内置了一些常用元素和组件的UI框架. 下载地址为htt ...
- NOIP模拟:饼干(简单规律推导)
题目描述 小美有一张很大的网格:2 n * 2 n .每次小美会选一个小矩阵 2 x * 2 x , x > 0,小矩阵不能超过网格的边界.然后把右上一半都放上饼干.下图是当 x=1或2 的时候 ...
- .Net Core 系列:2、ADO.Net 基础
目录: 1.环境搭建 2.ADO.Net 基础 3.ASP.Net Core 基础 4.MD5.Sha256.AES 加密 5.实现登录注册功能 6.实现目录管理功能 7.实现文章发布.编辑.阅览和删 ...
- IT软件管理人员的职业路线(从技术经理到总经理) - CEO之公司管理经验谈
技术.业务和管理永远是工作的一个话题.笔者今天就根据自身的经验,通过这三个方面介绍下IT软件管理人员的职业路线.前面写过一个文(IT软件技术人员的职位路线(从程序员到技术总监) - 部门管理经验谈), ...
- 【CSS】盒子模型 之 IE 与W3C的盒子模型对比
摘要 主要看这两种盒子模型的优缺点及适用场景 一.区别 标准 W3C 盒子模型的 content 部分不包含其他部分. IE 盒子模型的 content 部分包含了 border 和 padding. ...
- 如何模拟click事件,打开一个a标签链接?
在项目开发过程中,我们经常会碰到通过接口返回一个地址,同时在新的tab页面打开一个网址的情况,最直观的想法就是通过window.open(url)的方式,打开一个新的页面,但是大部分浏览器会遭遇拦截. ...
- sql必知必会-总结篇
总结: 1.全书总览:数据查询.新增.删除:表的新增.更新操作:视图.存储过程.事务.索引的描述,高级sql功能:约束.触发器.索引 2.特色:术语简明定义,讲述最简单化.简而全面. 3.长进的地方: ...
- list集合为空或为null的区别
简述 判断一个list集合是否为空,我们的惯性思维是判断list是否等于null即可,但是在Java中,list集合为空还是为null,这是两码事. 新建一个list对象,默认值是空,而非null: ...
- NYOJ--1236--挑战密室(第八届河南省程序设计大赛)
挑战密室 时间限制:1000 ms | 内存限制:65535 KB 难度:4 描述 R组织的特工Dr. Kong 为了寻找丢失的超体元素,不幸陷入WTO密室.Dr. Kong必须尽快找到解锁密 ...
- PHP+ajaxForm异步带进度条上传文件实例
在使用ajaxForm方法之前,首先需要安装form.js的插件,网上有: 一.首先说用法,ajaxForm可以接收0或1个参数,该参数可以是一个变量.一个对象或回调函数,这个对象主要有以下参数: v ...
)。
