shell脚本抓取网页信息

利用shell脚本分析网站数据

# define url

time=$(date +%F)

mtime=$(date +%T)

file=/abc/shell/abc/abc_$time.log

http=https://abc.com/abc/abc.do

key='tender_sum'

log_file=/abc/shell/abc/remind.log

check_log=/abc/shell/abc/check.log

function Mail(){

    mail -s "抓取成功" @qq.com < $log_file

}

curl -d "user=abc&password=123" $http > $file

echo $?

#抓第一段数组

name=`awk -F ',' '{print $13":"$32}' $file | awk -F ':' '{print $4}'`

echo "name=$name"

tender_sum=`awk -F ',' '{print $13":"$32}' $file | awk -F ':' '{print $2}'`

echo "tender_sum=$tender_sum"

borrow_sum=`awk -F 'borrow_sum' '{print $2}' $file | awk -F '[: ,]' '{print $2}'`

echo "borrow_sum=$borrow_sum"

flag=

#如果有一个名字跟他相等，说明没有新的内容

for title in `cat project_title.log`

    do

        if [ $name == $title ]

            then

                flag=

        fi

    done

#出现了新的内容，判断是否满足条件，是则发邮件通知，并且将标题写入project_title.log

if [ $flag ==  ]

    then

        if [ $tender_sum == $borrow_sum ]

            then

                echo "内容$name已经更新成功，请登录网站查看^_^" > $log_file

                Mail

                echo $name >> project_title.log

            else

                echo "内容$name更新进度：已更新-- $tender_sum --$mtime--" >> $check_log

        fi

    else

        echo "没有新的内容" >> $check_log

fi

shell脚本抓取网页信息的更多相关文章

用shell脚本爬取网页信息
有个小需求,就是爬取一个小网站一些网页里的某些信息,url是带序号的类似的,不需要写真正的spider,网页内容也是差不多的需要取出网页中<h1></h1>中间的字符串,而且 ...
HttpClient+Jsoup 抓取网页信息（网易贵金属为例）
废话不多说直接讲讲今天要做的事. 利用HttpClient和Jsoup技术抓取网页信息.HttpClient是支持HTTP协议的客户端编程工具包,并且它支持HTTP协议. jsoup 是一款基于 Ja ...
.net抓取网页信息 - Jumony框架使用1
往往在实际开发中,经常会用到一些如抓取网站信息之类的的操作,往往大家采用的是用一些正则的方式获取,但是有时候正则是很死板的,我们常常试想能不能使用jquery的选择器,获取符合自己要求的元素,然后进行 ...
Shell脚本 | 抓取log文件
在安卓应用的测试过程中,遇到 Crash 或者 ANR 后,想必大家都会通过 adb logcat 命令来抓取日志定位问题.如果直接使用 logcat 命令的话,默认抓取出的 log 文件包含安卓运行 ...
Powershell抓取网页信息
一般经常使用invoke-restmethod和invoke-webrequest这两个命令来获取网页信息,如果对象格式是json或者xml会更容易 1.invoke-restmethod 我们可以用 ...
一、使用 BeautifulSoup抓取网页信息信息
一.解析网页信息 from bs4 import BeautifulSoup with open('C:/Users/michael/Desktop/Plan-for-combating-master ...
C# 使用HtmlAgilityPack抓取网页信息
前几天看到一篇博文:C# 爬虫抓取小说博主使用的是正则表达式获取小说的名字.目录以及内容. 下面使用HtmlAgilityPack来改写原博主的代码在使用HtmlAgilityPack之前,可以 ...
Fiddle无法抓取网页信息或HTTPS
1:清除电脑根证书: 打开dos命令框,输入:certmgr.msc ![file](https://img2018.cnblogs.com/blog/1023158/201912/1023158-2 ...
php抓取网页信息
index.php <?php include_once 'simple_html_dom.php'; //获取html数据转化为对象 $html = file_get_html('http:/ ...

随机推荐

Rails NameError uninitialized constant class solution
rails nameerror uninitialized constant class will occur if your rails console is not loaded with con ...
Jquery easyui教程
目录 1基本拖放.......................................................................................... ...
chrome 常用快捷键（可以摆脱鼠标哦）
Ctrl+N 打开新窗口. Ctrl+T 打开新标签页. Ctrl+Sh ...
javascript删除字符串最后一个字符
搜到很多无用的答案,这对新手来讲是很耗费时间的事情,我把正确的方法贴出来,以便有的新手不再踩这个坑. JavaScript slice() 方法定义和用法 slice() 方法可提取字符串的某个部分 ...
css -- css选择器
选择器例子例子描述 CSS .class .intro 选择 class="intro" 的所有元素. 1 #id #firstname 选择 id="firstna ...
给网站添加X-UA-Compatible标签
给网站添加X-UA-Compatible标签方法一:<meta http-equiv="X-UA-Compatible" content="IE=EmulateI ...
利用KEGG的API获取基因对应的pathway 信息
KEGG 官网提供了API, 可以方便的访问KEGG 数据库中的内容,链接如下: http://www.kegg.jp/kegg/rest/keggapi.html 利用API可以得到某一个基因参与的 ...
最短路径问题-Floyd算法
概念最短路径也是图的一个应用,即寻找图中某两个顶点的最短路径长度. 实际应用:例如确定某两个城市间的坐火车最短行车路线长度等. Floyd algorithm 中文名就是弗洛伊德算法. 算法思路:用 ...
Ubuntu 12.04/13.04 安装 Oracle11gR2：该笔记已经陈旧！请参考后续的笔记
注意点: 在 ubuntu的 /bin 下建立以下几个基本命令的链接: basename awk sh->bash | sh -> ksh 安装以下几个必须的包: binutils bui ...
HTML之DocType的几种类型
一.什么是DOCTYPE DOCTYPE是Document Type(文档类型)的简写,在页面中,用来指定页面所使用的XHTML(或者HTML)的版本.要想制作符合标准的页面,一个必不可少的关键组成部 ...

shell脚本抓取网页信息

shell脚本抓取网页信息的更多相关文章

随机推荐

热门专题