Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0, 时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步. 本文展示使用在 Scrapy项目内.项目外scrapy shell命令抓取知乎首页的初步情况,重要的一点是,在项目内抓取时,没有response可用. 在项目[外]执行抓取命令 scrapy shell https://www.zhihu.com 得到结果(部分):因为知乎的反爬虫功能,得到了400错误,访问失败. INFO: Overridden…
Shell 命令行统计 apache 网站日志访问IP以及IP归属地 我的一个站点用 apache 服务跑着,积攒了很多的日志.我想用 shell 看看有哪些人访问过我的站点,并且他来自哪里. 因为日志太长了,所以我没跑完就放弃了,因为跑起来太慢了... 分析 apache 日志 140.205.16.220 - - [26/Jun/2017:03:49:51 +0800] "GET /content_article_3.html HTTP/1.1" 200 3 日志内容如上,这个很简…
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 前一段时间工作太忙一直没有时间继续更新这个教程,最近离职了趁着这段时间充裕赶紧多写点东西.之前…
getLog.bat: adb root adb remount adb wait-for-device adb logcat -v time > C:\log.txt 在Android中不同的log写到不同的设备中,共有/dev/log/system, /dev/log/main, /dev/log/radion, /dev/log/events四中类型.其中默认Log.v等写入/dev/log/main中.Slog写入/dev/log/system中. adb logcat -b <sys…
在安卓应用的测试过程中,遇到 Crash 或者 ANR 后,想必大家都会通过 adb logcat 命令来抓取日志定位问题.如果直接使用 logcat 命令的话,默认抓取出的 log 文件包含安卓运行时产生的所有日志,给快速定位问题增加了时间成本. 这个问题可以通过一个简单的 Shell 脚本来解决,依然只有区区 20 行左右的代码. 脚本的编写思路是这样的: 1.通过 date 命令获取当前时间并赋值给变量 "DATE",格式为 "year/month/day/hour/m…
push.sh #!/bin/bash function push() { local ip=$ local user=$ local password=$ local path=$ local localPath=$ local error=$ :>$error export RSYNC_PASSWORD="$password" rsync -Cavz $user@$ip::$path $localPath > $error >& # 判断是否发送错误 gr…
基本概况: 我有一台服务器每天每个小时都会生成一个日志文件,这些日志文件会被保留2天,超过2天会被一个程序压缩放到备份目录,日志文件的文件名是有命名要求的,例如:project_log.20130101.01, project_log.20130101.02 意思即:2013年1月1日1点和2点生成的日志文件,他们被备份后的文件名是:project_log.20130101.01.gz, project_log.20130101.02.gz 另外有一台服务器可从这台服务器上抓取文件,它即可以抓取…
在线教程一般像流水线一样,页面有上一页下一页的按钮,因此,可以利用shell写一个爬虫读取下一页链接地址,配合wget将教程所有内容抓取. 以postgresql中文网为例.下面是实例代码 #!/bin/sh start_URL="http://www.postgres.cn/docs/9.6/preface.html" end_URL="http://www.postgres.cn/docs/9.6/bookindex.html" URL=$start_URL w…
利用shell脚本分析网站数据 # define url time=$(date +%F) mtime=$(date +%T) file=/abc/shell/abc/abc_$time.log http=https://abc.com/abc/abc.do key='tender_sum' log_file=/abc/shell/abc/remind.log check_log=/abc/shell/abc/check.log function Mail(){ mail -s @qq.com…
二:抓取分支: 多人协作时,大家都会往master分支上推送各自的修改.现在我们可以模拟另外一个同事,可以在另一台电脑上(注意要把SSH key添加到github上)或者同一台电脑上另外一个目录克隆,新建一个目录名字叫testgit2 但是我首先要把dev分支也要推送到远程去,如下 (这个图是参考别人的,我的图是works目录的那个) 接着进入testgit2目录,进行克隆远程的库到本地来,如下: 现在目录下生成有如下所示: 现在我们的小伙伴要在dev分支上做开发,就必须把远程的origin的d…