#!/bin/bash #-------------------------------------------- # name: change-hosts.sh #-------------------------------------------- #-------------------------------------------- #Program: # # 从laod博客更新hosts文件 # #------------------------------------------…
  Webharvest网络爬虫应用总结 Web-Harvest是一个Java开源Web数据抽取工具.它能够收集指定的Web页面并从这些页面中提取有用的数据.其实现原理是,根据预先定义的配置文件用httpclient获取页面的全部内容(关于httpclient的内容,本博有些文章已介绍),然后运用XPath.XQuery.正则表达式等这些技术来实现对text/xml的内容筛选操作,选取精确的数据.前两年比较火的垂直搜索(比如:酷讯等)也是采用类似的原理实现的.Web-Harvest应用,关键就是…
python random模块 - 小驹的专栏 - 博客频道 - CSDN.NET python random模块 分类: python 2011-11-15 15:31 6037人阅读 评论(2) 收藏 举报 pythonrandomlistimport   目录(?)[+] randomrandom randomuniform randomrandint randomrandrange randomchoice randomshuffle randomsample   Python中的ran…
昨天,梦姐问我们,她存在一个任务,找到 关注数排行100 和 浏览量排行100 的专栏博客,在2017年还有更新的专栏. 梦姐说他要出去一趟,M大神在吃饭,于是我估算时间,只有半个钟. 整理一下:半个钟时间,找到两个表格中,在2017年更新的专栏.这就是需求. 我开始分开需求,第一步,读取数据,读取两个表的数据.第二步获取博客更新时间,博客更新时间就是最近的文章的发布时间.第三步,把结果写到文件里. 开始因为xlsx的读取问题卡了我一下,我计算了,读取excel的方法,我需要20分钟写完,而把e…
title author date CreateTime categories 如何使用 C# 爬虫获得专栏博客更新排行 lindexi 2018-08-10 19:16:51 +0800 2018-2-13 17:23:3 +0800 爬虫 C# 昨天,梦姐问我们,她存在一个任务,找到 关注数排行100 和 浏览量排行100 的专栏博客,在2017年还有更新的专栏. 梦姐说他要出去一趟,M大神在吃饭,于是我估算时间,只有半个钟. 整理一下:半个钟时间,找到两个表格中,在2017年更新的专栏.这…
http://www.wocaoseo.com/thread-144-1-1.html 推广人员需要使用多个博客,一个一个登陆更新是很麻烦的事情,网上的桌面批量更新博客软件也不少,今天在此推荐大家使用 Windows Live (即MSN)的套件 Windows Live Writer . Windows Live Writer 目前最新版本是2011,支持Win7和Vista,XP需要安装兼容版本.一般默认安装 Windows Live 时都会自带这个工具,在"开始"菜单可以找到该快…
微信小程序--简约风博客小程序(基于云开发 - 全开源) 项目启动纯属突发奇想,想看看博客小程序,例如wehalo博客小程序,但是感觉自建平台还要浪费自己的服务器算力,还没有访问量,省省吧. 本着白嫖的精神,用NodeJS完成了爬虫,小程序云开发也用免费的服务器,完成了该开源项目. 目前支持的爬虫范围有 CSDN文章,博客园部署了awescnb样式的全部文章,以及部分博客园相近基础主题文章,请自行测试. 1.项目分析 项目使用cheerio爬虫完成了对博客内容爬取,并在小程序端使用html2wx…
适用场景: 下载了一个smarthosts的hosts文件,但hosts文件过旧导致一些ip地址已失效无法访问网络. 脚本使用: ./hostsupdate # 直接从 /etc/hosts 中获得需要更新的域名 ./hostsupdate /path/to/hosts # 从指定路径中获得需要更新的域名 脚本源码: #!/bin/bash - #===========================================================================…
[技术博客] Django中文件的保存与访问 在TextMarking项目开发中,数据库需要保存用户上传的文本文档. 原型设计:用户点击上传文本->保存文本->文本发送到后端保存为文件. 我在此记录一种文本保存的方法 1. 在settings中配置media路径 在django项目根目录添加一个文件夹media,并在settings中添加如下路径 MEDIA_URL = '/media/' MEDIA_ROOT = os.path.join(BASE_DIR, 'media') 2. 在url…
大多数程序员都喜欢偷懒的,我也不例外.相信好多Android开发的coder 在网络http请求方面,会浪费很多时间在接口调试这里..有时候,自己写了一个小测试,行还好,不行的话,还要跟写后台的哥们一起扯扯蛋...于是自己就写了一个curl的小脚本,专门调试这方面的东西.(主要适用于用JSON的传输方式). 废话不多说,直接看我的SHELL吧: #!/bin/sh echo -n "enter the request host: " read host # request host #…