powershell中的两只爬虫
--------------------序--------------------
(PowerShell中的)两只爬虫,两只爬虫,跑地快,爬网页不赖~~~ 一只基于com版的ie,一只基于.net中的WebRequest类,都是老奶奶,不奇怪 。。。 虽然很老了,但爬的也很快 。。。比python简单。。。
powershell 爬虫 spider Invoke-RestMethod Invoke-WebRequest
--------------------概述--------------------
抓取(爬取)网上信息的脚本程序,俗称网络蜘蛛,又名爬虫。
用vbs或powershell调用ie浏览器的com对象,来解析html成为xml对象,从而扣取数据,是一种很老的爬虫办法,也很不错。 这里不多介绍,有感兴趣的去搜些vbs,powershell脚本即可。
用vbs或powershell调用.net中的WebRequest类,来解析html成为xml对象,从而扣取数据,是另一种挺好的办法。
如果你的系统是win8,或者win8以上,或者win7安装了powershell 4.0,5.0,那么 powershell中自带了这样的两个命令,【Invoke-WebRequest】和【Invoke-RestMethod】。
第一个命令返回的是对象,第二个返回的是(整个网页)字符串。
这两个命令有时候会返回乱码,很长一段时间,我认为,是这个命令有解码bug,但后来发现,把结果用其自带的-outfile参数输出到文件之后,编码是正确的。 也就是说,其实是我们不知道怎么解码。只能用写入磁盘的慢方法。
powershell 传教士 原创文章。始于 2016-04-09 允许转载,但必须保留名字和出处,否则追究法律责任
用这个方法写爬虫脚本是最简单的。写入磁盘虽然慢了一点点,但基本不影响我们用之爬数据。
--------------------正文--------------------
用【Invoke-RestMethod】写爬虫脚本太简单了。步骤为:
1 下载文件
2 打开文件,放入大字符串。
3 根据模板匹配字符串,扣出需要的内容。内容可以是行列标准的表格,也可以不是。
关键就是做好模板,和使用模板命令ConvertFrom-String。需要注意的是,这个是ps5.0新增命令,对于win7来说,要安装ps5.0哦。
ConvertFrom-String 命令的详细用法,请看本人拙作帖子:
ConvertFrom-String 命令研究
http://www.cnblogs.com/piapia/p/5089332.html
--------------------爬虫欣赏--------------------
<#
http://www.xicidaili.com/nn/1
http://haodailiip.com
从web页扣取代理服务器的ip端口。(只要ip,端口)
invoke-Request 写入 temp代理001.html,temp代理001.html 读入字符串,convertfrom-string 扣取数据,写入代理001.txt
#> $script:脚本存储路径 = Split-Path -Parent $myinvocation.mycommand.path
$Env:Path+=";$script:脚本存储路径;" $临时文件名 = "temp代理001.html"
$临时文件路径全名 = "$script:脚本存储路径\$临时文件名" $输出文件名 = "代理001.txt"
$输出文件路径全名 = "$script:脚本存储路径\$输出文件名" $网址 = 'http://www.xicidaili.com/nn/1' $模板 =
@'
<tr class="odd">
<td></td>
<td><img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>
<td>{IP地址*:171.34.189.91}</td>
<td>{端口:8118}</td>
<td>
<a href="/2016-04-07/jiangxi">江西</a>
</td>
<td>高匿</td>
<td>HTTP</td>
<td>
<div title="1.377秒" class="bar">
<div class="bar_inner fast" style="width:88%"> </div>
</div>
</td>
<td>
<div title="0.275秒" class="bar">
<div class="bar_inner fast" style="width:95%"> </div>
</div>
</td>
<td>16-04-07 01:45</td>
</tr> <tr class="">
<td></td>
<td><img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>
<td>{IP地址*:119.188.94.145}</td>
<td>80</td>
<td>
<a href="/2014-11-02/shandong">山东济南</a>
</td>
<td>高匿</td>
<td>HTTPS</td>
<td>
<div title="6.157秒" class="bar">
<div class="bar_inner medium" style="width:38%"> </div>
</div>
</td>
<td>
<div title="0.36秒" class="bar">
<div class="bar_inner fast" style="width:93%"> </div>
</div>
</td>
<td>16-04-07 01:27</td>
</tr>
'@ Invoke-RestMethod -uri $网址 -OutFile $临时文件路径全名 #PowerShell 爬虫步骤1:下载文件
$临时文件 = Get-Content -raw -LiteralPath $临时文件路径全名 #PowerShell 爬虫步骤2:打开文件放入大字符串
#powershell 传教士 2016-04-09 win10测试通过
$结果 = ConvertFrom-String -TemplateContent $模板 -InputObject $临时文件 #PowerShell 爬虫步骤3:根据模板匹配扣出需要的行列标准内容。关键就是做好模板。
$结果 | Format-Table -AutoSize | Tee-Object -Append -FilePath $输出文件路径全名
--------------------终--------------------
安装 powershell 5.1 for win7-sp1-64
1确保你已经安装了.net 4.5以上。如果没装,直接装.net 4.62即可:
Microsoft .NET Framework 4.62(win10红石自带此版本。其他win版本建议立即安装)
https://www.microsoft.com/zh-cn/download/details.aspx?id=53344
Microsoft .NET Framework 4.62 简体中文语言包
https://www.microsoft.com/zh-cn/download/details.aspx?id=53323
2装ps 5.1:
https://msdn.microsoft.com/en-us/powershell/wmf/5.1/install-configure
汝之老家,他就在这个屯,汝是win屯土生土长的人~~~
虽然家里不咋大,却有bat,有vbs,有powershellllllll
家里养的俩爬虫,誓要把那蟒蛇(python)挤回linux去~~~
引用 转帖 的 powershell 爬虫 相关文章:
http://beanxyz.blog.51cto.com/5570417/1784596
powershell中的两只爬虫的更多相关文章
- Scrapy爬虫框架中的两个流程
下面对比了Scrapy爬虫框架中的两个流程—— ① Scrapy框架的基本运作流程:② Spider或其子类的几个方法的执行流程. 这两个流程是互相联系的,可对比学习. 1 ● Scrapy框架的基本 ...
- PowerShell中的基础数据类型
PowerShell是一个面向对象的语言,在申明变量的时候不强制要求申明数据类型,使用$开头来申明变量即可. 基本数据类型 PowerShell本身是基于.Net开发出来的,所以在.Net中的基本数据 ...
- 使用管道符在PowerShell中进行各种数据操作
最近在培训PowerShell,在讲到Pipeline的时候,对于我这种长期和数据(数据库)打交道的人来说,觉得很实用,所以写此博文,记录一下. 无论是在Linux中写Bash脚本还是在Window上 ...
- PowerShell_零基础自学课程_5_自定义PowerShell环境及Powershell中的基本概念
PowerShell_零基础自学课程_5_自定义PowerShell环境及Powershell中的基本概念 据我个人所知,windows下的cmd shell除了能够通过修改系统参数来对其中的环境变量 ...
- MySQL中的两种临时表
MySQL中的两种临时表 伯乐在线2016-07-06 05:16:52阅读(4556)评论(3) 声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场.举报 ...
- Linux中的两种守护进程stand alone和xinetd
Linux中的两种守护进程stand alone和xinetd --http://www.cnblogs.com/itech/archive/2010/12/27/1914846.html#top 一 ...
- 洛谷P1518 两只塔姆沃斯牛 The Tamworth Two
P1518 两只塔姆沃斯牛 The Tamworth Two 109通过 184提交 题目提供者该用户不存在 标签USACO 难度普及+/提高 提交 讨论 题解 最新讨论 求数据 题目背景 题目描 ...
- Linq to Entity中连接两个数据库时要注意的问题
Linq to Entity中连接两个数据库时要注意的问题 今天大学同学问了我一个问题,Linq to Entity中连接两个数据库时,报错“指定的 LINQ 表达式包含对与不同上下文关联的查询的引用 ...
- ScrollView中嵌套两个ListView
做的项目中要使用两个ListView在同一个页面上下显示,因为数据源不同,不能通过在Adapter中设置标志位去区分显示,最后只能硬着头皮做一个ScrollView嵌套两个ListView,但按正常情 ...
随机推荐
- 你不要用战术上的勤奋掩盖战略上的懒惰by雷军
这个问题很有趣. 战略.战术.勤奋.懒惰,我们拆开来看吧,虽然我觉得其实分析一个人说话是为什么是很没有意义的事情.我们要先了解一下,公司的组织中,谁是指定战略的,谁是指定战术的.公司战略和战术意味着什 ...
- RQNOJ Bus
H城是一座小城市,前几日才刚刚建立公交系统,且只有一辆公交车.于是,如何最大化这唯一一辆公交车的载客量成了亟待解决的问题. H城的俯视图可以近似地看成是一个棋盘网络——共有N行M列,从南向北,每行从1 ...
- JavaScript encodeURI(), decodeURI(), encodeURIComponent(), decodeURIComponent()
URI: Uniform Resource Identifier encodeURI() And decodeURI() The encodeURI() function is used to en ...
- vlc播放yuv文件
vlc.exe --demux rawvideo --rawvid-fps 25 --rawvid-width 480 --rawvid-height 272 --rawvid-chroma I420 ...
- java.sql.SQLException: Access denied for user 'root'@'localhost' (using password: NO)
在更新项目之后,做了一定的改动后发现竟然报错了,刚才还好好的. java.sql.SQLException: Access denied for user 'root'@'localhost' (us ...
- js中==, !==, === ,!=的区别
在讨论比较符的时候我们先要来讨论哈js的类型,这样有助于我们从本质上了解原理. 下面是我找的资料加上个人的总结: js中有5种数据类型:Undefined.Null.Boolean.Number和St ...
- 16-underscore库(上)
第16课 underscore库 一.介绍 Underscore 是一个 JavaScript 工具库,它提供了一整套函数式编程的实用功能,但是没有扩展任何 JavaScript 内置对象.他弥补了 ...
- Java 中的 static 使用之静态方法
与静态变量一样,我们也可以使用 static 修饰方法,称为静态方法或类方法.其实之前我们一直写的 main 方法就是静态方法.静态方法的使用如: 运行结果: 需要注意: 1. 静态方法中可以直接调用 ...
- 从零开始HTML(一 2016/9/19)
就是准备跟着W3C上的教程过一遍HTML啦,边看边记录更便于理解记忆吧~ 1.属性 HTML 标签可以拥有属性.属性提供了有关 HTML 元素的更多的信息.属性总是以名称/值对的形式出现,比如:nam ...
- Flex 文本控件实现自定义复制粘贴
由于添加了自定义右键菜单,导致Textinput控件默认的右键复制粘贴功能被屏蔽了.最后通过JS脚本实现这个功能,参考代码如下 <?xml version="1.0" enc ...