需求

爬取百度搜索某个关键字对应的前一百个网址。

实现方式

VS2017 + Chrome

.NET Framework + C# + Selenium(浏览器自动化测试框架)

环境准备

创建控制台应用程序,通过NuGet添加对Selenium的引用

这里因为我用的Google浏览器，所以添加这两个的引用。

代码输出

         static void GrabUrlByKeyWord(string keyWord)

         {

             //创建chrome驱动程序

             IWebDriver webDriver = new ChromeDriver();

             //跳至百度

             webDriver.Navigate().GoToUrl("https://www.baidu.com");

             //找到页面上的搜索框 输入关键字

             webDriver.FindElement(By.Id("kw")).SendKeys(keyWord);

             //点击搜索按钮

             webDriver.FindElement(By.Id("su")).Click();

         }

运行看一下效果先

         static void Main(string[] args)

         {

             GrabUrlByKeyWord("香香瓜子");

         }

是不是感觉太简单了，这么快就来到目标页面了（这么想就太天真了。。）

F12,观察发现搜索结果都在一个id为content_left的div中，进一步解刨

百度对目标做了中转，最关键的是它对目标url做了加密。。。

那么？问题来了，我们怎么获取到目标真实的网址呢？

当然，方法有很多：

①可以通过Selenium模拟真实操作，每个结果都点进去，获取地址栏的网址；（这样效率是不是太低了。。。）

②解密；（目前我还没有找到解密方法。。。）

③后台通过HttpClient发送请求，获取url；

......

把想说的思想总结一下：

使用HttpClient一个一个去请求的地址来获取真实地址的话，这样效率很低，

使用PLINQ并行查询或多线程的话，效率变高了，但是它的执行顺序是不定的，

我们需要的结果又是排名的顺序，这时候可以把操作对象封装成不依赖顺序的model，

例如给model加一个rank排名属性，后期可以根据该属性进行处理。

贴一段来自Microsoft的文本：

虽然可以指示 PLINQ 暂留任何源序列的顺序，但这会对性能产生不利影响。 最佳做法是，尽量将查询的结构设计为不依赖顺序暂留。

C#+Selenium抓取百度搜索结果前100网址的更多相关文章

selenium-java web自动化测试工具抓取百度搜索结果实例
selenium-java web自动化测试工具抓取百度搜索结果实例这种方式抓百度的搜索关键字结果非常容易抓长尾关键词,根据热门关键词去抓更多内容可以用抓google,百度的这种内容容易给屏蔽,用这 ...
PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...
使用python抓取百度搜索、百度新闻搜索的关键词个数
由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本. 在写这个脚本的过程中遇到了很多的问题,下面会一一道来. ps:我并没有系统地学习过pyth ...
python爬取百度搜索结果ur汇总
写了两篇之后,我觉得关于爬虫,重点还是分析过程分析些什么呢: 1)首先明确自己要爬取的目标比如这次我们需要爬取的是使用百度搜索之后所有出来的url结果 2)分析手动进行的获取目标的过程,以便以程序 ...
关于python抓取google搜索结果的若干问题
关于python抓取google搜索结果的若干问题前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
Python抓取百度百科数据
前言本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略确定目标:确定抓取哪个网站的哪些页面的哪部分 ...

随机推荐

算法与数据结构基础 - 深度优先搜索(DFS)
DFS基础深度优先搜索(Depth First Search)是一种搜索思路,相比广度优先搜索(BFS),DFS对每一个分枝路径深入到不能再深入为止,其应用于树/图的遍历.嵌套关系处理.回溯等,可以 ...
导出wordpress数据库Fatal error: Cannot 'break' 2 levels
今天我打算备份一下我在Linux下用宝塔面板搭建的phpmyadmin导出wordpress数据库.选择数据库后给我一个Fatal error: Cannot 'break' 2 levels in ...
编程范式 --- 面向协议编程（Protocol Oriented Programming，简称POP）
面向协议编程(Protocol Oriented Programming,简称POP) 是Swift的一种编程范式,Apple于2015年WWDC踢出在Swift的标准库中,能见到大量POP的影子 ...
小鸟初学Shell编程（七）变量引用及作用范围
变量引用那么定义好变量,如何打印变量的值呢?举例下变量引用的方式. ${变量名}称作为对变量的引用 echo ${变量名}查看变量的值 ${变量名}在部分情况下可以省略成 $变量名 [root@li ...
Cisco交换机基本使用命令
作者:小啊博 QQ:762641008 转载请声明URL:https://www.cnblogs.com/-bobo/ 一.进入命令行 switch> ...
druid 连接池的配置参数
介绍 DRUID是阿里巴巴开源平台上一个数据库连接池实现,它结合了C3P0.DBCP.PROXOOL等DB池的优点,同时加入了日志监控,可以很好的监控DB池连接和SQL的执行情况,可以说是针对监控而生 ...
【ADO.NET-中级】百万级数据的批量插入的两种方法测试
在SQL Server 中插入一条数据使用Insert语句,但是如果想要批量插入一堆数据的话,循环使用Insert不仅效率低,而且会导致SQL一系统性能问题.下面介绍SQL Server支持的两种批量 ...
Ceph 的 'MAX AVAIL' 和数据平衡 - Storage 6
1. 客户环境节点数量:4个存储节点 OSD数量:每个节点10块8GB磁盘,总共 40 块OSD Ceph 版本: Storage 6 使用类型: CephFS 文件 CephFS数据池: EC ...
SkyWalking系列（一）：初探
SkyWalking已经再微服务商城系列里使用了,本篇将介绍如何再Windows系统下安装并简单使用. 1.下载SkyWaling 本篇测试使用6.0版本:http://skywalking.apac ...
痞子衡嵌入式：史上最强i.MX RT学习资源汇总(持续更新中...)
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是i.MX RT学习资源. 类别资源简介官方汇总 i.MXRT产品主页恩智浦官方i.MXRT产品主页,最权威的资料都在这里,参考手 ...

C#+Selenium抓取百度搜索结果前100网址

需求

实现方式

环境准备

代码输出

C#+Selenium抓取百度搜索结果前100网址的更多相关文章

随机推荐

热门专题