Python：输入关键字进行百度搜索并爬取搜索结果

学习自：手把手教你用Python爬取百度搜索结果并保存 - 云+社区 - 腾讯云

如何利用python模拟百度搜索,Python交流,技术交流区,鱼C论坛

指定关键字，对其进行百度搜索，保存搜索结果，记录下搜索的内容和标题

思路：

首页：https://www.baidu.com/s?wd=* （将*替换为关键字即可）

其他页：https://www.baidu.com/s?wd=*&pn=n（n/10+1为实际的页）

1、利用关键字构建百度搜索的URL

2、爬虫爬取该URL

3、分析每个可选项的XPath，记录下可选项的名字与URL

4、注意到每一个搜索项的XPath为//*[@class="t"]/a，其名字就是该项的文本内容，而链接是该项的属性href

#每一个搜索项的XPath

//*[@class="t"]/a

#每一项标题的XPath

.    #就一个点

#每一项链接的XPath

./@href

5、提取标题后，需要对用正则表达式进行筛选，因为页面源代码中有<em>与</em>标签，所以需要用正则表达式将该标签删除。因此，这里不能直接用XPath函数text()提取，而应该用extract直接提取源代码，然后用正则表达式从中提取需要的要素

        eles=response.xpath('//*[@class="t"]/a') #提取搜索每一项

        for ele in eles:

            name=ele.xpath('.').extract()    #提取标题相关的要素源码,extract方法返回一个List

            name=''.join(name).strip()        #要将List中的要素连接起来

            name=name.replace('<em>','').replace('</em>', '')#删除其中的<em>与</em>标签

            re_bd=re.compile(r'>(.*)</a>')#构建re compile

            item['name']=re_bd.search(name).groups(1)#筛选name项

            item['link']=ele.xpath('./@href').extract()[0]#直接提取Link

            yield item

6、完整代码如下

import scrapy

from scrapy import Request

from BD.items import BdItem

import re

class BdsSpider(scrapy.Spider):

    name = 'BDS'

    allowed_domains = ['www.baidu.com']

    key=input('输入关键字')

    url='http://www.baidu.com/s?wd='+key

    start_urls = [url]

    def parse(self, response):

        item=BdItem()

        eles=response.xpath('//*[@class="t"]/a')

        for ele in eles:

            name=ele.xpath('.').extract()

            name=''.join(name).strip()

            name=name.replace('<em>','').replace('</em>', '')

            re_bd=re.compile(r'>(.*)</a>')

            item['name']=re_bd.search(name).groups(1)

            item['link']=ele.xpath('./@href').extract()[0]

            yield item

        next_url = self.url + '&pn=10'

        yield Request(url=next_url)

7、运行

scrapy crawl BDS -O baidu.csv

其他

Setting中需要设置User-Agent，以避免被百度识别为爬虫而拒绝请求

Python：输入关键字进行百度搜索并爬取搜索结果的更多相关文章

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
十三 web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
Python网页解析库：用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
爬虫（二）Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
Python爬虫小白入门（六）爬取披头士乐队历年专辑封面-网易云音乐
一.前言前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图. 通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小. 我的例子怎么都是爬取图片? ...

随机推荐

前端基础之javaScript(函数)
目录一:javaScript函数 1.函数关键字 2.格式 3.无参函数 4.有参函数二:关键字arguments 1.能够获取函数接受的索引参数 2.关键字arguments(限制函数不能多也不 ...
hive 常用日期格式转换
固定日期转换成时间戳select unix_timestamp('2016-08-16','yyyy-MM-dd') --1471276800select unix_timestamp('201608 ...
TensorFlow 卷积神经网络实用指南 | iBooker·ApacheCN
原文:Hands-On Convolutional Neural Networks with TensorFlow 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译不要担心自己的形象,只关心 ...
理解https中的安全及其实现原理
Google的一份网络上的 HTTPS 加密透明报告(数据截至2022年1月)中指出HTTPS 连接的普及率在过去几年激增,互联网上排名前 100 位的非 Google 网站HTTPS 使用情况为:9 ...
HUWEI交换机如何判断环路故障
定义以太网交换网络中为了提高网络可靠性,通常会采用冗余设备和冗余链路,然而现网中由于组网调整.配置修改.升级割接等原因,经常会造成数据或协议报文环形转发,不可避免的形成环路.如图1所示,三台设备两两 ...
python基础2-静态方法和类方法
1. 类方法是类对象所拥有的方法,需要用修饰器@classmethod来标识其为类方法,对于类方法,第一个参数必须是类对象,一般以cls作为第一个参数(当然可以用其他名称的变量作为其第一个参数,但是 ...
C++改变数组长度
C++改变数组长度代码 //改变数组长度 #ifndef CHANGELENGTH1D_H #define CHANGELENGTH1D_H #include<stdexcept> #i ...
PTM人员(产品技术经理)
以下是一位PTM的工作总结: 责任感作为PTM一定要有责任感,项目中的所有事情都要作为自己的事情,如果碰到有些项目中的工作没人负责,那么就是PTM的工作没有做到位. 全局观作为PTM一定要比普 ...
ubuntu关机和重启
本博客旨在自我学习使用,如有任何疑问请及时联系博主 linux下常用的关机命令有:shutdown.halt.poweroff.init:重启命令有:reboot.下面本文就主要介绍一些常用的关机命令 ...
Spring系列14：IoC容器的扩展点
Spring系列14:IoC容器的扩展点回顾知识需要成体系地学习,本系列文章前后有关联,建议按照顺序阅读.上一篇我们详细介绍了Spring Bean的生命周期和丰富的扩展点,没有阅读的强烈建议先阅 ...

Python：输入关键字进行百度搜索并爬取搜索结果

Python：输入关键字进行百度搜索并爬取搜索结果的更多相关文章

随机推荐

热门专题