Python爬虫教程(16行代码爬百度)

最近在学习python，不过有一个正则表达式一直搞不懂，自己直接使用最笨的方法写出了一个百度爬虫，只有短短16行代码。
首先安装必背包：

pip3 install bs4

pip3 install requests

安装好后，输入

import requests

from bs4 import BeautifulSoup

F5运行如果不报错则说明安装成功。
打开浏览器，输入'www.baidu.com'，即进入百度，随便搜索什么，我这里用'python'为例
可以发现，百度搜索出来的链接为

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=python****

最后可以简化为:

https://www.baidu.com/s?wd=python

所以首先尝试获取搜索结果的html:

import requests

from bs4 import BeautifulSoup

url='https://www.baidu.com/s?wd='+'python'

headers = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9","User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.16 Safari/537.36"}

html = requests.get(url,headers=headers).text

print(html)

然后，我们再从HTML里面找出我们想要的

可以看爬下来的数据也可以使用谷歌浏览器的F12
这里已谷歌的F12为例

可以发现，div标签中

class为'result c-container '的为非百度，非广告的内容(我们需要的内容)
class为'result-op c-container xpath-log'的为百度自家的内容(可以按需筛选)
class为其它的都为广告

首先定义筛选

soup = BeautifulSoup(html, 'html.parser')

使用for循环找出所有div标签，且class为'result c-container'

for div in soup.find_all('div',class_="result c-container"):

    print(div)

让后再次使用for循环在其中找出h3标签

for div in soup.find_all('div',class_="result c-container"):

    #print(div)注释掉方便检查代码

    for h3 in div.find_all('h3'):

            print(h3.text)

再次寻找出标题和链接(a标签)

for div in soup.find_all('div',class_="result c-container"):

    #print(div)

    for h3 in div.find_all('h3'):

            #print(h3.text)

            for a in h3.find_all('a'):

                    print(a.text,' url:',a['href'])

这样，我们就成功屏蔽了广告、百度百科等等
整体代码如下：

import requests

from bs4 import BeautifulSoup

url='https://www.baidu.com/s?wd='+'python'

headers = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9","User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.16 Safari/537.36"}

html = requests.get(url,headers=headers).text

print(html)

soup = BeautifulSoup(html, 'html.parser')

for div in soup.find_all('div',class_="result c-container"):

    #print(div)

    for h3 in div.find_all('h3'):

            #print(h3.text)

            for a in h3.find_all('a'):

                    print(a.text,' url:',a['href'])

#with open(r'C:/爬虫/百度.txt', 'w', encoding='utf-8') as wr:#如果需要将爬下来的内容写入文档，可以加上这两句

#        wr.write(page)

顺便说一句，里面的headers是为了隐藏爬虫身份，虽然访问量大的话没用，但不用的话百度直接可以发现你是爬虫从而直接封你的IP，这样会搞得你每次上百度都要输验证码

版权属于：DYblog

文章链接：http://dyblog.tk/index.php/archives/26/

请联系并同意后转载！

Python爬虫教程(16行代码爬百度)的更多相关文章

Python爬虫初学（二）—— 爬百度贴吧
Python爬虫初学(二)-- 爬百度贴吧昨天初步接触了爬虫,实现了爬取网络段子并逐条阅读等功能,详见Python爬虫初学(一). 今天准备对百度贴吧下手了,嘿嘿.依然是跟着这个博客学习的,这次仿照 ...
Python爬虫教程：验证码的爬取和识别详解
今天要给大家介绍的是验证码的爬取和识别,不过只涉及到最简单的图形验证码,也是现在比较常见的一种类型. 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻 ...
简单的python爬虫教程：批量爬取图片
python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...
Python爬虫教程-07-post介绍(百度翻译)（上）
Python爬虫教程-07-post介绍(百度翻译)(上) 访问网络两种方法 get: 利用参数给服务器传递信息参数为dict,使用parse编码 post :(今天给大家介绍的post) 一般向服 ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
Python爬虫教程-08-post介绍(百度翻译)（下）
Python爬虫教程-08-post介绍(下) 为了更多的设置请求信息,单纯的通过urlopen已经不太能满足需求,此时需要使用request.Request类构造Request 实例 req = ...
Python爬虫教程-33-scrapy shell 的使用
本篇详细介绍 scrapy shell 的使用,也介绍了使用 xpath 进行精确查找 Python爬虫教程-33-scrapy shell 的使用 scrapy shell 的使用条件:我们需要先 ...

随机推荐

vue对象数组数据变化，页面不渲染
很多时候,我们习惯于这样操作数组和对象: data() { // data数据 return { arr: [1,2,3], obj:{ a: 1, b: 2 } }; }, // 数据更新数组视图 ...
Anaconda 安装以及conda使用
下载 https://www.anaconda.com/distribution/#macos 管理 conda 版本查看 conda --version conda 版本更新 conda updat ...
C# WPF - MVVM实现OPC Client管理系统
前言本文主要讲解采用WPF MVVM模式设计OPC Client的过程,算作对于WPF MVVM架构的学习记录吧!不足之处请不吝赐教,感谢! 涉及知识点 C#基础 Xaml基础命令.通知和数据绑定 ...
nuget 包是如何还原包的
nuget 是如何还原包的 Intro 一直以来从来都是用 nuget 包,最近想折腾一个东西,需要自己搞一个 nuget 包的解析,用户指定 nuget 包的名称和版本,然后去解析对应的 nuget ...
八张图彻底了解JDK8 GC调优秘籍-附PDF下载
目录简介分代垃圾回收器的内存结构 JDK8中可用的GC 打印GC信息内存调整参数 Thread配置通用GC参数 CMS GC G1参数总结简介 JVM的参数有很多很多,根据我的统计JDK8 ...
Dubbo的使用及原理
Dubbo是什么? Dubbo是阿里巴巴SOA服务化治理方案的核心框架,每天为2,000+个服务提供3,000,000,000+次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点. Dubbo[]是 ...
图灵学院-微服务11-分布式链路跟踪Sleuth详解
当客户端访问到第一个service 1的时候,会生成当前链路追踪的一个全局的trance ID,在一次调用过Service1--Service2--Service3--Service4时,整个服务访问 ...
39 _ 队列5 _ 循环队列需要几个参数来确定及其含义的讲解.swf
上面讲解都是循环队列,如果是链表实现的话就很简单,队列只有循环队列才比较复杂此时队列中只存储一个有效元素3,当在删除一个元素的时候,队列为空,pFont向上移动,pFont等于pRear,但是此时p ...
信息收集-DNS
首先更正一个小白很普遍的错误观点,www.baidu.com(严格上是www.baidu.com. 这个点是根的意思,所有的记录从这里开始)并不是一个真正意义上的域名,而是百度服务器的A记录,baid ...
php计算两个时间段内的工作日工作小时
<?php class WorkTime { // 定义工作日 [1, 2, 3, 4, 5, 6, 0] public $week_workingday = [1, 2, 3, 4, 5]; ...

Python爬虫教程(16行代码爬百度)

Python爬虫教程(16行代码爬百度)的更多相关文章

随机推荐

热门专题