爬取前相关库文件的安装

1.python安装，如果还没有安装可以去Python官网去下载安装相应的版本，这里我使用的是Python3.6.1。

2.requests库安装，使用cmd命令打开命令行，接着pip install requests，等待一些时间后安装就完成啦。同时这里不在介绍requests库的详细使用，如果想查看更多的使用，可以前往http://docs.python-requests.org/zh_CN/latest/user/quickstart.html进行学习。

3.bs4安装，这次使用到的解析工具是BeautifulSoup，所以在写代码前需要安装好，还是在命令行输入pip install bs4进行安装。BeautifulSoup的学习可以前往https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html。

网页分析

1.首先观察页面，找到我们想要提取的数据在哪。

2.接着打开F12开发者工具，点击下图所示的箭头再点击网页上的内容，查看它出现在真正网页的位置。

3.复制这则新闻的链接，查看网页源代码并`Ctrl+F`搜索该链接是否在网页源码中。

4.可以看到这个网页的新闻信息并没有通过其它方式来加载，而是处在网页的源代码中，这就为我们的提取省了不少时间。

5.返回到页面，查看网页代码结构可以发现所有的新闻都处于一个class为yaowen的div下的p标签内，我们只要能够提取出这些p标签，再从中得到a标签就可以得到我们想要的这个页面的新闻标题以及链接。

代码的编写

import requests

from bs4 import BeautifulSoup

import json

# 构造headers

headers = {

	"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0",

}

def get_html(url):

	# 使用requests构造get请求

	response = requests.get(url=url, headers=headers)

	# 根据返回的状态来判断是否请求成功

	if response.status_code == 200:

		# 通过text属性来获取网页的源代码

		html = response.text

		print(html)

	else:

		print(response.status_code)

def main():

	url = "http://2018.qq.com/"

	html = get_html(url)

if __name__ == '__main__':

	main()

这里首先用一个get_html()函数来得到网页的源代码，执行后结果如下：

接下来使用parse_html()来对得到的源代码进行解析

def parse_html(html):

	# 使用字典来保存

	infos = {}

	# 创建BeautifulSoup对象

	soup = BeautifulSoup(html, 'lxml')

	# 使用css选择器来选择出所有的a标签，返回一个列表

	news = soup.select("div.yaowen a[href^='http://2018.qq.com/a/']")

	# 遍历列表存入信息到字典

	for new in news:

		infos[new.get_text()] = new.get("href")

	return infos

执行结果如下，可以看到我们想要的该页面新闻标题以及新闻链接都提取下来了。

最后将得到的数据存入到文件中

def save_to_file(news):

	# 将字典转化为字符串格式再存入文件中

	news = json.dumps(news, ensure_ascii=False)

	with open("news.txt", "w", encoding="utf-8") as f:

		f.write(news)

	print("保存至文件成功")

打开news.txt文件，查看内容

至此，我们想要的信息已经抓取下来了，虽然数据不是很多，就当做是对基本爬虫操作的复习吧！

Python爬虫学习三------requests+BeautifulSoup爬取简单网页的更多相关文章

Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例
以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页. 详细介绍都在代码中注释了,大家可以参阅. # -* ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
Python网络爬虫第三弹《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python爬虫实践（二）——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析
学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...

随机推荐

Linux 设置简单密码
centos: echo 密码 | passwd --stdin 用户名 ubuntu:(需先设置一个密码) sudo passwd username https://blog.csdn.net/mi ...
分布式一致性算法 2PC 3PC Paxos
分布式一致性算法的目的是为了解决分布式系统一致性算法可以通过共享内存(需要锁)或者消息传递实现,本文讨论后者实现的一致性算法,不仅仅是分布式系统中,凡是多个过程需要达成某种一致的场合都可以使用. 本 ...
Linux网络文件下载
wget 以网络下载 maven 包为例 wget -c http://mirrors.shu.edu.cn/apache/maven/maven-3/3.5.4/binaries/apache-ma ...
meidi
最近觉得某些公司的选择题也是很基础,非常值得总结回味.今天做了美的的笔试,20道选择题(单选14+6多选).特此记录如下(部分忘了烦请见谅): 1. 是我昨晚刚刚总结的List,Set,Map的区别: ...
BellmanFord为什么只需松弛V-1次
首先s不用松弛,V-=1 然后对于其他的顶点..每次都至少能完全松弛一个顶点.. 为什么呢..因为初始d[s]=0,所以和s相邻接的边都将被松弛完全..无论松弛的顺序那么对于这个图,无论松弛的顺序都 ...
痞子衡嵌入式：超级下载算法(RT-UFL)开发笔记（4） - 轮询Flash配置参数
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是超级下载算法开发笔记(4)之轮询Flash配置参数. 文接上篇 <超级下载算法(RT-UFL)开发笔记(3) - 统一FlexSP ...
CSS 检测 IE 浏览器
CSS 检测 IE 浏览器 <!--[if IE]> <link href="ie.css" rel="stylesheet"> < ...
MathJax TeX & LaTeX
MathJax TeX & LaTeX mathcal https://leetcode-cn.com/problems/binary-search/solution/er-fen-cha-z ...
Angular 2 for 2017 web full stack development
1 1 1 Angular 2 for 2017 web full stack development 1 1 https://angular2.xgqfrms.xyz/ https://ng2-he ...
Web Components All In One
Web Components All In One Web Components https://www.webcomponents.org/ HTML Template Custom Element ...

Python爬虫学习三------requests+BeautifulSoup爬取简单网页

爬取前相关库文件的安装

网页分析

1.首先观察页面，找到我们想要提取的数据在哪。

2.接着打开F12开发者工具，点击下图所示的箭头再点击网页上的内容，查看它出现在真正网页的位置。

3.复制这则新闻的链接，查看网页源代码并Ctrl+F搜索该链接是否在网页源码中。

4.可以看到这个网页的新闻信息并没有通过其它方式来加载，而是处在网页的源代码中，这就为我们的提取省了不少时间。

5.返回到页面，查看网页代码结构可以发现所有的新闻都处于一个class为yaowen的div下的p标签内，我们只要能够提取出这些p标签，再从中得到a标签就可以得到我们想要的这个页面的新闻标题以及链接。

代码的编写

这里首先用一个get_html()函数来得到网页的源代码，执行后结果如下：

接下来使用parse_html()来对得到的源代码进行解析

执行结果如下，可以看到我们想要的该页面新闻标题以及新闻链接都提取下来了。

最后将得到的数据存入到文件中

打开news.txt文件，查看内容

至此，我们想要的信息已经抓取下来了，虽然数据不是很多，就当做是对基本爬虫操作的复习吧！

Python爬虫学习三------requests+BeautifulSoup爬取简单网页的更多相关文章

随机推荐

热门专题

3.复制这则新闻的链接，查看网页源代码并`Ctrl+F`搜索该链接是否在网页源码中。