---恢复内容开始---

python爬虫学习从0开始

　　　　第一次学习了python语法，迫不及待的来开始python的项目。首先接触了爬虫，是一个简单爬虫。个人感觉python非常简洁，相比起java或其他面向对象的编程语言，动态语言不需要声明函数或变量类型。python有20年的发展历史，以简洁高效闻名，python最初只是一个马戏团的名字，它的哲学是‘用一种方法完成一件事情’。我第一次使用python时就被它的简洁高效迷住了，相比起c++和java，他简直太棒了。而且现阶段的大数据和人工智能领域，python都有着绝对无可替代的地位。

　　　一、爬虫是什么？

　　　　大数据时代，海量的数据以兆亿级的规模出现，而且每时每刻都在不停的变化，怎样从这么多数据中提取我们所需要的数据，就变得十分的重要，尤其对于一些大企业，数据就是公司发展的命脉。网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。就是爬虫程序会自动沿着制定的URL去爬取有用的数据，搜索引擎就是建立在爬虫基础上的。但是搜索引擎有自身的局限性，只能够通过关键字进行检索，我们需要手动进入相关网页进行筛选。这个时候如果利用爬虫，就能够实现简单的定向抓取。

　　　二、爬虫涉及到的python知识？

　　　　爬虫经历三个步骤：首先向目标网页发出请求，经服务器返回一个响应html的源码；然后通过beatifulsoup库或者Xpath表达式来对源码进行解析，提取有用信息；最后通过文件保存相关信息，进行数据清洗或分析。

　　　　我们所需要的环境：IDE的话pycharm就好，个人认为这个是最好的pythonIDE，支持windows以及mac系统。当然你必须先在自己的电脑安装python，具体安装方法百度即可，在这个地方说明的是，python2.7是默认在mac上，不过用就用最新版的吧，python3和python2有区别的。直接用vim写也可以。这里需要使用谷歌浏览器分析源网页html代码。

　　　三、爬取豆瓣网的top250：

　　　　开始之前需要了解谷歌浏览器的操作：

　　　　直接在更多选择工具的开发者工具，这里可能需要用到html的知识，其实就是一些标签，如<div>、<a>、<span>等等。（具体学习一下html吧！）然后，单击右键选择标题如《肖申克的救赎》，使用检查命令。可以在右侧Elements里面看到<span class="title">这个标签，中间的中文就是我们需要爬取的电影名字。同样我们还需要爬取的是评分，可以找到<span class="rating_num">这样的标签，当然你也可以爬取一句话评语。

　　　　我用到requests库，当然还有urllib这个库也可以，这个比较繁琐。pycharm中可以直接安装，bash中使用pip3的指令。

　　　　首先，我们需要向目标网页发送下载请求：

　　　　url='https://movie.douban.com/top250'

　　　　res=requests.get(url)

　　　　print(res.status_code)　　　　

　　　　这里可能会有乱码。因为你没有定义下载的html代码的编码格式，在res后面附加一句：res.encoding='UTF-8'，即可。同样网站会有反爬措施，诸如过频繁请求，或者限制，这是需要使用一个user-agent：就在network这个卡的最下面，不过一般使用Mozilla/5.0就可以。定义一个头文件：（复制粘贴就可以）

headers={
'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36',
'Host':'movie.douban.com'
}

替换：res=requests.get(url,headers=headers)

这个时候你的status_code就会是200，200表示正常反馈。400就是不正常。（反爬手段）

　　　　当然你可以下载html代码自己看看，不过挺杂乱。直接 print(res.text) 就行了。

　　　　　好了，已经获得了网页源码，这个时候就该解析相关数据了：beatifulsoup实例化。

　　　　 soup=BeatifulSoup(res.text,'html.parser') #建立soup对象。

　　　　 div_list=soup.find_all('div',class_='hd') #这里的div标签在<li>标签下面，每一个<li>标签都表示一部电影的信息。我们所需要的信息都存在<div class='hd'>里。

　　　　 for each in div_list:

　　　　　　movie=each.find('a').find('span').text.strip()

　　　　　　movie_list.append(movie)

　　　　 movie_list是一个空列表，专门存放电影名字。strip()函数是去除字符串两端的字符，这里是去除空格。但是我们发现，网页貌似有10页面，我们这里利用for循环遍历url。

url变化的只是最后一部分的：

　　　　　movie_list=[]

　　　　　for i in range(0,10):

　　　　　　　　url='http://movie.douban.com/top250?start='+str(i*25)

　　　　　　　　res=......

　　　　　　　　soup=BeatifulSoup(res.text,'html.parser')

　　　　　　　　div_list=soup.find_all('div',class_='hd')　　

　　　　　　　　for each in div_list:

　　　　　　　　　　movie=each.find('a').find('span').text.strip()

　　　　　　　　　　movie_list.append(movie)

　　　　　　return movie_list

　　　　　这样就可以了。简单的爬虫就完成了。　　　　

　　　　最后我们需要将取得的数据存储。你也可以选择存进mysql，具体涉及pymysql。

　　　　 file='desktop/douban.csv'

　　　　　with open(file,'w+') as f:

　　　　　　　　f.write(movie_list)

　　　　　　　　f.close()

　　　　 csv用文本编辑器打开。也可用excle打开具体百度。　　　　　

python 简单爬虫（beatifulsoup)的更多相关文章

Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
Python 简单爬虫案例
Python 简单爬虫案例 import requests url = "https://www.sogou.com/web" # 封装参数 wd = input('enter a ...
Python简单爬虫记录
为了避免自己忘了Python的爬虫相关知识和流程,下面简单的记录一下爬虫的基本要求和编程问题!! 简单了解了一下,爬虫的方法很多,我简单的使用了已经做好的库requests来获取网页信息和Beauti ...
Python简单爬虫
爬虫简介自动抓取互联网信息的程序从一个词条的URL访问到所有相关词条的URL,并提取出有价值的数据价值:互联网的数据为我所用简单爬虫架构实现爬虫,需要从以下几个方面考虑爬虫调度端:启动爬虫 ...
python简单爬虫一
简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息.然后我们可以将这些有用的信息保存到数据库或者保存到文件中.如果我们手工一个一个访问提取非常慢,所以我们需要编 ...
python 简单爬虫diy
简单爬虫直接diy, 复杂的用scrapy import urllib2 import re from bs4 import BeautifulSoap req = urllib2.Request(u ...
Python简单爬虫入门一
为大家介绍一个简单的爬虫工具BeautifulSoup BeautifulSoup拥有强大的解析网页及查找元素的功能本次测试环境为python3.4(由于python2.7编码格式问题) 此工具在搜索 ...

随机推荐

HBase、HDFS与本地文件系统之间的关系
一.文件系统 1. 概念所谓文件系统,是操作系统用于明确磁盘或分区上的文件的方法和数据结构:即在磁盘上组织文件的方法.也指用于存储文件的磁盘或分区,或文件系统种类. 2. Local File Sy ...
VMware安装完后，没有虚拟网卡
1 问题描述: 1.1 windows10首次安装VMware,或者非首次安装VMware时,安装后,没有出现如下图所示的虚拟网卡: 1.2 Xshell或者SecureCRT 或者editplus等 ...
loadrunner怎么进行内容检查
运行测试时,常常需要验证某些内容是否出现在返回的页面上.内容检查验证脚本运行时 Web 页面上是否出现期望的信息.可以插入两种类型的内容检查:➤ 文本检查.检查文本字符串是否出现在 Web 页面上.➤ ...
jquery删除记录弹出提示框
来自于<jquery权威指南> ------------------- 点击删除时,弹出提示框,并做相应的删除确定或取消完整代码如下: <!DOCTYPE html PUBLIC ...
vim全局替换命令-乾颐堂
语法为 :[addr]s/源字符串/目的字符串/[option] 全局替换命令为::%s/源字符串/目的字符串/g [addr] 表示检索范围,省略时表示当前行. 如:“1,20” :表示从第1行到2 ...
JavaScript中的shift()、unshift()和pop()函数
JavaScript中的shift()和pop()函数 1.shift()函数定义该函数从从数组中删除第一项,并返回该删除项. 用法示例 var fruits = ["Banana& ...
ubuntu-server部署php+mysql运行环境
1.apt-get install git php5 mysql-server apache2 phpmyadmin 2.sudo ln -s /usr/share/phpmyadmin /var/w ...
第01章 ElasticSearch简介
本章内容 Apache Lucene是什么. Lucene的整体架构. 文本分析过程是如何实现的. Apache Lucene的查询语言及其使用方法. ElasticSearch的基本概念. ELas ...
Animation(动画效果)
Ctrl+6打开Animation窗口.选择物体,点击录制,保存录制文件后即为给该物体添加了动画效果. Animation可以修改某时间点的物体位置.大小.材质球上的所有属性.碰撞器等等. 可以通过修 ...
初涉Runtime （一）
Objective-C 是一门动态语言,有很多东西都是运行时才确定的. 比如这句代码首先声明testObject是一个NSString,然后创建了一个NSData对象,并且将这个对象的内存地址保存在t ...

python 简单爬虫（beatifulsoup)

python爬虫学习从0开始

一、爬虫是什么？

二、爬虫涉及到的python知识？

三、爬取豆瓣网的top250：

python 简单爬虫（beatifulsoup)的更多相关文章

随机推荐

热门专题

　　　一、爬虫是什么？

　　　二、爬虫涉及到的python知识？

　　　三、爬取豆瓣网的top250：