2，简单的Python爬虫

前言

根据上一篇 1，Python爬虫环境的安装我们已经在本地安装好了Python环境，那么这一篇就开始学习如何用Python来爬虫！

环境：操作系统：Windows10

IDE： PyCharm2018.1

解释器：python3.6

1，只需短短4行

或许Python爬虫给大家的感觉就是比较高级，比较牛逼的一项技术，而其实呢，它的核心代码就只有以下几行！（至少对于初学者来说，只需要知道它如何使用）

 import requests    # 导入requests模块。如果报错，就是没有安装该模块；安装：鼠标点击红色部分->【ALT+回车】->回车。或在命令行使用pip install requests安装。

 url = "http://www.baidu.com"   # 要爬取网站的网址，一定要加http://

 page = requests.get(url)    # 模拟请求（与浏览器原理相同）

 print(page.text)    # 输出网站的源码（HTML代码）

2，对比

一开始大家(包括我自己)接触比较多的可能是urllib和urllib3；python2用的是urllib和urllib2，在python3中已经没有urllib2了，所以在看教程的时候一定要看清是python2还是python3。

其实用哪个库都没有太大关系，因为他们其实都是在底层实现了HTTP协议，然后自己再把接口封装以下，理解了原理其实都是差不多的；但是推荐大家使用requests库(我看很多大牛都推荐这个)，他是个第三方库(不是python自家的)，所以需要安装，代码中给出了安装方法。这个库给我的感觉就是使用起来更加简单，可读性很好，比较符合Python的风格，大牛们推荐他可能还有其他原因，有待学习！

3，解析

所谓爬虫，其实也就是在互联网这张大网中筛选我们需要的信息。上面的代码只是把整个页面的内容下载下来了，并没有什么实际作用。而我们实际需要的是其中的一些图片或者某些文字，那就需要对这些下载下来的内容进行解析了，最简单粗暴的方法是使用正则(re)表达式来匹配(这是必备的，网上有很多学习教程)；而更好的方法是先使用xpath(一种解析html文档的语法)获取想要的内容，然后再用re处理获取的内容，使内容更符合我们需要。

4，要学什么

上面是让大家更好地理解爬虫，和基本步骤；下面就是初学需要学些什么东西：

爬虫三部曲：

1，下载页面：使用requests下载网站页面；学习requests模块的基本使用。

2，解析页面：在下载下来的页面中获取想要的信息；学习lxml模块，re模块，xpath语法和re语法的基本使用。

3，保存信息：把解析后的信息保存到本地(先学会保存到Excel表)；学习xlwt模块。

2，简单的Python爬虫的更多相关文章

一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
简单的python爬虫教程：批量爬取图片
python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...
【Python学习笔记三】一个简单的python爬虫
这里写爬虫用的requests插件 1.一般那3.x版本的python安装后都带有相应的安装文件,目录在python安装目录的Scripts中,如下: 2.将scripts的目录配置到环境变量pa ...
一个简单的python爬虫，以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例
本想抓取网易摄影上的图,但发现查看html源代码时找不到图片的url,但firebug却能定位得到.(不知道为什么???) 目标是抓取前50页的爆乳图,代码如下: import urllib2,url ...
一个简单的python爬虫（转）
# -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作者:why # 日期: ...
一个简单的Python爬虫
写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品. 从网页http://mm.taobao.com/json/request_top_list.htm?type ...
简单的python爬虫实例
目标网站:https://www.quanjing.com/category/1286521/2.html 爬取搜索出来的所有“中东人”的图片: 先看一下源代码,找到存放图片链接的地方,在源代码最下面 ...

随机推荐

Java.前端模板.Thymleaf
1. Input 日期格式化 <input id="renewalDate" name="renewalDate" th:value="${#d ...
.net Core发布至IIS完全手册带各种踩坑
服务器环境配置和各位大爷报告一下我的服务器环境 : Windows Server 2012 iis 8 小插曲开始: 运维大哥在昨天给了我一台新的server 0环境开始搭建 . 并且没有安装任何的 ...
SpringCloud Zipkin
原文地址:https://blog.csdn.net/z8414/article/details/78600646 Zipkin是一个链路跟踪工具,可以用来监控微服务集群中调用链路的通畅情况前提:S ...
Python 练习实例100 | 菜鸟教程
http://www.runoob.com/python/python-exercise-example100.html
对于传统scnece-classfication的分析
BoW模型最初应用于文本处理领域,用来对文档进行分类和识别.BoW 模型因为其简单有效的优点而得到了广泛的应用.其基本原理可以用以下例子来给予描述.给定两句简单的文档: 文档 1:“我喜欢跳舞,小明也 ...
Nginx-Http服务器常用配置
#运行用户 user nobody; #启动进程,通常设置成和cpu的数量相等 worker_processes 1; #全局错误日志及PID文件 #error_log logs/error.log; ...
pycharm2019破解
pycharm2019 2破解教程参考这个方法 https://www.cnblogs.com/liuyanhang/p/11088167.html
透过现象看webpack处理css文件中图片路径转换的具体过程
webpack是目前使用比较流行的一个前端模块打包器,前端的任何资源都被当成一个模块来处理,如图片.css文件等等.在基于webpack构建的前端项目中,一般都会配置有关css文件处理的规则,这其中也 ...
jdk和dubbo的SPI机制
前言:开闭原则一直是软件开发领域中所追求的,开闭原则中的"开"是指对于组件功能的扩展是开放的,是允许对其进行功能扩展的,“闭”,是指对于原有代码的修改是封闭的,即不应该修改原有的代 ...
用java编写代码实现关机
public static void main(String[] args) { Runtime runtime = Runtime.getRuntime(); try { runtime.exec( ...

2，简单的Python爬虫

2，简单的Python爬虫的更多相关文章

随机推荐

热门专题