浅谈爬虫《一》 ===python

暗_雨 2024-10-06 12:43:12 原文

浅谈爬虫《一》 ===python

‘’正文之前先啰嗦一下，准确来说，在下还只是一个刚入门IT世界的菜鸟，工作近两年了，之前做前端的时候就想写博客来着，现在都转做python了，如果还不开始写点什么，估计时间都不会原谅这么懒散的我了……

闲话到此，下面说正事儿——首先来个爬虫简介

咋一听挺神秘的样子，简单来讲爬虫就是从网络获取资源，比如你想知道淘宝上的女装什么颜色的销量好，或者哪一款零食比较有赚头儿…… 在说现在流行的人工智能，其实所谓的人工智能也就是足够的数据支撑，以及数据标记等等，使机器可以对足够多的场景作出反应……以上纯属个人观点，如有不对请指正

这次是真的讲正题了，爬虫分类，爬虫原理，以及python代码简单实现

比较同用的说法：爬虫分两类

总的来说都是网络爬虫！

我们这里主要谈论的是聚焦爬虫：

爬虫简单来讲分三步：

发起请求
得到反馈
处理数据

由于python2已经快要停止更新了(大概2020年停止)，所以我们这里直接谈论python3的方法

# 导入需要的工具包

from urllib.request import Request,urlopen

# 发起请求（以请求百度为例）

request = Request('http://www.baidu.com')

# 得到反馈

response = urlopen(request)

# 获取数据流

data = response.read()

# 数据打印并且转码为 UTF-8

print(data.decode("utf-8"))

打印结果(简略)

<!DOCTYPE html>

<!--STATUS OK-->

<html>

<head>

 …………

<title>百度一下，你就知道</title>

…………

俗话说越是简单的越南学习，在爬虫这里就体现出来了，上面的代码看起来简单，理解起来也没难度，但是不实用，只要网站稍做防范(反爬虫)，就只能傻傻发呆了……，如果您打算从事爬虫工作那么发爬虫将是您工作生涯的中心！

下面介绍一个简单的反爬虫的例子：

from urllib.request import Request,urlopen

# 请求头信息，伪装成浏览器访问

ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

request = Request("http://note.youdao.com/iyoudao/?p=2411",headers=ua_header)

#urlopen()函数,url是必须要传入的,data如果传入就是POST请求,如果不传就是GETT请求

response = urlopen(request)

#到服务器返回的数据,读取里面的全部内容

response_data = response.read()

#打印返回的数据

print(response_data.decode("utf-8"))

只在请求头(ua_header)里面添加(User-Agent)只是最简单的伪装反爬，更多的反爬虫的方式包括但不限于cookie，session，代理等等。反爬方式有待探究，下次讨论简单代理以及爬虫的其他库

浅谈爬虫《一》 ===python的更多相关文章

浅谈如何使用python抓取网页中的动态数据
我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到 ...
浅谈开发中python通过os模块存储数据
#其实本人很烦发博客,但为了面试还是发一下好,证明一下自己的能力前言首先说一下适用环境,在开发中我们有一些经常用到的数据(数据量大)需要存储起来. 存sql嘛又不合适,要知道在开发中每条sql语句 ...
浅谈装饰器(Python)
先来了解函数和执行函数在python的区别我再重新定义一个函数,在函数前面加上@set_func 执行结果如下: 函数前面没有加@set_fun 执行结果如下: 是不是可以不修改原来的函 ...
浅谈javascript和python语言的深拷贝
深拷贝: 之前在开发中我遇到一个很大的bug,经过我多次调试之后我发现原本应该有保存数据的地方数据全部被清空,仔细一看发现原来是被人为删除,明明操作的是一个副本,为什么原本也会跟着一起被删除呢?经过了 ...
浅谈mongodb与Python的交互
1. mongdb和python交互的模块 pymongo 提供了mongdb和python交互的所有方法安装方式: pip install pymongo 2. 使用pymongo 导入pymon ...
浅谈设计模式及python实现
设计模式及Python实现设计模式是什么? Christopher Alexander:“每一个模式描述了一个在我们周围不断重复发生的问题,以及该问题的解决方案的核心.这样你就能一次又一次地使用 ...
python浅谈正则的常用方法
python浅谈正则的常用方法覆盖范围70%以上上一次很多朋友写文字屏蔽说到要用正则表达,其实不是我不想用(我正则用得不是很多,看过我之前爬虫的都知道,我直接用BeautifulSoup的网页标签去 ...
浅谈五大Python Web框架
转载:http://feilong.me/2011/01/talk-about-Python-web-framework 说到Web Framework,Ruby的世界Rails一统江湖,而Pytho ...
浅谈Python时间模块
浅谈Python时间模块今天简单总结了一下Python处理时间和日期方面的模块,主要就是datetime.time.calendar三个模块的使用.希望这篇文章对于学习Python的朋友们有所帮助 ...

随机推荐

Vuex，从入门到...
Vuex 是什么? 官方是这么说的:Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式.它采用集中式存储管理应用的所有组件的状态,并以相应的规则保证状态以一种可预测的方式发生变化. 不懂? ...
sudo apt-get install 、 pip install和conda install的对比
sudo apt-get install: apt-get可以用来安装软件.更新源,也可以用来更新自Ubuntu的典型依赖包. (sudo apt-get remove --purge 软件名称 su ...
Asp.net Windows 身份验证-域验证
一.在web.config中设置: <authentication mode="Windows" /> 二.获取计算机名\账户名使用代码:HttpContext.Cu ...
tcp居然会数据延迟40ms被发送
tcpdump是很好的tcp分析工具,在此配合nc命令来学习tcpdump nc -l 8000 tcpdump -S -n -i lo tcp and host 127.0.0.1 and port ...
Robot Framework自定义测试库的作用域的理解
robot framework中,强大的测试库api支持,用户可根据实际需求定义测试库,导入后可使用自定义库中相应的关键字. 当自定义的测试库是类库,则需要考虑一个问题:类实例.用类实现的库可以有内部 ...
springboot + thymeleaf静态资源访问404
在使用springboot 和thtmeleaf开发时引用静态资源404,静态资源结如下: index.html文件: <!DOCTYPE html> <html xmlns:th= ...
centos7 远程连接其他服务器redis
在本地远程连接在终端输入: redis-cli -h 服务器ip地址 -p 端口 -a 密码
display:none和visibility:hidden的区别？
css控制元素不可见的方法 { display: none; /* 不占据空间,无法点击 */ } /************************************************* ...
python模块常用用法
1.time模块(※※※※) import time #导入时间模块 print(time.time()) #返回当前时间的时间戳,可用于计算程序运行时间 print(time.localtime() ...
微信退款（APP和公众号一样）
/** * 将xml转为array * @param string $xml xml字符串 * @return array 转换得到的数组 */ public function xml2array($ ...