python爬虫-基础入门-爬取整个网站《2》

描述：

　　开场白已在《python爬虫-基础入门-爬取整个网站《1》》中描述过了，这里不在描述，只附上 python3 的代码。

python3 脚本代码：

 #-*- coding: utf-8 -*-

 import urllib.request

 def baiduNet() :

     response = urllib.request.urlopen("http://www.baidu.com")

     netcontext = response.read().decode("utf-8")

     file = open("baidutext.txt", "w", encoding='UTF-8')

     file.write(netcontext)

 if __name__ == "__main__" :

     baiduNet()

注意：

　　在python3中包urllib2归入了urllib中，所以要导入urllib.request，并且要把urllib2替换成urllib.request

urlopen方法

>> 获取页面信息

>> 语法形式

　　urllib.request.urlopen(url, data=None, [timeout])

　　-> url : 需要打开的网址

　　-> data : post需要提交的数据

　　-> timeout : 设置网站的访问超市时间

>> 结果：

　　response = urllib.request.urlopen("http://www.baidu.com")

　　netcontext = response.read().decode("utf-8")

　　使用read()方法读取响应对象中的文本，注意：得到文本数据格式为byte类型，需要decode()方法解码，转换成string类型。

--->>> 扩展，urlopen其它方法

方法	功能
read()，readline()，readlines()，fileno()，close()	对HHTTPResponse类型数据进行操作
info()	返回HTTPMessage对象，表示远程服务器返回的头信息
getcode()	返回Http状态码，如果是http请求，200请求成功状态码；404网址未找到
geturl()	返回请求的url

如有问题，欢迎纠正！！！

如有转载，请标明源处：https://www.cnblogs.com/Charles-Yuan/p/9903242.html

python爬虫-基础入门-爬取整个网站《2》的更多相关文章

python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python爬虫基础--分布式爬取贝壳网房屋信息(Client)
1. client_code01 2. client_code02 3. 这个时候运行多个client就可以分布式进行数据爬取.
Python爬虫基础--分布式爬取贝壳网房屋信息(Server)
1. server_code01 2. server_code02 3. server_code03
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

随机推荐

React 60S倒计时
React 60S倒计时 1.设置状态: 2.函数主体: 3.应用: 4..效果图:
.NET工程师必须掌握的知识点
Microsoft SQL Server 数据库一.创建和维护数据库 1.数据库 SQL Server 数据库的组成部分?(参见联机丛书) 如何保证数据库的完整性.安全性.并发性? 数据库设计创建步 ...
FW--tomcat bi-laternal https and keytool
说明:按照本文中以下内容配置https,猫server.xml中clientAuth=false,单向验证的时候,网页中可以访问:当clientAuth=true进行双向验证的时候,网页中不可以访问: ...
[hyperscan][pkg-config] hyperscan 从0到1路线图
经过一系列的研究学习,知识储备之后,终于,可以开始研究hyperscan了. [knowledge][模式匹配] 字符匹配/模式匹配正则表达式自动机 [knowledge][perl][pcre] ...
python 常见异常
上面是查看异常的类型 ,知道了异常的类型,才知道怎么捕获这种异常 ================================ AttributeError 不存在属性 IoError 输入或输 ...
LeetCode 728 Self Dividing Numbers 解题报告
题目要求 A self-dividing number is a number that is divisible by every digit it contains. For example, 1 ...
使用github的srs代码，搭建 RTMP_Server
1. 搭建RTMP服务器 1> 获取开源代码SRS. git clone https://github.com/ossrs/srs 下载源码后,按照如下文档安装https://github.co ...
UVA11491 奖品的价值
奖品的价值C804 运行时间限制:1000ms: 运行空间限制:51200KB 试题描述你是一个电视节目的获奖嘉宾.主持人在黑板上写出一个 n 位非负整数(不以 0 开头),邀请你删除其中的 d 个 ...
用composer安装laravel-bjyblog
前面讲了两行命令composer的安装,现在我们来操作一下composer安装基于laravel的博客laravel-bjyblog.测试环境是linux,bt面板,php7.2安装扩展fileinf ...
HBase单机模式安装
第一部分安装前准备 1.安装hadoop 今天刚刚学了hbase的一点基础,准备安装Hbase实际操练一下.因为安装hbase的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hba ...

python爬虫-基础入门-爬取整个网站《2》

python爬虫-基础入门-爬取整个网站《2》

python爬虫-基础入门-爬取整个网站《2》的更多相关文章

随机推荐

热门专题