python3 保存一个网页为html文件

我使用的python版本为3.5.2.

最近租房子，恨透了中介，想绕过中介去租。结果发现豆瓣同城里有好多二房东，感觉人都还不错。但是豆瓣这里没有信息检索的功能，只能人工地看房子的地址，非常地不方便。所以我想做一个程序，它具有的功能，第一可以获取每条租房信息的房间地址，第二可以计算出该地址与我公司的路线距离（不是直线距离，是步行要走的距离）。

所以第一个任务就是学习python爬虫。在搜了多方资料之后，我终于写了这个例子。该例子的功能为访问一个网址，保存它为html文件。这里需要注意的是好多网站会抵制爬虫的访问，会对你进行鉴别，判断你是不是通过浏览器访问的。所以本例访问了www.baidu.com,经测试，该网址可以通过这个例子来访问。

代码如下，pachong.py：

运行结果是在pachong.py同级目录下生成一个text1.html文件用浏览器打开，就可以看到了。不过有的地方显示不出来。

程序主要有两个函数，第一个getHtml(url) 功能为打开一个url网络链接，把链接的内容读取出来，存在html变量里；第二个saveHtml(file_name,file_content) 功能为打开一个名为 file_name 的文件，把网页内容写进去。

调用起来也很简单。

参考引用：

1. shihui512 ，Python3爬虫之爬取某一路径的所有html文件 2016/4/8 http://m.blog.csdn.net/article/details?id=51100605

python3 保存一个网页为html文件的更多相关文章

python3保存一个网页
import requests res = requests.get("http://www.baidu.com") savefile = open("baidu.htm ...
python3获取一个网页特定内容
我们今天要爬取的网址为:https://www.zhiliti.com.cn/html/luoji/list7_1.html 一.目标:获取下图红色部分内容即获取所有的题目以及答案. 二.实现步骤. ...
PHP生成桌面快捷方式，保存一个网页至桌面上成为快捷方式
header("Content-Type: application/octet-stream; charset=utf8"); header("Content-Dispo ...
面试问题2：给一个5G的大文件，保存的数据为32位的整型，找到所有出现次数超过两次的数字
问题描述:给一个5G的大文件,保存的数据为32位的整型,找到所有出现次数超过两次的数字大数据操作: 解决方法一: 依次遍历文件数据, 开始32二进制清0 每次读取一个数,先和二进制位与,如果为0 则 ...
Google 浏览器保存mht网页文件(单个网页)的方法(无需插件)
1.找到设置打开单个网页保存的地方在google浏览器地址栏输入:chrome://flags”,回车 2.实现保存单个网页打开你要保存的网页后,只需 Ctrl+s ,搞定!如下: 假设找到了一篇 ...
编写Java程序，在硬盘中选取一个 txt 文件，读取该文档的内容后，追加一段文字“[ 来自新华社 ]”，保存到一个新的 txt 文件内
查看本章节查看作业目录需求说明: 在硬盘中选取一个 txt 文件,读取该文档的内容后,追加一段文字"[ 来自新华社 ]",保存到一个新的 txt 文件内实现思路: 创建 Sa ...
Python3基础 try-指定except-as reason 捕获打开一个不存在的文件的时候，会产生OSError异常的示例
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
第三天，爬取伯乐在线文章代码，编写items.py，保存数据到本地json文件中
一. 爬取http://blog.jobbole.com/all-posts/中的所有文章 1. 编写jobbole.py简单代码 import scrapy from scrapy. ...
chrome也可以整张网页截图,保存完整网页为图片
转自:http://www.webkaka.com/blog/archives/chrome-save-a-webpage.html 关于浏览器截图,一直以为Chrome无能为力,最近发现,原来Chr ...

随机推荐

Java 变量及基本数据类型
1.Java变量 1.1 变量的概念内存中开辟的一块存储空间,用于存放运算过程中需要用到的数据: 该区域有自己的名称(变量名)和类型(数据类型): 该区域的数据可以在同一类型范围内不断变化: 1) ...
UVA11212 EditingaBook （ IDA*搜索）
首先说说IDS,就DFS限定一个层数上限maxd,如果在maxd范围内没有找到解,就增加maxd,继续搜索. 当访问到当前结点u时,估计还要搜索h(u)层,如果h(u)+当前层数d>maxd的时 ...
2018.5.11 Java利用反射实现对象克隆
package com.lanqiao.demo; /** * 创建人 * @author qichunlin * */ public class Person { private int id; p ...
MySQL 外键表的查询
自增补充这是查看怎么创建的表, \G示旋转90度显示表的内容表的自增的关键是** AUTO_INCREMENT=3**,在表中添加数据后,这个会自动改变,通过alert可以改变这个默认值 mysq ...
macbook secureCRT终端中文乱码的问题
最近mac用crt中文总是显示的是一串串问号, 而用自带的终端软件就不会出现乱码, 经过一番折腾暂时解决了这一问题, 方法如下: 1. 打开终端操作 sudo vim /etc/profile 在最后 ...
javascript自定义一个迭代器
js中对象分为可迭代和不可迭代如果是可迭代哪它就会有一个[Symbol.iterator] 函数这个函数就是对象的迭代器函数,如用for of 如果遍历的对象没有这个迭代方法那么就会报错 for ...
【期望dp】bzoj4832: [Lydsy1704月赛]抵制克苏恩
这个题面怎么这么歧义…… Description 小Q同学现在沉迷炉石传说不能自拔.他发现一张名为克苏恩的牌很不公平.如果你不玩炉石传说,不必担心,小Q 同学会告诉你所有相关的细节.炉石传说是这样的一 ...
Spring Security和Shiro的比较和使用
https://blog.csdn.net/it_java_shuai/article/details/78054951 Spring Security和Shiro的比较和使用 2017年09月21日 ...
jenkins+svn+pipeline+kubernetes部署java应用（一）
一.linux安装svn服务端 yum -y install subversion 二.创建svn版本库(项目仓库) mkdir -p /home/svn svnadmin create /home/ ...
【android】安卓的权限提示及版本相关
Only dangerous permissions require user agreement. The way Android asks the user to grant dangerous ...

python3 保存一个网页为html文件

python3 保存一个网页为html文件的更多相关文章

随机推荐

热门专题