Python使用requests爬取一个网页并保存

#导入 requests模块
import requests

#设置请求头,让网站监测是浏览器

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3573.0 Safari/537.36',

}

# 爬取网页的URL http://www.kdhj-edu.net/

r = requests.get('http://www.kdhj-edu.net/',headers=headers)

#获取当前编码 当前编码有utf-8 ISO-8859-1

print(r.encoding)

# 新建一个文件名 例如：TencentHtml 设置文件格式编码为 utf-8

# 注意文件格式的编码和 获取的编码 要一致，不然出现乱码问题

f = open("TencentHtml", "w",encoding="ISO-8859-1")

for i in r.text:

    #将数据写入文件

    f.write(i)

#关闭文件

f.close()

Python使用requests爬取一个网页并保存的更多相关文章

Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
python+selenium+requests爬取我的博客粉丝的名称
爬取目标 1.本次代码是在python2上运行通过的,python3的最需改2行代码,用到其它python模块 selenium 2.53.6 +firefox 44 BeautifulSoup re ...
python+selenium+requests爬取qq空间相册时遇到的问题及解决思路
最近研究了下用python爬取qq空间相册的问题,遇到的问题及解决思路如下: 1.qq空间相册的访问需要qq登录并且需是好友,requests模块模拟qq登录略显麻烦,所以采用selenium的dri ...
用python简单爬取一个网页
1打开编辑器 2撸几行代码 import urllib.request import urllib.error def main(): askURl("http://movie.douban ...
用requests爬取一个招聘网站
import requestsimport re session = requests.session()第一步:访问登陆页,拿到X_Anti_Forge_Token,X_Anti_Forge_Cod ...
python+xpath+requests爬取维基百科历史上的今天
import requests import urllib.parse import datetime from lxml import etree fhout = open("result ...
python爬虫：爬取百度云盘资料，保存下载地址、链接标题、链接详情
在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了. 用pyinstall 打包成EXE文件, ...
将爬取的网页数据保存到数据库时报错不能提交JPA，Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\xB6 \xE2...' for column 'content' at row 1
错误原因:我们可以看到错误提示中的字符0xF0 0x9F 0x98 0x84 ,这对应UTF-8编码格式中的4字节编码(UTF-8编码规范).正常的汉字一般不会超过3个字节,为什么为出现4个字节呢?实 ...

随机推荐

[转载] 学会使用Web Service上（服务器端访问）~~~
http://www.360doc.com/content/10/0712/12/541242_38461863.shtml# 关于什么是Web Service,相信在很多地方都会有介绍.简单的讲,W ...
grep简介
grep -ril "xxxxx" . :查看当前目录下所有文件是否包含指定字符,只输出符合条件的文件名 -r :递归查找 -i:忽略大小写 -l :只输出文件名
【u233】单词化简
Time Limit: 1 second Memory Limit: 64 MB [问题描述] 最近情报人员得到了一些经过加密的文章,每个单词都很长.破译人员想到先把单词化简一下,方法是把每个单词尽量 ...
Spring Boot实战之单元测试
Spring Boot实战之单元测试本文介绍使用Spring测试框架提供的MockMvc对象,对Restful API进行单元测试 Spring测试框架提供MockMvc对象,可以在不需要客户端-服 ...
Linux 线程实现机制分析 Linux 线程实现机制分析 Linux 线程模型的比较：LinuxThreads 和 NPTL
Linux 线程实现机制分析 Linux 线程实现机制分析 Linux 线程模型的比较:LinuxThreads 和 NPTL http://www.ibm.com/developerworks/c ...
H3C重启设备
asp.net core 3.0 JObject The collection type 'Newtonsoft.Json.Linq.JObject' is not supported
在asp.net core 3.0 中,如果直接在Controller中返回 Jobject 类型,会抛出如下错误: The collection type 'Newtonsoft.Json.Linq ...
koa2--04.ejs模板引擎
首先在项目文件下使用cmd,输入:npm install --save koa-views ejs,将koa-views中间件和ejs模板引擎安装到文件中,并自动写入依赖接在在index.js文件中 ...
RabbitMQ之pika模块
发布/订阅系统 send.py import pika import time s_conn = pika.BlockingConnection(pika.ConnectionParameters( ...
F5 LTM旁路配置四层负载
网络拓扑图如下: 如上图所示,其中LTM和web1,web2处于同一网络中,外部的client访问请求后端的服务的时候,通过F5 LTM的VS地址,将实际的请求分配到后端两台服务web1和web2上 ...

Python使用requests爬取一个网页并保存

Python使用requests爬取一个网页并保存的更多相关文章

随机推荐

热门专题