爬虫（GET）——爬取多页的html

工具：python3

目标：将编写的代码封装，不同函数完成不同功能，爬取任意页数的html

新学语法：with open as

除了有更优雅的语法，with还可以很好的处理上下文环境产生的异常。

 # coding:utf-

 import urllib.request

 def loadPage(fullurl,filename):

     """作用：根据url发送请求，获取服务器响应请求"""

     ua_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36"}

     print("正在下载" + filename)

     request = urllib.request.Request(fullurl, headers=ua_headers )

     response = urllib.request.urlopen(request)

     return response.read()

 def writePage(html, filename):

     """

     作用：将html内容写入到本地

     html：服务器相应文件内容

     """

     print("正在写入" + filename)
       # 新建文件，存储html信息

     with open(filename, "wb") as f:

         f.write(html)

 def tiebaSpider(url, beginpage, endpage):

     """

     作用：贴吧爬虫调度器，负责组合处理每个页面的url

     url:贴吧url的前部分

     beginPage： 起始页

     endPage： 结束页

     :return:

     """
       # 构造每页的url和文件名

     for page in range(beginpage, endpage+):

         pn = (page-)*

         fullurl = url + "&" + "pn=" + str(pn)

         filename = "第" + str(page) + "页.html"

         html = loadPage(fullurl, filename)

         writePage(html, filename)

     print("完成！")

 if __name__ == "__main__":

     kw = input("请输入要爬取的贴吧名： ")

     beginPage = int(input("请输入起始页： "))

     endPage = int(input("请输入结束页： "))

     url = "http://tieba.baidu.com/f?"

     kw = urllib.parse.urlencode({"kw": kw})

     url = url + kw

     tiebaSpider(url, beginPage, endPage)

爬虫（GET）——爬取多页的html的更多相关文章

（java）Jsoup爬虫学习--获取智联招聘（老网站）的全国java职位信息，爬取10页
Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ...
小爬虫。爬取网站多页的通知标题并存取在txt文档里。
爬取网页中通知标题的内容展示: this is 1 page!<精算学综合>科目考试参考大纲2016年上半年研究生开题报告评议审核结果公示[答辩]2016下半年研究生论文答辩及学位评定 ...
python爬虫系列之爬取多页gif图像
python爬取多页gif图像作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
多线程爬虫爬取详情页HTML
注意:如果想爬取详情页的信息请按须添加方法 import requests import os import re import threading from lxml import etree #爬 ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
scrapy进阶（CrawlSpider爬虫__爬取整站小说）
# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy ...

随机推荐

【转】pecl,pear的不同
PEAR是PHP扩展与应用库(the PHP Extension and Application Repository)的缩写.它是一个PHP扩展及应用的一个代码仓库,基于php代码的,安装目录在/u ...
Git 之 .gitignore 与版本
.gitignore 以斜杠“/”开头表示目录: 以星号“*”通配多个字符: 以问号“?”通配单个字符以方括号“[]”包含单个字符的匹配列表: 以叹号“!”表示不忽略(跟踪)匹配到的文件或目录: 版 ...
jqgrid列动态加载
private void InitGrid(string entityName) { Session["entityName"] = entityName; ArrayList c ...
scala的map的操作
1:map和模式匹配的结合 settings.foreach{case (k,v) => set(k,v)} 2:map转成array settings.entrySet().asScala.m ...
Direct ByteBuffer学习
ByteBuffer有两种一种是heap ByteBuffer,该类对象分配在JVM的堆内存里面,直接由Java虚拟机负责垃圾回收,一种是direct ByteBuffer是通过jni在虚拟机外内存中 ...
sql 脚本创建索引
之前从没有用SqlServer数据库处理过大数据量的表,都是用Oracle,然后一般为数据量较大的表添加索引或主键都是用plsql工具,今天正好需要为一张保存于SqlServer数据库的千万级数据表增 ...
[转]Marshaling a SAFEARRAY of Managed Structures by P/Invoke Part 1.
1. Introduction. 1.1 I have previously written about exchanging SAFEARRAYs of managed structures wit ...
SQLServer存储引擎——04.数据
4. SQL SERVER存储引擎之数据篇 (4.1)文件 (0)主数据文件.mdf初始文件大小至少为3MB,次要数据文件.ndf初始大小,同日志文件一样至少为512KB: (1)SQL SERVER ...
ubuntu - 官方简体中文wiki，有你想要的ubuntu的一切
ubuntu官方简体中文wiki:http://wiki.ubuntu.org.cn/%E9%A6%96%E9%A1%B5
iOS 12中无法获取WiFi的SSID了？
1.现象描述 2018年苹果升级iOS12之后,没有办法获取wifi名称等信息. 2.获取wifi信息 2.1 获取代码 /************ 控制器的view 加载完毕的时候调用 ***** ...

爬虫（GET）——爬取多页的html

爬虫（GET）——爬取多页的html的更多相关文章

随机推荐

热门专题