Python爬取某网站文档数据完整教程（附源码）

基本开发环境 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

Python 3.6
Pycharm

目标网页分析 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

网站的文档内容，都是以图片形式存在的。它有自己的数据接口

接口链接：

https://openapi.book118.com/getPreview.html?&project_id=1&aid=272112230&t=f2c66902d6b63726d8e08b557fef90fb&view_token=SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1&page=1&callback=jQuery18304186406662159248_1614492889385&_=1614492889486

接口的请求参数

整体思路 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

请求网页返回response数据（字符串）
通过re模块匹配提取中间的数据（列表）索引取0（字符串）
通过json模块是把提取出来的数据转换成json模块
通过遍历获取每张图片的url地址
保存图片到本地文件夹
把图片保存到word文档
爬虫代码实现

爬虫代码实现 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

def download():

    content = 0

    for page in range(1, 96, 6):

        # 给定 2秒延时

        time.sleep(2)

        # 获取时间戳

        now_time = int(time.time() * 1000)

        url = 'https://openapi.book118.com/getPreview.html'

        # 请求参数

        params = {

            'project_id': '1',

            'aid': '272112230',

            't': 'f2c66902d6b63726d8e08b557fef90fb',

            'view_token': 'SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1',

            'page': f'{page}',

            '_': now_time,

        }

        # 请求头

        headers = {

            'Host': 'openapi.book118.com',

            'Referer': 'Python程序设计试题库（95页）-原创力文档',

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'

        }

        response = requests.get(url=url, params=params, headers=headers)

        # 使用正则表达式提取内容

        result = re.findall('jsonpReturn\((.*?)\)', response.text)[0]

        # 字符串转json数据

        json_data = json.loads(result)['data']

        # 字典值的遍历

        for value in json_data.values():

            content += 1

            # 拼接图片url

            img_url = 'http:' + value

            print(img_url)

            headers_1 = {

                'Host': '403 Forbidden',

                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'

            }

            # 请求图片url地址 获取content二进制数据

            img_content = requests.get(url=img_url, headers=headers_1).content

            # 文件名

            img_name = str(content) + '.jpg'

            # 保存路径

            filename = 'img\\'

            # 以二进制方式保存 （图片、音频、视频等文件都是以二进制的方式保存）

            with open(filename + img_name, mode='wb') as f:

                f.write(img_content)

注意点：

1、一定要给延时，不然后面接口数据会请求不到。
2、请求图片url的时候headers参数需要写完整，否则保存图片是无法打开的
3、命名最好是给定数字，1.jpg、2.jpg 这样，方便后续保存到word
爬虫部分的代码还是比较简单的，没有什么特别的难度。
爬取这些文档，都是需要打印或者查询所以要把这些单张的图片都保存到word文档里面。

写入文档 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

def save_picture():

    document = Document()

    path = './img/'

    lis = os.listdir(path)

    c = []

    for li in lis:

        index = li.replace('.jpg', '')

        c.append(index)

    c_1 = sorted(list(map(int, c)))

    print(c_1)

    new_files = [(str(i) + '.jpg') for i in c_1]

    for num in new_files:

        img_path = path + num

        document.add_picture(img_path, width=Cm(17), height=Cm(24))

        document.save('tu.doc')  # 保存文档

        os.remove(img_path)  # 删除保存在本地的图片

Python爬取某网站文档数据完整教程（附源码）的更多相关文章

Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
python3爬取墨迹天气并发送给微信好友，附源码
需求: 1. 爬取墨迹天气的信息,包括温湿度.风速.紫外线.限号情况,生活tips等信息 2. 输入需要查询的城市,自动爬取相应信息 3. 链接微信,发送给指定好友思路比较清晰,主要分两块,一是爬虫 ...
python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
python 爬取天猫美的评论数据
笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...
用Python爬取斗鱼网站的一个小案例
思路解析: 1.我们需要明确爬取数据的目的:为了按热度查看主播的在线观看人数 2.浏览网页源代码,查看我们需要的数据的定位标签 3.在代码中发送一个http请求,获取到网页返回的html(需要注意的是 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
python爬取招聘网站数据
# -*- coding: utf-8 -*- # 爬虫分析 from bs4 import BeautifulSoup from lxml import etree from selenium im ...
利用Python爬取电影网站
#!/usr/bin/env python #coding = utf-8 ''' 本爬虫是用来爬取6V电影网站上的电影资源的一个小脚本程序,爬取到的电影链接会通过网页的形式显示出来 ''' impo ...
Python爬取6271家死亡公司数据，一眼看尽十年创业公司消亡史！
小五利用python将其中的死亡公司数据爬取下来,借此来观察最近十年创业公司消亡史. 获取数据 F12,Network查看异步请求XHR,翻页. 成功找到返回json格式数据的url, 很多人 ...

随机推荐

移动安卓App+BurpSuite的渗透测试
从Android 7.0及以上版本开始,安卓系统更改了信任用户安装证书的默认行为,用户安装的证书都是用户证书,因此不管是filddle还是burp,都是把他们的根证书安装到了用户证书,而有部分移动ap ...
Spring 源码（2）Spring IOC 容器前戏准备工作
Spring 最重要的方法refresh方法根据上一篇文章 https://www.cnblogs.com/redwinter/p/16141285.html Spring Bean IOC 的创建 ...
MySQL8自增主键变化
MySQL8自增主键变化醉后不知天在水,满船清梦压星河. 一.简述 MySQL版本从5直接大跃进到8,相信MySQL8一定会有很多令人意想不到的改进,如果不想只会CRUD可以看看. 比如系统表引擎的 ...
vite初使用随记
vite的安装按照官网文档来看,并不难. 先检查自己电脑node的版本与npm的版本/yarn的版本可以直接用yarn安装,yarn create vite 这是最原始的安装,即类似于安装vue- ...
goland设置import规范
import 规范引入了三种类型的包,标准库包,第三方包,程序内部包,建议采用如下方式进行组织你的包: 有顺序的引入包,不同的类型采用空格分离, 第一种标准库第二是第三方包第三是项目包. 在项目 ...
Dapr 不是服务网格，只是我长的和他很像
概述我们快速看一遍官方文档:https://docs.dapr.io/concepts/service-mesh/#how-dapr-and-service-meshes-compare ,看看 D ...
通过有序线性结构构造AVL树
通过有序线性结构构造AVL树本博客旨在结局利用有序数组和有序链表构造平衡二叉树(下文使用AVL树代指)问题. 直接通过旋转来构造AVL树似乎是一个不错的选择,但是稍加分析就会发现,这样平白无故做了许 ...
万字长文深度剖析 RocketMQ 设计原理
幸福的烦恼张大胖最近是又喜又忧,喜的是业务量发展猛增,忧的是由于业务量猛增,一些原来不是问题的问题变成了大问题,比如说新会员注册吧,原来注册成功只要发个短信就行了,但随着业务的发展,现在注册成功也需 ...
AngularJS搭建环境
一.搭建环境 1.1 调试工具:batarang Chrome浏览器插件主要功能:查看作用域.输出高度信息.性能监控 1.2 依赖软件:Node.js 下载:https://nodejs.org/e ...
python之生成器与模块
目录生成器对象自定义range方法生成器表达式模块简介模块的导入方式第一种:import ... 第二种:from ... import ... 补充生成器对象生成器对象其实本质还是 ...

Python爬取某网站文档数据完整教程（附源码）

基本开发环境 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

相关模块的使用 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

目标网页分析 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

接口链接：

整体思路 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

爬虫代码实现 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

注意点：

写入文档 (https://jq.qq.com/?_wv=1027&k=NofUEYzs)

Python爬取某网站文档数据完整教程（附源码）的更多相关文章

随机推荐

热门专题