python爬百度文库课件

库:re;selenium;requests

源码：

from selenium import webdriver
import re
import requests

def open_img(items):
    for item in items:
        item = re.sub('&','&',item)
        rsp =requests.get(item)
        yield rsp.content

url ='https://wenku.baidu.com/view/4e3d35d969eae009581becd5.html?from=search'　　　　#可修改成别的ppt网址
browser =webdriver.Chrome()
try:
    browser.get(url)
    html =browser.page_source
    pattern =re.compile('<div class="ppt-page-item.*?src="(.*?)".*?>',re.S)
    items =re.findall(pattern,html)
    n =0
    for i in open_img(items):
        with open('%d.jpeg'%n,'wb') as file:
            file.write(i)·
            n +=1
            print('第%d张图片下载完成'%n)

finally:
    browser.close()
input()

python爬百度文库课件的更多相关文章

python使用selenium爬百度文库ppt并生成pdf
详细的讲解我是写在另外一个网址:https://www.yuque.com/docs/share/aacfa45c-22c5-4ef6-be97-cd6849002274 有点尬尴,所以就..... ...
python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到，但是无法点击问题 && pycharm多行缩进、左移
先说一下可能用到的一些python知识一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...
python+selenium爬取百度文库不能下载的word文档
有些时候我们需要用到百度文库的某些文章时,却发现需要会员才能下载,很难受,其实我们可以通过爬虫的方式来获取到我们所需要的文本. 工具:python3.7+selenium+任意一款编辑器前期准备:可 ...
python 利用selenium爬取百度文库的word文章
今天学习如何使用selenium库来爬取百度文库里面的收费的word文档 from selenium import webdriver from selenium.webdriver.common.k ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python爬虫初学（二）—— 爬百度贴吧
Python爬虫初学(二)-- 爬百度贴吧昨天初步接触了爬虫,实现了爬取网络段子并逐条阅读等功能,详见Python爬虫初学(一). 今天准备对百度贴吧下手了,嘿嘿.依然是跟着这个博客学习的,这次仿照 ...
Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）
一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块用pip安装命令是: pip install qqbot (前提需要有request ...
Python 爬取陈都灵百度图片
Python 爬取陈都灵百度图片标签(空格分隔): 随笔今天意外发现了自己以前写的一篇爬虫脚本,爬取的是我的女神陈都灵,尝试运行了一下发现居然还能用.故把脚本贴出来分享一下. import req ...
Python爬虫(一)爬百度贴吧
简单的GET请求: # python2 import urllib2 response = urllib2.urlopen('http://www.baidu.com') html = respons ...

随机推荐

FileUrl
package com.rscode.credits.util; import java.io.BufferedReader; import java.io.File; import java.io. ...
浏览器h5新建文件保存到本地（相当于浏览器写文件）
function doSave(value, type, name) { var blob; if (typeof window.Blob == "funct ...
1(3)IO流------字符流
一.分类字节流(不适用于文本) InputStream OutputStream 字符流 Reader Writer 二.字符流按照字符为单位,英文1-1,中文看是UTF-8编码还是GBK编码字 ...
yaf twig配置
1.安装 TWIG composer require twig/twig2.COMPOSER自动加载的引用修改 BOOTSTRAP.PHP 增加 public function _initAutolo ...
mock数据，尽量随机，1次插入多条
建表,多设置一个字段id_tmp create table if not exists mall_data.dtw_mall2_adm_customer_d_tmp( id_tmp string co ...
python之类对象类方法实例对象实例方法静态方法
实例对象1. 创建的时间:使用类名()的时候,就创建一个实例对象2. 实例属性:怎样添加只要是一个变量能够指向这个实例对象,那么这个变量.xxxx = 111就是给其添加一个实例属性特点: 跟着 ...
Mybatis根据List批量查询List结果
https://blog.csdn.net/qq_36688928/article/details/82783392
使用ghost装完系统后出现“引用了一个不可用的位置”
用GHOST版光盘安装完系统后,只有一个C盘,无法点桌面刷新,然后提示“D:/我的文档引用了一个不可用的位置.... 1.在管理员账户下定位到如下键值:“HKEY_CURRENT_USER\Softw ...
python padas 学习
import matplotlib from pandas import DataFrame import numpy as np import pandas as pd import MySQLdb ...
Ubuntu 16.10的root默认密码设置
1.终端输入sudo passwd 2.输入当前用户密码,回车 3.按照终端提示输入新的root密码并确认 4.su root 输入新的密码 5.修改root密码成功

python爬百度文库课件

python爬百度文库课件的更多相关文章

随机推荐

热门专题