python 爬虫实例（一）

一个简单的爬虫工程

环境：

OS：Window10

python：3.7

安装一些库文件

pip install requests

pip install beautifulsoup4

pip install lxml

在安装的时候如果遇到了你的pip版本过低的错误的话，可以找到你本地的C:\Users\XXX\PycharmProjects\getHtml\venv\Lib\site-packages下面的pip-18.1.dist-info文件夹删除，之后在进行更新

下面是提取一个网页的图片代码

import time

import requests

import os

import threading

from bs4 import BeautifulSoup

class BeautifulPicture():

    def __init__(self):

        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}

        self.web_url = "https://unsplash.com/"

        self.folder_path = r'C:\Users\peiqiang\Desktop\python Pic'

    def request(self, url):

        r = requests.get(url)

        return r

    def mkdir(self, path):

        path = path.strip()

        isExists = os.path.exists(path)

        if not isExists:

            print("创建名字叫做", path, "的文件夹")

            os.makedirs(path)

            print("创建成功！")

        else:

            print(path, '文件夹已经存在了，不再创建')

    def save_img(self, url, name):

        print('开始保存图片...')

        img = self.request(url)

        file_name = self.folder_path + '\{}.jpg'.format(name)

        print('开始保存文件')

        f = open(file_name, 'ab')

        f.write(img.content)

        f.close()

        thread_lock.release()

        print(file_name, '文件保存成功！')

    def get_pic(self):

        print('开始网页get请求')

        r = self.request(self.web_url)

        print('开始获取所有img标签')

        all_a = BeautifulSoup(r.text, 'lxml').find_all('img')

        print('开始创建文件夹')

        self.mkdir(self.folder_path)

        print('开始切换文件夹')

        os.chdir(self.folder_path)

        i=0

        for a in all_a:

            i += 1

            print("開始下載第{}張圖片".format(i))

            thread_lock.acquire()

            print("抓取圖片的URL：", a["src"])

            self.save_img(a["src"], i)

thread_lock = threading.BoundedSemaphore(value=10)

beauty = BeautifulPicture()

beauty.get_pic()

　　效果如下

本地的存放的路径下

python 爬虫实例（一）的更多相关文章

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...
shell及Python爬虫实例展示
1.shell爬虫实例: [root@db01 ~]# vim pa.sh #!/bin/bash www_link=http://www.cnblogs.com/clsn/default.html? ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
Python爬虫实例：糗百
看了下python爬虫用法,正则匹配过滤对应字段,这里进行最强外功:copy大法实践一开始是直接从参考链接复制粘贴的,发现由于糗百改版导致失败,这里对新版html分析后进行了简单改进,把整理过程记录 ...
python爬虫实例大全
WechatSogou [1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. DouBanSpider [2]- ...
Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
Python爬虫实例（三）代理的使用
一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问.所以我们需要设置一些代理服务器,每隔一段时间换一 ...

随机推荐

原生javascript禁用和屏蔽鼠标右键
(function(){ var doc=document, ua = navigator.userAgent.toLowerCase(), check = function(r){return r. ...
js 常见数组算法
数组方法概述 1.不改变原数组,返回新数组 concat() 连接两个或多个数组,两边的原始数组都不会变化,返回被连接数组的一个副本. join() 把数组中所有元素放入一个字符串中,返回字符串. s ...
zabbix 内置key说明
原文参考:https://blog.csdn.net/whs_321/article/details/52939263 一.简介 Zabbix 内置了很多丰富的key,使得我们在添加linux os模 ...
LOJ6071. 「2017 山东一轮集训 Day5」字符串 [SAM]
LOJ 思路这种计数题显然是要先把每一个合法的串用唯一的方法表示出来.(我连这都没想到真是无可救药了) 如何唯一?容易想到把前缀尽可能多地在第一个串填掉,然后填第二个,第三个-- 如何做到这样?可以 ...
ubuntu之路——day8.5 学习率衰减learning rate decay
在mini-batch梯度下降法中,我们曾经说过因为分割了baby batch,所以迭代是有波动而且不能够精确收敛于最小值的因此如果我们将学习率α逐渐变小,就可以使得在学习率α较大的时候加快模型训练 ...
ubuntu之路——day8.1 深度学习优化算法之mini-batch梯度下降法
所谓Mini-batch梯度下降法就是划分训练集和测试集为等分的数个子集,比如原来有500W个样本,将其划分为5000个baby batch,每个子集中有1000个样本,然后每次对一个mini-bat ...
C前序遍历二叉树Morris Traversal算法
首先来递归算法,简单易懂: #include <stdio.h> #include <stdlib.h> #include <stdbool.h> typedef ...
Unity 2018 Game Development in 24 Hours Sams Teach Yourself 3rd Edition
最新的Unity2018自学教材,如果新入坑Unity,直接从2018开始看吧! 点击下载提取码:tngj
AAR文件简介
假如我们希望提供一个带有资源文件的第三方库给别人使用,总不能直接把源代码给别人,但是我们知道eclipse打包的时候不能包含res的资源文件,于是Android在发布Android studio的时候 ...
tomcat的AJP（定向包协议）协议
由于tomcat的html和图片解析功能相对其他服务器如apche等较弱,所以,一般都是集成起来使用,只有jsp和servlet服务交由tomcat处理,而tomcat和其他服务器的集成,就是通过aj ...

python 爬虫实例（一）

python 爬虫实例（一）的更多相关文章

随机推荐

热门专题