python学习之BeautifulSoup模块爬图

BeautifulSoup模块爬图学习HTML文本解析标签定位
网上教程多是爬mzitu，此网站反爬限制多了。随意找了个网址，解析速度有些慢。
脚本流程：首页获取总页数-->拼接每页URL-->获取每页中所有主题URL-->遍历图片源URL下载，保存

 #python3

 #coding:utf-8_

 #_author: Jack

 #_date: 2020/3/28

 from bs4 import BeautifulSoup

 import requests,os,sys,time

 DIR_PATH = os.path.dirname(os.path.abspath(__file__))

 sys.path.append(DIR_PATH)

 HEADER = {

         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:74.0) Gecko/20100101 Firefox/74.0',

        }

 def create_dir(file_path):

     '''

     :param file_path: images_directory

     :return:

     '''

     if not os.path.exists(file_path):

         os.makedirs(file_path)

         print('Creatr directory：',file_path)

     os.chdir(file_path) # cd ..

 def save_data(src,dir_name,file_name):

     '''

     :param src: images url

     :param sum: directory name

     :param file_name: image name

     :return:

     '''

     file_path = os.path.join(DIR_PATH,'images',str(dir_name))  #directory path

     image_path = os.path.join(file_path,file_name)  #images path

     create_dir(file_path)

     if not os.path.isfile(image_path):

         req = requests.get(src,headers=HEADER)

         with open(image_path, 'wb') as f_save:

             f_save.write(req.content)

             print('Download successful:',file_name)

             f_save.flush()

     else:

         print('File already exists! Pass')

 def request_to_url(url,header):

     '''

     :param url: page_url

     :param head: request.header

     :return: respond.text

     '''

     res = requests.get(url,headers=header)

     return res.text

 def soup(url,header):

     '''

     :param url:

     :param header:

     :return: HTML_Tag

     '''

     return BeautifulSoup(request_to_url(url,header),'html.parser')

 def action(url):

     '''

     Download a count of 100 images and create a new folder

     :param url: URL

     :return:

     '''

     download_count = 0

     dir_name =100

     try:

         page_tag = soup(url,HEADER).find('div',class_='pg').find_all('a')

         max_page = int(page_tag[-2].text.split(' ')[-1])

         for i in range(1,max_page+1):   #find page

             page_url = os.path.join(url,'forum.php?order=&fid=0&page=%d'%i)

             #time.sleep(1)

             page_all_theme_list = soup(page_url,HEADER).find('div',class_='kind_show')

             theme_list = page_all_theme_list.find_all('div', class_='photo_thumb kind_left')

             for i in theme_list:    #find theme

                 theme = i.find('div', class_='title').find('a')

                 #title = theme.string

                 img_url = theme.get('href')

                 print("Ready download: %s" % theme.string,img_url)

                 # time.sleep(1)

                 img_page_tag = soup(img_url,HEADER).find('td',class_='t_f').find_all('img')

                 for i in img_page_tag:  #find image

                     try:

                         img_src = i.get('src')

                         if download_count %100 == 0:

                             dir_name +=100

                         save_data(img_src,dir_name,img_src.split('/')[-1])

                         download_count += 1

                         print('Download successful: %d' %download_count)

                     except Exception as e:

                         print('Img_tag & Save_data Error:',e)

                         continue

     except Exception as e:

         print('The trunk Error:',e)

 if __name__ == '__main__':

     print('Run.....')

     URL = 'http://www.lesb.cc/'

     action(URL)

     print('Perform !')

python学习之BeautifulSoup模块爬图的更多相关文章

Python学习 Part4：模块
Python学习 Part4:模块 1. 模块是将定义保存在一个文件中的方法,然后在脚本中或解释器的交互实例中使用.模块中的定义可以被导入到其他模块或者main模块. 模块就是一个包含Python定义 ...
python学习之argparse模块
python学习之argparse模块一.简介: argparse是python用于解析命令行参数和选项的标准模块,用于代替已经过时的optparse模块.argparse模块的作用是用于解析命令行 ...
Python学习day19-常用模块之re模块
figure:last-child { margin-bottom: 0.5rem; } #write ol, #write ul { position: relative; } img { max- ...
Python学习day18-常用模块之NumPy
figure:last-child { margin-bottom: 0.5rem; } #write ol, #write ul { position: relative; } img { max- ...
Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析
上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的首页地 ...
雨痕的《Python学习笔记》--附脑图（转）
原文:http://www.pythoner.com/148.html 近日,在某微博上看到有人推荐了雨痕的<Python学习笔记>,从github上下载下来看了下,确实很不错. 注意 ...
Python学习笔记-常用模块
1.python模块如果你退出 Python 解释器并重新进入,你做的任何定义(变量和方法)都会丢失.因此,如果你想要编写一些更大的程序,为准备解释器输入使用一个文本编辑器会更好,并以那个文件替代作 ...
python学习之random模块
Python中的random模块用于生成随机数.下面介绍一下random模块中最常用的几个函数. random.random random.random()用于生成一个0到1的随机符点数: 0 < ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...

随机推荐

广州CVTE招聘-测试开发工程师
内推邮箱:keweisheng@cvte.com 地点:广州公司简介 CVTE成立于2005年,总部位于广州科学城,旗下设有多家独立的子公司,在香港设有全球服务中心,在国内设有21个营销服务中心和近 ...
如何正确的hook方法objc_msgSend · jmpews
如何正确的hook方法objc_msgSend 前言如果希望对 Objective-C 的方法调用进行 log, 一个很好的解决方法就是 hook 方法 objc_msgSend, 当然想到的就是利 ...
python爬虫之Appium手机APP爬虫
一.Appium工作原理(详情见:https://www.cnblogs.com/sophia194910/p/7515165.html) Appium的功能其实很简单:监听一个端口,然后接收由cli ...
Maven使用和配置
Maven使用和配置一.maven安装和概念 maven安装 maven编译(compile) 执行测试用例(test) maven打包(package) maven依赖管理 1.maven安装官 ...
Solr查询配置及优化【eDisMax查询解析器】
一.简介 Lucene查询解析器语法支持创建任意复杂的布尔查询,但还有一些缺点,它不是用户查询处理的理想解决方案.这里面最大的问题是Lucene查询解析器的语法要求严格,一旦破坏就会抛出异常.指望用户 ...
达拉草201771010105《面向对象程序设计（java）》第二周学习总结
达拉草201771010105<面向对象程序设计(java)>第二周学习总结一.理论知识学习部分这一周我们学习的是书上第三章java的基本程序设计结构的内容,在这一章 ...
压力测试（八）-多节点JMeter分布式压测实战
1.Jmeter4.0分布式压测准备工作简介:讲解Linux服务器上jmeter进行分布式压测的相关准备工作 1.压测注意事项 the firewalls on the systems are tu ...
震惊，当我运行了这条Linux命令后，服务器竟然... （Linux中的删除命令）
震惊,当我运行了这条Linux命令后,服务器竟然... 0X00 写在前面大家都听说过删库命令rm -rf /*,但是谁又真正实践过呢?但作为一个程序员,不看看这条命令执行后会发生什么,怎么能甘心呢 ...
2020年，如何成为一名 iOS 开发高手！
2020年对应程序员来说,是一个多灾的年份,很多公司都进行了不同比例的优化和裁员.等疫情得到控制后,将会是找工作的高峰期,从去年的面试经历来看,现在只会单纯写业务代码的人找工作特别难,很多大厂的面试官 ...
C++泛化双向链表
泛型双向链表双向链表(doublyLinkedList.h) /******************************************************************* ...

python学习之BeautifulSoup模块爬图

python学习之BeautifulSoup模块爬图的更多相关文章

随机推荐

热门专题