(18) python 爬虫实战

一切从最简单开始

峰绘网 :http://www.ifenghui.com/

一个比较好爬的漫画网，之所以选择这个网站，因为查看源代码能直接获得漫画的jpg连接，而且每一话所有的jpg一次性的都展示出来

人气排行榜最高的黑水潭

爬取单话

昆虫学家上 (28p)

#coding=utf-8

import os

import  urllib

import  urllib2

from bs4 import BeautifulSoup

request = urllib2.Request("http://www.ifenghui.com/index/comics/read/chapterId/19352.html")

response = urllib2.urlopen(request)

html_=response.read()

soup=BeautifulSoup(html_,"lxml")

i=0

for a in soup.find_all(class_="fh-read-img"):

    i=i+1

    num=str(i)

    url = a.get('ssrc')

    if not os.path.exists("C:/manhua"):

        os.mkdir("C:/manhua")

    file_="C:/manhua/"+num+".jpg"

    urllib.urlretrieve(url,file_)

    print '第'+num+'张漫画下载OK'

print '下载完成'

把url换成其他话

昆虫学家下 (28p)

http://www.ifenghui.com/index/comics/read/chapterId/20560.html

也没问题

爬取整部漫画

#coding=utf-8

import os

import re

import  urllib

import  urllib2

from bs4 import BeautifulSoup

request = urllib2.Request("http://www.ifenghui.com/index/comics/manhua/id/3235.html")#漫画目录

response = urllib2.urlopen(request)

html_=response.read()

soup=BeautifulSoup(html_,"lxml")

title_=''

tit=soup.title.string #获得标题

for t in tit:

    if t==' ':

        break

    else:

        title_=title_+t#获得截取后的标题

findAll=soup.find_all('a',attrs={'href':re.compile('^/index/comics/read/chapterId')})

chapter=findAll[3:]#获得全部张节的list

chapter.reverse()#倒叙list

elementNum=len(chapter)#统计元素个数，用来循环

i=0

if not os.path.exists("D:/manhua"):

    os.mkdir("D:/manhua")#在D盘下新建一个文件夹

for eachChapter in chapter:

    i = i + 1

    chapterNum = str(i)  # 打印漫画下载到第几章

    chapterTitle=eachChapter.string#获得每章的标题名

    rootUrl='http://www.ifenghui.com'#根目录

    chapterUrl=rootUrl+eachChapter.get('href')#根目录+相对地址=每章完整的URL

    #print chapterTitle#打印每章打印标题名

    #print chapterUrl#打印每章标题链接的URL

    request = urllib2.Request(chapterUrl)

    response = urllib2.urlopen(request)

    html_=response.read()

    soup=BeautifulSoup(html_,"lxml")

    j=0#以下载图片的顺序重新命名图片名

    if not os.path.exists("D:/manhua/" + title_):  ##########chapterTitle

        os.mkdir("D:/manhua/" + title_)  # 以本章名新建文件夹##########chapterTitle

    for a in soup.find_all(class_="fh-read-img"):#

      j=j+1

      pictureNum = str(j)  # 打印漫画下载到第几张

      pictureUrl = a.get('ssrc')#获得本图片的URL网址

      if not os.path.exists("D:/manhua/"+title_+"/"+chapterNum):##########chapterTitle

          os.mkdir("D:/manhua/"+title_+"/"+chapterNum)#以本章名新建文件夹##########chapterTitle

      file_="D:/manhua/"+title_+"/"+chapterNum+"/"+pictureNum+".jpg"##########chapterTitle

      urllib.urlretrieve(pictureUrl,file_)#下载到本地，并重命名

      print '第'+chapterNum+'章的第'+pictureNum+'页漫画下载OK'

    print '第'+chapterNum+'章下载完成'

print '所有下载完成'

(18) python 爬虫实战的更多相关文章

Python爬虫实战七之计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点.首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
Python爬虫实战三之实现山东大学无线网络掉线自动重连
综述最近山大软件园校区QLSC_STU无线网掉线掉的厉害,连上之后平均十分钟左右掉线一次,很是让人心烦,还能不能愉快地上自习了?能忍吗?反正我是不能忍了,嗯,自己动手,丰衣足食!写个程序解决掉它! ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...

随机推荐

A1012 The Best Rank (25)（25 分）
A1012 The Best Rank (25)(25 分) To evaluate the performance of our first year CS majored students, we ...
Sublime Text配置python以及快捷键总结
1.打开Tools > Build System > New Build System.. 2.点击New Build System后,会生成一个空配置文件,在这个配置文件内覆盖配置信息, ...
Django基于Pycharm开发之三[LANGUAGE_CODE与TIME_ZONE]
在django/conf/global_settings.py 中,我们可以找到关于language和timezone的通用配置信息,源码如下: # Local time zone for this ...
慢慢琢磨JVM
1 JVM简介 JVM是一个Javaer的最基本功底了,刚开始学Java的时候,一般都是从“Hello World”开始的,然后会写个复杂点class,然后再找一些开源框架,比如Spring,Hibe ...
service-worker实践
service-worker虽然已列入标准,但是支持的浏览器还是有限制,还有比较多的问题. 1. 生命周期注册成功-------installing--------------> 安装成功(i ...
【LoadRunner】如何对GIS服务器进行性能测试
1.需求了解首先确定对gis服务器压测的测试范围,形成具体的测试用例,gis平台都是通过网页端的javascript api调用的gis集群服务接口,通过LR录制上一步中的业务操作,找到javasc ...
manjaro安装anaconda出错
出错信息: ==> Creating package "anaconda"... -> Generating .PKGINFO file... -> Gene ...
[转]Pycharm 断点调试方法
转自: https://blog.csdn.net/u013088062/article/details/50216015
RNQOJ Jam的计数法
题目:https://www.rqnoj.cn/problem/3 非递归做法:(严格递增单调大于不可等于 ) 做法:循环体 <1>操作字符串 str 从后往前找,k=1,如果s[w ...
mysql event 学习
mysql 通过事件可以实现定时任务 : 1. 检查你的MYSQL是否开了这个功能 show variables like "%scheduler" //注意最后是er 2. ...

(18) python 爬虫实战

(18) python 爬虫实战的更多相关文章

随机推荐

热门专题