(18) python 爬虫实战

一切从最简单开始

峰绘网 :http://www.ifenghui.com/

一个比较好爬的漫画网，之所以选择这个网站，因为查看源代码能直接获得漫画的jpg连接，而且每一话所有的jpg一次性的都展示出来

人气排行榜最高的黑水潭

爬取单话

昆虫学家上 (28p)

#coding=utf-8

import os

import  urllib

import  urllib2

from bs4 import BeautifulSoup

request = urllib2.Request("http://www.ifenghui.com/index/comics/read/chapterId/19352.html")

response = urllib2.urlopen(request)

html_=response.read()

soup=BeautifulSoup(html_,"lxml")

i=0

for a in soup.find_all(class_="fh-read-img"):

    i=i+1

    num=str(i)

    url = a.get('ssrc')

    if not os.path.exists("C:/manhua"):

        os.mkdir("C:/manhua")

    file_="C:/manhua/"+num+".jpg"

    urllib.urlretrieve(url,file_)

    print '第'+num+'张漫画下载OK'

print '下载完成'

把url换成其他话

昆虫学家下 (28p)

http://www.ifenghui.com/index/comics/read/chapterId/20560.html

也没问题

爬取整部漫画

#coding=utf-8

import os

import re

import  urllib

import  urllib2

from bs4 import BeautifulSoup

request = urllib2.Request("http://www.ifenghui.com/index/comics/manhua/id/3235.html")#漫画目录

response = urllib2.urlopen(request)

html_=response.read()

soup=BeautifulSoup(html_,"lxml")

title_=''

tit=soup.title.string #获得标题

for t in tit:

    if t==' ':

        break

    else:

        title_=title_+t#获得截取后的标题

findAll=soup.find_all('a',attrs={'href':re.compile('^/index/comics/read/chapterId')})

chapter=findAll[3:]#获得全部张节的list

chapter.reverse()#倒叙list

elementNum=len(chapter)#统计元素个数，用来循环

i=0

if not os.path.exists("D:/manhua"):

    os.mkdir("D:/manhua")#在D盘下新建一个文件夹

for eachChapter in chapter:

    i = i + 1

    chapterNum = str(i)  # 打印漫画下载到第几章

    chapterTitle=eachChapter.string#获得每章的标题名

    rootUrl='http://www.ifenghui.com'#根目录

    chapterUrl=rootUrl+eachChapter.get('href')#根目录+相对地址=每章完整的URL

    #print chapterTitle#打印每章打印标题名

    #print chapterUrl#打印每章标题链接的URL

    request = urllib2.Request(chapterUrl)

    response = urllib2.urlopen(request)

    html_=response.read()

    soup=BeautifulSoup(html_,"lxml")

    j=0#以下载图片的顺序重新命名图片名

    if not os.path.exists("D:/manhua/" + title_):  ##########chapterTitle

        os.mkdir("D:/manhua/" + title_)  # 以本章名新建文件夹##########chapterTitle

    for a in soup.find_all(class_="fh-read-img"):#

      j=j+1

      pictureNum = str(j)  # 打印漫画下载到第几张

      pictureUrl = a.get('ssrc')#获得本图片的URL网址

      if not os.path.exists("D:/manhua/"+title_+"/"+chapterNum):##########chapterTitle

          os.mkdir("D:/manhua/"+title_+"/"+chapterNum)#以本章名新建文件夹##########chapterTitle

      file_="D:/manhua/"+title_+"/"+chapterNum+"/"+pictureNum+".jpg"##########chapterTitle

      urllib.urlretrieve(pictureUrl,file_)#下载到本地，并重命名

      print '第'+chapterNum+'章的第'+pictureNum+'页漫画下载OK'

    print '第'+chapterNum+'章下载完成'

print '所有下载完成'

(18) python 爬虫实战的更多相关文章

Python爬虫实战七之计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点.首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
Python爬虫实战三之实现山东大学无线网络掉线自动重连
综述最近山大软件园校区QLSC_STU无线网掉线掉的厉害,连上之后平均十分钟左右掉线一次,很是让人心烦,还能不能愉快地上自习了?能忍吗?反正我是不能忍了,嗯,自己动手,丰衣足食!写个程序解决掉它! ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...

随机推荐

BFS：胜利大逃亡
解题心得: 1.水题,主要主意好一个点就好. 2.注意x.y.z坐标的选取就好. 题目: Ignatius被魔王抓走了,有一天魔王出差去了,这可是Ignatius逃亡的好机会. 魔王住在一个城堡里,城 ...
（ADO.NET小知识点汇总）看到什么记什么
1.数据库连接池:在同时连接数不多的情况下, 打开一个链接往数据库导1W条数据的耗时跟导一条数据就打开跟关闭数据库连接的耗时两者其实相差不大,这是为什么呢?打开关闭的本身不是有很多耗时吗?这是因 ...
android 极光推送声音与振动的关闭和开启
前言:最近刚好在写一些推送方面的东西,又是新手,不断在网上找资料,很少,不过还是找到了一些,反正百度我是再也不想百度了,谷歌一下子就能找到想要的. 废话不多说. 1.主要方法就是如下一个函数 priv ...
非常全的API接口查询
http://www.apix.cn/services/category/3 https://www.showapi.com/ https://www.juhe.cn/docs http://deve ...
Python框架之Django学习笔记（十二）
Django站点管理十一转眼结束,说好的充电没能顺利开展,反而悠闲的看了电视剧以及去影院看了新上映的<心花路放>.<亲爱的>以及<黄金时代>,说好的劳逸结合现在回 ...
docker log 批量删除报错: find: `/var/lib/docker/containers/': 没有那个文件或目录
问题描述: 服务器上面docker log太多,打算用之前写的批量清理shell脚本清理掉,但是发现报错. find: `/var/lib/docker/containers/': 没有那个文件或目录 ...
201621123034 《Java程序设计》第1周学习总结
1. 本周学习总结知道了java的用途有安卓手机应用,企业服务器后端,java web.学到了新概念:类.HelloWorld.java 中 HelloWorld 是主文件名,区分 .java和 . ...
C++字符串高效查找替换，有空分析分析
void CWebTransfer::Substitute(char *pInput, char *pOutput, char *pSrc, char *pDst) { char *pi, *po, ...
POJ 2836：Rectangular Covering（状态压缩DP）
题目大意:在一个平面内有若干个点,要求用一些矩形覆盖它们,一个矩形至少覆盖两个点,可以相互重叠,求矩形最小总面积. 分析: 数据很小,很容易想到状压DP,我们把点是否被覆盖用0,1表示然后放在一起得到 ...
【bzoj1097】[POI2007]旅游景点atr 状压dp+堆优化Dijkstra
题目描述 FGD想从成都去上海旅游.在旅途中他希望经过一些城市并在那里欣赏风景,品尝风味小吃或者做其他的有趣的事情.经过这些城市的顺序不是完全随意的,比如说FGD不希望在刚吃过一顿大餐之后立刻去下一个 ...

(18) python 爬虫实战

(18) python 爬虫实战的更多相关文章

随机推荐

热门专题