Python爬取17吉他网吉他谱

最近学习吉他，一张一张保存吉他谱太麻烦，写个小程序下载吉他谱。

安装 BeautifulSoup，BeautifulSoup是一个解析HTML的库。
pip install BeautifulSoup4

在这个程序中 BeautifulSoup 使用 html5lib 所以还要安装 html5lib
pip install html5lib

代码如下：

# -*- coding: utf-8 -*-

#coding=UTF8

import os

import sys

import logging

import urllib

import urllib2

import chardet

import re

import cookielib

import urlparse

from bs4 import BeautifulSoup

sysEncoding = sys.getfilesystemencoding()

cookieJar = cookielib.CookieJar()

def get(url):

    req = urllib2.Request(url)

    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar))

    response = opener.open(req)

    return response.read()

def download_guitar_image(url, target):

    print 'start download guitar image ...'

    req = urllib2.Request(url)

    req.add_header('Accept','image/webp,image/*,*/*;q=0.8')

    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar))

    response = opener.open(req)

    content = response.read()    

    with open(target, 'wb') as code:

        code.write(content)

#解析吉他谱图片页面链接地址

def parse_guitar_img_link():

    page_list = []

    url_base = 'http://www.17jita.com/'

    page = 1

    while True:

        url = url_base + 'tab/img/index.php?page=' + str(page)

        print url

        html = get(url)

        soup = BeautifulSoup(html, "html5lib")

        list = soup.select('#ct dl > dt > a')

        if not list:

            break

        for item in list:

            page_list.append({ 'title' : item.text, 'link' : url_base + item['href'] })

        page += 1

    return page_list    

def download_guitar_image_link_list(url):

    image_link_list = []

    page = 1

    while True:

        page_url = url

        if page > 1:

            page_url = url.replace('.html', '' + str(page) + '.html')

        try:

            html = get(page_url)

            soup = BeautifulSoup(html, 'html5lib')

            img_list = soup.select('#article_contents a > img')

            for img in img_list:

                image_link_list.append(img['src'])

        except urllib2.URLError, e:

            msg = u'下载 ' + page_url + u' 出错, 原因: ' + e.reason

            print msg

            logging.error(msg)

            break

        page += 1

    return image_link_list

if __name__ == '__main__':

    logging.basicConfig(

        level=logging.DEBUG,

        format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',

        datefmt='%Y-%m-%d %H:%M:%S',

        filename='guitar.log',

        filemode='a')

    path = 'guitar'

    if not os.path.exists(path):

        os.mkdir(path)

    page_list = parse_guitar_img_link()

    for page in page_list:

        print page['link'] + '(' + page['title'] + ')'

        guitar_path = path + '/' + (page['title']).encode('GBK')

        if not os.path.exists(guitar_path):

            os.mkdir(guitar_path)

        image_link_list = download_guitar_image_link_list(page['link'])

        for image_link in image_link_list:

            print '\t' + image_link

            filename = image_link[image_link.rindex('/'):]

            filepath = guitar_path + filename.encode('GBK')

            download_guitar_image(image_link, filepath)

程序中还存在一些问题尚优化，比如下载中断，不能下载剩下的吉他谱。

Python爬取17吉他网吉他谱的更多相关文章

Python爬取中国天气网
Python爬取中国天气网基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...
（python爬取小故事网并写入mysql）
前言: 这是一篇来自整理EVERNOTE的笔记所产生的小博客,实现功能主要为用广度优先算法爬取小故事网,爬满100个链接并写入mysql,虽然CS作为双学位已经修习了三年多了,但不仅理论知识一般,动手 ...
python爬取天气后报网
前言大二下学期的大数据技术导论课上由于需要获取数据进行分析,我决定学习python爬虫来获取数据.由于对于数据需求量相对较大,我最终选择爬取天气后报网,该网站可以查询到全国各地多年的数据,而且相对 ...
Python 爬取煎蛋网妹子图片
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-24 10:17:28 # @Author : EnderZhou (z ...
Python爬取中国票房网所有电影片名和演员名字，爬取齐鲁网大陆所有电视剧名称
爬取CBO中国票房网所有电影片名和演员名字 # -*- coding: utf-8 -*- # 爬取CBO中国票房网所有电影片名 import json import requests import ...
python爬取斗图网中的 “最新套图”和“最新表情”
1.分析斗图网斗图网地址:http://www.doutula.com 网站的顶部有这两个部分: 先分析“最新套图” 发现地址栏变成了这个链接,我们在点击第二页可见,每一页的地址栏只有后面的pag ...
适合初学者的Python爬取链家网教程
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: TinaLY PS:如有需要Python学习资料的小伙伴可以加点击下 ...
python爬取中国知网部分论文信息
爬取指定主题的论文,并以相关度排序. #!/usr/bin/python3 # -*- coding: utf-8 -*- import requests import linecache impor ...
python爬取千库网
url:https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/ 有水印但是点进去就没了这里先来测试是否有反爬虫 import requests ...

随机推荐

switch case 与 if
case 在编程中偶尔使用到switch case语句,对于case语句的处理,出现了两种错误,现总结如下: case后必须是常量.布尔类型.字符(不能是字符串): case后如果是‘||’或者‘&a ...
SQL 学习与工作日常：语句积累
1.跨服务器连接数据表 --打开服务器配置'Ad Hoc Distributed Queries' --exec sp_configure 'show advanced options',1 --re ...
Jquery选择器，操作DOM
刚接触jQuery,她真的是个好东西,操作DOM,修改样式,都很方便,主要获取DOM树的类和子代很方便. 今天用jq做了tab面包屑,不过用的是别人的代码,自己修改的,不错也做出来了,原理也有些明白, ...
PHP之数组函数归类
数组之所以强大,除了本身声明.存储方式灵活,它还有坚强后盾:一系列功能各异的数组处理函数.就像一只军队,除了领队将军本身能征善战,指挥英明之外,还有一群不怕死.忠实于他的士兵,这样才能显得整体的强大. ...
mysql 5.5 win7安装最后一步总是停止响应
今天刚开始安装了64位版本的mysql5.5 ,安装很顺利,后来发现库不兼容的问题,于是卸载,安装mysql-5.5.27-win32的32位版本,奇怪了,怎么安装,怎么卸载都不行,就是到最后一步停 ...
Python(2.7.6) 迭代器
除了对列表.集合和字典等进行迭代,还能对其他对象进行迭代:实现 __iter__ 方法的对象.例如, 文件对象就是可迭代的: >>> dir(file) ['__class__', ...
C#学习笔记11：C#中的顺序结构、分支结构、循环结构
顺序结构: 代码从Main()函数开始运行,从上到下,一行一行的执行,不漏掉代码. Int a=6; int b=5; int c=a+b; Console.Write(c); 分支结构: 代码有可能 ...
C++例题练习(1)
环境:Dev-C++( Version:5.6.1) 一.求2个或3个正整数中的最大数,用带有默认参数的函数实现代码实现: #include <iostream> using names ...
mac 查看系统时区
sudo systemsetup -gettimezone https://developer.apple.com/library/mac/documentation/Darwin/Reference ...
unity发布ios游戏总结
自己做了几个ios的小游戏,因此总结了一点经验判断按钮要用unity里面的button不要用OnMouseDown()之类的函数,否则拒绝原因为缺少ios特征排行榜之类的本地存储数据,不要用本地本 ...

Python爬取17吉他网吉他谱

Python爬取17吉他网吉他谱的更多相关文章

随机推荐

热门专题