python 火车票爬取代码

1、根据搜索词下载百度图片：

# -*- coding: utf-8 -*-

"""根据搜索词下载百度图片"""

import re

import sys

import urllib

import requests

def get_onepage_urls(onepageurl):

    """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url"""

    if not onepageurl:

        print('已到最后一页, 结束')

        return [], ''

    try:

        html = requests.get(onepageurl)

        html.encoding = 'utf-8'

        html = html.text

    except Exception as e:

        print(e)

        pic_urls = []

        fanye_url = ''

        return pic_urls, fanye_url

    pic_urls = re.findall('"objURL":"(.*?)",', html, re.S)

    fanye_urls = re.findall(re.compile(r'<a href="(.*)" class="n">下一页</a>'), html, flags=0)

    fanye_url = 'http://image.baidu.com' + fanye_urls[0] if fanye_urls else ''

    return pic_urls, fanye_url

def down_pic(pic_urls):

    """给出图片链接列表, 下载所有图片"""

    for i, pic_url in enumerate(pic_urls):

        try:

            pic = requests.get(pic_url, timeout=15)

            string = str(i + 1) + '.jpg'

            with open(string, 'wb') as f:

                f.write(pic.content)

                print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))

        except Exception as e:

            print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))

            print(e)

            continue

if __name__ == '__main__':

    keyword = '火车票'  # 关键词, 改为你想输入的词即可, 相当于在百度图片里搜索一样

    url_init_first = r'http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1497491098685_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1497491098685%5E00_1519X735&word='

    url_init = url_init_first + urllib.parse.quote(keyword, safe='/')

    all_pic_urls = []

    onepage_urls, fanye_url = get_onepage_urls(url_init)

    all_pic_urls.extend(onepage_urls)

    fanye_count = 0  # 累计翻页数

    while 1:

        onepage_urls, fanye_url = get_onepage_urls(fanye_url)

        fanye_count += 1

        # print('第页' % str(fanye_count))

        if fanye_url == '' and onepage_urls == []:

            break

        all_pic_urls.extend(onepage_urls)

    down_pic(list(set(all_pic_urls)))

链接：https://blog.csdn.net/xiligey1/article/details/73321152　　

2、根据搜索词下载谷歌、必应、百度图片

# coding:utf-8

# 基于icrawler第三方库同时爬取google，baidu，bing图片，并对名称进行重写，数据进行分类

# 图片存放路径为：base_dir='F:/文档/text'

import logging

import sys

import base64

from datetime import date

from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler

from icrawler import ImageDownloader

from icrawler.builtin import GoogleImageCrawler

from six.moves.urllib.parse import urlparse

class PrefixNameDownloader(ImageDownloader):

    def get_filename(self, task, default_ext):

        filename = super(PrefixNameDownloader, self).get_filename(

            task, default_ext)

        return 'prefix_' + filename

class Base64NameDownloader(ImageDownloader):

    def get_filename(self, task, default_ext):

        url_path = urlparse(task['file_url'])[2]

        if '.' in url_path:

            extension = url_path.split('.')[-1]

            if extension.lower() not in [

                    'jpg', 'jpeg', 'png', 'bmp', 'tiff', 'gif', 'ppm', 'pgm'

            ]:

                extension = default_ext

        else:

            extension = default_ext

        filename = base64.b64encode(url_path.encode()).decode()

        return '{}.{}'.format(filename, extension)

def test_google(dir,keyword):

    print('启用google爬虫')

    google_crawler = GoogleImageCrawler(parser_threads=20,

                                        downloader_threads=20,

                                        downloader_cls=Base64NameDownloader,

                                        storage={'root_dir': dir},

                                        log_level = logging.INFO)

    google_crawler.crawl(keyword=keyword, offset=0, max_num=1000,min_size=(200,200), max_size=None)

def test_bing(dir,keyword):

    keyword = keyword.replace(': flickr.com', '')

    print('启用bing爬虫',keyword)

    bing_crawler = BingImageCrawler(

                                    # parser_threads=16,

                                    downloader_cls=Base64NameDownloader,

                                    downloader_threads=16,

                                    storage={'root_dir': dir},

                                    log_level=logging.DEBUG)

    bing_crawler.crawl(keyword=keyword,offset=0, max_num=1000,min_size=None,max_size=None)

def test_baidu(dir,keyword):

    keyword = keyword.replace(': flickr.com', '')

    print('启用百度爬虫',keyword)

    baidu_crawler = BaiduImageCrawler(

                                    # parser_threads=16,

                                    # downloader_threads=16,

                                    downloader_cls=Base64NameDownloader,

                                    storage={'root_dir': dir},

                                    log_level = logging.DEBUG)

    baidu_crawler.crawl(keyword=keyword, offset=0,max_num=1000,min_size=None,max_size=None)

def main():

##################################################################

            keyword='火车票'

            base_dir='F:/文档/text'

            if len(sys.argv) == 1:

                dst = 'all'

            else:

                dst = sys.argv[1:]

            if 'all' in dst:

                dst = ['google', 'bing', 'baidu',]

            if 'google' in dst:

                test_google(base_dir,keyword)

            if 'bing' in dst:

                test_bing(base_dir,keyword)

            if 'baidu' in dst:

                test_baidu(base_dir,keyword)

if __name__ == '__main__':

    main()

链接：https://github.com/Crawler-y/Image_crawl-

3、github 搜索爬虫，有许多有趣的项目。

python 火车票爬取代码的更多相关文章

使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
python大规模爬取京东
python大规模爬取京东主要工具 scrapy BeautifulSoup requests 分析步骤打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点我们可以看到这个页面 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同. 爬取一个问题的所有内容流程大致如下: 一个问题url 请求url,获取问题下的答案个数 ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...

随机推荐

JavaScript面向对象编程指南（第2版）》读书笔记
一.对象 1.1 获取属性值的方式 water = { down: false } console.log(water.down) // false console.log(water['down'] ...
crtmpserver配置文件详解
Configuration file配置文件 The configuration file is actually a lua script which must contain an object ...
VS2017安装后如何移动 Windows Kits文件夹
MS的回答 LINK Try the following technique: Close all programs, move the “Windows Kits” folder to anothe ...
iOS:使用贝塞尔曲线绘制图表（折线图、柱状图、饼状图）
1.介绍: UIBezierPath :画贝塞尔曲线的path类 UIBezierPath定义 : 贝赛尔曲线的每一个顶点都有两个控制点,用于控制在该顶点两侧的曲线的弧度. 曲线的定义有四个点:起始点 ...
UltraISO制作ISO镜像文件
怎样制作一个ISO的镜像文件呢,镜像文件的应用范围比较广泛,最常见的应用就是数据备份(如软盘和光盘).随着宽带网的普及,有些下载网站也有了ISO格式的文件下载,方便了软件光盘的制作与传递.常见的镜像文 ...
Linux下Oracle 10g DataGuard配置(主从同步及切换)
环境描述:主库: IP: 10.8.3.191 主机名:primaryORACLE_SID=afcORACLE_BASE=/u01/oracleORACLE_HOME=/u01/oracle/10g备 ...
Computer Generated Angular Fisheye Projections [转]
Computer GeneratedAngular Fisheye Projections Written by Paul Bourke May 2001 There are two main ide ...
【问题】VH
[问题]: CSS中使用了VH,在iOS中展示正常,但是在安卓的个别浏览器中,当输入框弹出时,使用VH的DIV的高度会发生变化. [原因]: 在安卓端浏览器虚拟键盘弹出时,导致视口高度改变,以至于 ...
PHP的代理模式
php的代理模式的实现: 理解一种模式,可以融会贯通,和其它的模式进行对比.找出为什么要代理模式呢?跟父类.接口的区别是什么? 为什么需要这种模式?存在的价值? 原文:https://www.cnb ...
WCF学习笔记之序列化
DataContractAttribute 与 DataMenberAttribute DataContractAttribute该特性只能用于枚举.类和结构体,而不能用于接口:又因为DataCont ...

python 火车票爬取代码

python 火车票爬取代码的更多相关文章

随机推荐

热门专题