用thinkphp写的一个例子：抓取网站的内容并且保存到本地

我需要写这么一个例子，到电子课本网下载一本电子书。

电子课本网的电子书，是把书的每一页当成一个图片，然后一本书就是有很多张图片，我需要批量的进行下载图片操作。

下面是代码部分：

    public function download() {

        $http = new \Org\Net\Http();

        $url_pref = "http://www.dzkbw.com/books/rjb/dili/xc7s/";

        $localUrl = "Public/bookcover/";

        $reg="|showImg\('(.+)'\);|";

        $i=1;

        do {

            $filename = substr("000".$i,-3).".htm";

            $ch = curl_init();

            curl_setopt($ch, CURLOPT_URL, $url_pref.$filename);

            curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

            curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);

            curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

            $html = curl_exec($ch);

            curl_close($ch);

            $result = preg_match_all($reg,$html,$out, PREG_PATTERN_ORDER);

            if($result==1) {

                $picUrl = $out[1][0];

                $picFilename = substr("000".$i,-3).".jpg";

                $http->curlDownload($picUrl, $localUrl.$picFilename);

            }

            $i = $i+1;

        } while ($result==1);

        echo "下载完成";

    }

我这里是以人教版地理七年级地理上册为例子 http://www.dzkbw.com/books/rjb/dili/xc7s/001.htm

网页是从001.htm开始，然后数字一直加

每个网页里面都有一张图，就是对应课本的内容，以图片的形式展示课本内容

我的代码是做了一个循环，从第一页开始抓，一直抓到找不到网页里的图片为止

抓到网页的内容后，把网页里面的图片抓取到本地服务器

抓取后的实际效果：

用thinkphp写的一个例子：抓取网站的内容并且保存到本地的更多相关文章

python抓取网页中图片并保存到本地
#-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file ...
C# 实现抓取网站页面内容
抓取新浪网的新闻栏目,如图所示: 使用谷歌浏览器的查看源代码: 通过分析得知,我们所要找的内容在以下两个标签之间: <!-- publish_helper name='要闻-新闻' p_id= ...
【亲测可用网上的不靠谱居多】一个完整的用canvas画内容然后保存到本地的例子
涉及好多个问题比如保存到本地有黑色背景怎么用把文字和图画到画布上腾讯的东西就是坑多了直接上代码吧啥也不说额 pic.wxml <view class='container'> ...
python-requests库的使用之爬取贴吧内容并保存在本地
以面向对象的程序设计方式,编写爬虫代码爬去‘李毅吧’所有页面的内容,也可以通过改变对象的参数来爬取其它贴吧页面的内容. 所用到的库为:requests 涉及知识点:python面向对象编程,字符串操作 ...
抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定
首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章 ...
Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...
pythonのscrapy抓取网站数据
(1)安装Scrapy环境步骤请参考:https://blog.csdn.net/c406495762/article/details/60156205 需要注意的是,安装的时候需要根据自己的pyt ...
php curl抓取远程页面内容的代码
使用php curl抓取远程页面内容的例子. 代码如下: <?php /** * php curl抓取远程网页内容 * edit by www.jbxue.com */ $curlPost = ...
使用PHP抓取网站ico图标
网站许久没用更新,以后会经常更新,本次分享一个使用PHP抓取网站ico的程序,提供一个网站列表后对网站的ico进行下载抓取,具体代码如下: <?php /** * 更新热站ico * gao 2 ...

随机推荐

C++ set使用
C++ set使用实际上c++ STL中的set是的实现和C++ STL中的map的实现的底层数据结构是一样的,如果我们不在考虑红黑树中的卫星数据,而只是关键字,那么同样不允许key值得重复,那么就 ...
一些gem的简要翻译（欢迎提出问题共同讨论）
写这篇文章主要有两方面用途 1.希望给rails同行一定的帮助,翻译水平有限,贴出中英文,翻译有误的地方欢迎指正,非常感谢,转载请标明出处,谢谢. 2.加深作者对gem的理解,有需要更详细了解安装以及 ...
bzoj 3389
题意:给定1维连续T<= 1000000个点,以及n<=10000个线段,求最少的线段覆盖该区间.. 思路:很显然,贪心是可以做的..不过这一题最有意思的是使可以转换为最短路模型.. 如果 ...
halcon的算子列表
Chapter 1 :Classification 1.1 Gaussian-Mixture-Models 1.add_sample_class_gmm 功能:把一个训练样本添加到一个高斯混合模型的训 ...
[ACM_其他] 总和不小于S的连续子序列的长度的最小值——尺缩法
Description: 给定长度为n的整数数列,A[0],A[1],A[2]….A[n-1]以及整数S,求出总和不小于S的连续子序列的长度的最小值.如果解不存在,则输出0. Input: 输入数据有 ...
[ACM_其他] Square Ice (poj1099 规律）
Description Square Ice is a two-dimensional arrangement of water molecules H2O, with oxygen at the v ...
[51单片机] TFT2.4彩屏2 [32*32文字显示]
>_<:同理如果想显示其他形式的字体,就要建立相应的库啦,如这里还有一个gb3232的汉字库:GB3232.h // ------------------ 汉字字模的数据结构定义 ---- ...
[JS13] ActivetX
<HTML> <head> <title>JavaScript Unleashed</title> <script type="text ...
一道印象深刻的面试题：String参数传递问题
今天小菜去北京某知名公司面试,做了公司的面试题,然后就是轻松的面试. 面试过程中,面试官让我讲讲其中一个题是怎么选的答案,代码大致内容如下: public class StringTest{ publ ...
Bash实用技巧：同时循环两个列表
摘要: 你会学到一种原创的同时循环两个列表的方法.类似于Python或者Haskell的zip函数,非常简洁直观,效果如下: $ paste <( ) <( ) | while read ...

用thinkphp写的一个例子：抓取网站的内容并且保存到本地

用thinkphp写的一个例子：抓取网站的内容并且保存到本地的更多相关文章

随机推荐

热门专题