使用wget工具抓取网页和图片 发表于1年前(2014-12-17 11:29)   阅读(2471) | 评论(14) 85人收藏此文章, 我要收藏 赞7 wget 网页抓取 图片抓取 目录[-] 奇怪的需求 wget概述 wget尝试 wget正解 奇怪的需求 公司需要将服务器的网页缓存到路由器,用户在访问该网页时就直接取路由器上的缓存即可.虽然我不知道这个需求有什么意义,但还是尽力去实现吧. wget概述 wget是unix和类unix下的一个网页抓取工具,待我熟悉它后,发现它的功能远不止…
想保存一些网页,最后找到这 wget 的 shell脚本,虽然不是太理想,亲测可用呢. 使用wget工具抓取网页和图片   来源 https://my.oschina.net/freestyletime/blog/356985 #!/bin/sh URL="$2" PATH="$1" echo "download url: $URL" echo "download dir: $PATH" /usr/bin/wget -e ro…
#-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file_extension(file): return os.path.splitext(file)[1] '''創建文件目录,并返回该目录''' def mkdir(path): # 去除左右两边的空格 path=path.strip() # 去除尾部 \符号 path=path.rstrip("\\&…
抓取网页图片的脚本(javascript) 本文地址: http://blog.csdn.net/caroline_wendy/article/details/24172223 脚本内容 (没有换行):  javascript:void(function(g,d,m,s){g[m]?(g[m].c=1,g[m]()):!d[m]&&(d.getElementsByTagName('head')[0]||d.body).appendChild((d[m]=1,s=d.createElemen…
思路是先用curl抓取网页源码,然后以关键字寻找出图片网址.   #include <stdio.h> #include <stdlib.h> #include <string.h> #include <curl/curl.h>   void get_key_from_str(char *origin, char *str1, char *str2, char *key);   int main(int argc, char **argv) {     CU…
思路是先用curl抓取网页源码,然后以关键字寻找出图片网址.  范例: #include <stdio.h> #include <stdlib.h> #include <string.h> #include <curl/curl.h> void get_key_from_str(char *origin, char *str1, char *str2, char *key); int main(int argc, char **argv) { CURL *c…
今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: #!/usr/bin/env python # -*- coding:utf- -*- # Author: xixihuang # Date : // : AM # Desc: 抓取网页,获取图片URL,抓取图片内容并保存到本地. import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file_extension(file): ]…
本人比较喜欢海贼王漫画,所以特意选择了网站http://www.mmonly.cc/ktmh/hzw/list_34_2.html来抓取海贼王的图片. 因为是刚刚学习python,代码写的不好,不要喷. 功能主要抓取此网页的图片如下: 贴代码: #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 import re url1 = "http://www.mmonly.cc/ktmh/hzw/list_34_2.html&quo…
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正. import urllib.request import re import os import urllib #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.request.urlope…
背景:前几天复习Java的时候看到URL类,当时就想写个小程序试试,迫于考试没有动手,今天写了下,感觉还不错 内容1. 抓取网页中的URL 知识点:Java URL+ 正则表达式 import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.util.regex.Matcher; import java.util.regex.Pattern; public cla…