python 简易小爬虫

此脚本用于爬站点的下载链接，最终输出到txt文档中。

如果是没有防盗链设置的站点，也可以使用脚本中的下载函数尝试直接下载。

本脚本是为了短期特定目标设计的，如果使用它爬其它特征的资源链接需自行修改配置语句。

python初学者，请多多指正。

# -*- coding: utf-8 -*-

import re

import urllib

import os

import urllib2

import requests

import time

#download the file

def download(page, url):

	local_filename =url.split('/')[-1] + page + '.jpg'

	r = requests.get(url, stream=True)

	with open(local_filename, 'wb') as f:

		for chunk in r.iter_content(chunk_size = 1024):

			if chunk: # filter out keep-alive new chunks

				f.write(chunk)

                f.flush() 

	return local_filename

#turn the data array into urls array

def print_urls(urls):

	output_urls = []

	for link in urls:

		start_link = link.find('"')

		end_link = link.find('"', start_link+1)

		output_link = link[start_link+1: end_link]

		if output_link.find('http') == -1:

			output_link = 'http://www.XXX.com' + output_link

		if link.count('"') > 2:

			continue

		else:

			output_urls.append(output_link)

	return output_urls

def output_download_link_page(page):

	url = page

	s = urllib.urlopen(url).read()

	urls = []

	img_urls = 'no image on' + page

	new_stl_urls = []

	title = re.findall(r'<h1>.+<\/h1>', s, re.I)

	if len(title) != 0:

		title = title[0]

	else:

		title = 'no title'

	img_urls = print_urls(re.findall(r'href=".*?\.jpg.*?"', s, re.I))

	if len(img_urls) != 0:

		img_urls = img_urls[0]

	else:

		img_urls = 'no image' + page	

	stl_urls = print_urls (set(re.findall(r'href="/download/.*?"', s, re.I)))

	for url in stl_urls:

		#url = urllib2.urlopen(url).url

		url = requests.get(url).url

		new_stl_urls.append(url)

	urls.append(title)

	urls.append(img_urls)

	urls = urls + new_stl_urls

	return urls

#print output_download_link_page('http://www.XXX.com/thing/46876')

#output all links to download

def output_all_pages(site):

	s = urllib.urlopen(site).read()

	page = re.findall(r'href="/thing/.*?"', s, re.I)

	page = set(page)

	return print_urls(page)

#output all the sites to download

def generate_sites(start, end):

	sites = []

	for  num in range(start, end):

		sites.append('http://www.XXX.com/popular?query=&pg=' + str(num))

	return sites

#write all the results to a txt file

file_new = open ('1.txt', 'r+')

url_pakage = []

sites = generate_sites(40, 46)

count = 0

for site in sites:

	print site

	file_new.write( '\n' + site)

	pages = output_all_pages(site)

	for page in pages:

		urls = output_download_link_page(page)

		#

		if len(urls) >= 10:

			continue

		count = count + 1

		for url in urls:

			file_new.write(url + '\n')

	print 'done'

	time.sleep(10)

file_new.close()

print 'all done. all..' + str(count) + '..models'

python 简易小爬虫的更多相关文章

亲身试用python简单小爬虫
前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...
python的小爬虫的基本写法
1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器这在某些情况下比较有用,比如IP被封 ...
python简单小爬虫爬取易车网图片
上代码: import requests,urllib.request from bs4 import BeautifulSoup url = 'http://photo.bitauto.com/' ...
python图片小爬虫
import re import urllib import os def rename(name): name = name + '.jpg' return name def getHtml(url ...
Python练习，网络小爬虫（初级）
最近还在看Python版的rcnn代码,附带练习Python编程写一个小的网络爬虫程序. 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的.比如说你在浏览器的地址栏中输入 www ...
python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
python 10 min系列三之小爬虫(一)
python10min系列之小爬虫前一篇可视化大家表示有点难,写点简单的把,比如命令行里看论坛的十大,大家也可以扩展为抓博客园的首页文章本文原创,同步发布在我的github上据说去github右 ...
Python 基于学习网络小爬虫
<span style="font-size:18px;"># # 百度贴吧图片网络小爬虫 # import re import urllib def getHtml( ...
Python爬虫01——第一个小爬虫
Python小爬虫——贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能然后实现对用户所给的链接进行抓取最后要有一定的 ...

随机推荐

超好用json转excel工具
给大家安利一个超实用的json数据转excel工具:http://www.yzcopen.com/doc/jsonexcel
Codeforces Round #603 (Div. 2)F. Economic Difficulties
F. Economic Difficulties 题目链接: https://codeforces.com/contest/1263/problem/F 题目大意: 两棵树,都有n个叶子节点,一棵树正 ...
主流Linux可视化运维面板&安装包
一.AMH面板 1.官方网站官方网站:http://amh.sh 2.面板介绍截止到AMH4. 2 版本都是提供免费安装的,后来从5. 0 开始提供付费安装,可以理解开发者的盈利问题,毕竟提供免费 ...
前端学习之路之SPA(单页应用)设计原理
SPA设计 1.设计意义前后端分离减轻服务器压力增强用户体验 Prerender预渲染优化SEO 前后端分离:前端做业务逻辑,后端处理数据和接口,耦合度减少,开发效率提高. 减轻服务器压力:一个 ...
POJ2395 Out of Hay（求最小生成树中最大的边权，Kruskal）
POJ2395 Out of Hay 寻找最小生成树中最大的边权. 使用 Kruskal 求解,即求选取的第 \(n-1\) 条合法边. 时间复杂度为 \(O(e\log e)\) . #includ ...
基于GTID模式MySQL主从复制
基于GTID模式MySQL主从复制 GTID复制原理:基于GTID的复制是MySQL 5.6后新增的复制方式GTID (global transaction identifier) 即全局事务ID, ...
leetcode 374猜数字大小
// Forward declaration of guess API. // @param num, your guess // @return -1 if my number is lower, ...
Eclipse Java工程转为Web工程步骤
找到工程的.project文件,在<natures>标签中增加以下两行配置:<nature>org.eclipse.wst.common.modulecore.ModuleCo ...
阶段1 语言基础+高级_1-3-Java语言高级_07-网络编程_第4节模拟BS服务器案例_2_模拟BS服务器代码实现
这三行代码是固定的在输出之前浏览器再次访问这个页面. 图片没有显示出来复制刚才的代码一份出来重命名加个while循环.把代码都放进去. 然后在while里面开启一个线程.把读取的代码都放在线程里 ...
阶段1 语言基础+高级_1-3-Java语言高级_04-集合_01 Collection集合_1_Collection集合概述

python 简易小爬虫

python 简易小爬虫的更多相关文章

随机推荐

热门专题