用Python定时爬取网站最新资源

记录一下。

写做个网站，爬了另一个网站的内容来做自己网站的内容。

把脚本挂到服务器，每隔一个小时去爬一次资源，然后保存到一个HTML文件里。

用flask做web对接，当有请求的时候就返回那个HTML文件。

这样就实现了一个api接口。思路大概就这样，比较简单，没做什么防护。

下面这个是脚本代码。

 import requests,time,re     #一共三个模块，没装的先装

 def zyw():

     while(True):

         url='https://www.525zyw.com/'  #爬的网站URL

         html=requests.get(url).text        #获取网站的首页源代码

         re_url=re.findall('<li class="column half"><div class="lbbt_c00">(.*?)</div>.*?</li>',html,re.S)   #比配最新资源

         list_r=''

         for i in re_url:

             tiem=re.findall('.*?>(.*?)</span>.*?',i,re.S)[0]   #这里的四个正则主要是进一步的提取我们需要的东西

             src=re.findall('.*?<img src="(.*?)"/>.*?',i,re.S)[0]   #

             href=re.findall('.*?<a href="(.*?)".*?',i,re.S)[0]

             title=re.findall('.*?title="(.*?)".*?',i,re.S)[0]

             res='<span style="font-weight: bold;">%s</span><img src="%s%s"/> <a href="%s%s" title="%s" style="color:#000000;" target="_blank">%s</a><br><br>'%(tiem,url,src,url,href,title,title)

             list_r=list_r+res   #经过上面的拼接，这里是所有的内容加入一个字符串

         f=open('./templates/zyw.html','w')   #打开文件

         f.write(list_r)    #把字符串写入文件

         f.close()

         time.sleep(3600)    #这里是每隔1个小时去爬一次，测试时先注释掉

 if __name__ == '__main__':

     zyw()    #调用

这里是用flask框架做对接。本来是想直接返回HTML文件的，但是出现了点问题，我就读HTML文本直接返回文本。

 from flask import Flask

 from flask import request

 app=Flask(__name__)

 @app.route('/zyw/ziyuan/')

 def hm():

     ff=open("templates/zyw.html")

     str=ff.read()

     ff.close()

     return str

用Python定时爬取网站最新资源的更多相关文章

python 实现爬取网站下所有URL
python3 实现爬取网站下所有URL 获取首页元素信息: 首页的URL链接获取: 遍历第一次返回的结果: 递归循环遍历: 全部代码如下: 小结: python3.6 requests && ...
Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
Python脚本爬取网站美女照片
上次无意之中看到一个网站,里面全是美女的照片,我就心想,哪天有时间了得把这网站的所有美女照片都得爬下来.今天有时间,写了点代码,爬去了网站的所有照片.附上战果!图片实在是太多了,爬半个多小时先附上所 ...
【Python】爬取网站图片
import requests import bs4 import urllib.request import urllib import os hdr = {'User-Agent': 'Mozil ...
python 定时爬取内容并发送报告到指定邮箱
import requests import smtplib import schedule import time from bs4 import BeautifulSoup from email. ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...

随机推荐

kettle工具的设计模块
大家都知道,每个ETL工具都用不同的名字来区分不同的组成部分.kettle也不例外. 比如,在 Kettle的四大不同环境工具本博客,是立足于kettle工具的设计模块的概念介绍. 1.转换转换( ...
JavaScript学习——使用JS完成页面定时弹出广告
1.获取图片的位置(document.getElementById(“”)) 隐藏图片:display:none 定时操作:setInterval(“显示图片的函数”,3000); 2.步骤分析 ( ...
css3实现轮播图
css3动画属性简写: animation: name duration timing-function delay iteration-count direction fill-mode ...
优动漫PAINT个人版绘制树叶教程
超详细树叶绘制法,更有配套绘树小TIPE!让你画树So Easy~一秒变身,画树达人! 优动漫PAINT个人版软件下载:http://www.dongmansoft.com/chanpin.html ...
洛谷P2045 方格取数加强版最小费用流
Code: #include<cstdio> #include<cstring> #include<algorithm> #include<queue> ...
vue实现tab栏切换
html <ul class="tab"> <li v-for="(item,index) in tabs" @click="tab ...
LINUX 中 python 版本升级
首先下载源tar包可利用linux自带下载工具wget下载,如下所示: 1 # wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tg ...
带入gRPC：对 RPC 方法做自定义认证
带入gRPC:对 RPC 方法做自定义认证原文地址:带入gRPC:对 RPC 方法做自定义认证项目地址:https://github.com/EDDYCJY/go... 前言在前面的章节中,我们介 ...
做一个可复用的 echarts-vue 组件（延迟动画加载）
在 vue 项目使用 echarts 的场景中,以下三点不容忽视:1. 可视化的数据往往是异步加载的:2. 若一个页面存在大量的图表( 尤其当存在关系图和地图时 ),往往会导致该页面的渲染速度很慢并可 ...
Vue组件开发 -- Markdown
利用marked 和 highlight.js开发markdown组件实现效果图如下: markdown组件已这种形式<Markdown v-model="markdown" ...

用Python定时爬取网站最新资源

用Python定时爬取网站最新资源的更多相关文章

随机推荐

热门专题