python开发全自动网站链接主动提交百度工具

自己网站因数据比较多，趁晚上没事就写了一个通过python爬取url自动提交给百度，实现网站全站提交的思路，代码实现很简单，因为编写时间仓储，难免有些bug，可以放在服务器上配置下定时爬取提交。

import os

import re

import shutil  

REJECT_FILETYPE = 'rar,7z,css,js,jpg,jpeg,gif,bmp,png,swf,exe' #定义爬虫过程中不下载的文件类型

def getinfo(webaddress):   #'#通过用户输入的网址连接上网络协议，得到URL我这里是我自己的域名

    global REJECT_FILETYPE

    url = 'http://'+webaddress+'/'  #网址的url地址

    print 'Getting>>>>> '+url

    websitefilepath = os.path.abspath('.')+'/'+webaddress   #通过函数os.path.abspath得到当前程序所在的绝对路径，然后搭配用户所输入的网址得到用于存储下载网页的文件夹

    if os.path.exists(websitefilepath):   #如果此文件夹已经存在就将其删除，原因是如果它存在，那么爬虫将不成功

        shutil.rmtree(websitefilepath)     #shutil.rmtree函数用于删除文件夹（其中含有文件）

    outputfilepath = os.path.abspath('.')+'/'+'output.txt'   #在当前文件夹下创建一个过渡性质的文件output.txt

    fobj = open(outputfilepath,'w+')

    command = 'wget -r -m -nv --reject='+REJECT_FILETYPE+' -o '+outputfilepath+' '+url  #利用wget命令爬取网站

    tmp0 = os.popen(command).readlines()  #函数os.popen执行命令并且将运行结果存储在变量tmp0中

    print >> fobj,tmp0  #写入output.txt中

    allinfo = fobj.read()

    target_url = re.compile(r'\".*?\"',re.DOTALL).findall(allinfo)  #通过正则表达式筛选出得到的网址

    print  target_url

    target_num = len(target_url)

    fobj1 = open('result.txt','w')     #在本目录下创建一个result.txt文件，里面存储最终得到的内容

    for i in range(target_num):

        if len(target_url[i][1:-1])<70:   # 这个target_url 是一个字典形式的，如果url 长度大于70 就不会记录到里面

           print >> fobj1,target_url[i][1:-1]     #写入到文件中

        else:

          print "NO"

    fobj.close()

    fobj1.close()

    if os.path.exists(outputfilepath):  #将过渡文件output.txt删除

        os.remove(outputfilepath)  #删除

if __name__=="__main__":

    webaddress = raw_input("Input the Website Address(without \"http:\")>")

    getinfo(webaddress)

    print "Well Done."

　　然后进入百度主动提交栏目，找到api接口，提交下数据即可

python开发全自动网站链接主动提交百度工具的更多相关文章

python开发最受欢迎的十款工具
python开发最受欢迎的十款工具 dreamyla3个月前今天小编给正在学习python开发的朋友介绍十款最受欢迎的开发工具,因为在学习python开发过程中少不了IDE或者代码编辑器,想要提高开 ...
05- web网站链接测试与XENU工具使用
什么是链接链接也叫超链接,是指从某一个网页元素指向另一个目标的连接关系,这个目标可以是另一个网站的网页,可以是本网站的一个网页,可以使同一个网页的不同位置,还可以是一个图片,一个视频,一个文件甚至是 ...
Python开发程序：简单主机批量管理工具
题目:简单主机批量管理工具需求: 主机分组登录后显示主机分组,选择分组后查看主机列表可批量执行命令.发送文件,结果实时返回主机用户名密码可以不同流程图: 说明: ### 作者介绍: * au ...
python开发 *进程数据隔离.守护进程,进程同步工具 * 180725
进程数据隔离.守护进程,进程同步工具一.进程之间的数据隔离: from multiprocessing import Process n=100 #主程序中变量n= def func(): glob ...
pip：带你认识一个 Python 开发工作流程中的重要工具
摘要:许多Python项目使用pip包管理器来管理它们的依赖项.它包含在Python安装程序中,是Python中依赖项管理的重要工具. 本文分享自华为云社区<使用Python的pip管理项目的依 ...
100行Python代码实现一款高精度免费OCR工具
近期Github开源了一款基于Python开发.名为 Textshot 的截图工具,刚开源不到半个月已经500+Star. 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语 ...
Python 版百度站长平台链接主动推送脚本
如果自己的网站需要被百度收录,可以在搜索结果中找到,就需要将网站的链接提交给百度.依靠百度的爬虫可能无法检索到网站所有的内容,因此可以主动将链接提交给百度. 在百度的站长平台上介绍了链接提交方法,目前 ...
给你的网站添加谷歌AMP、百度MIP、神马MIP链接自动提交功能
我们在做网站的时候,经常会听到别人说SEO优化,网站优化等等.但是我们经常听的云里雾里的,但是经过我们运营一段时间之后,我们慢慢的就会熟悉了,知道什么是SEO.SEO中文译名为搜索引擎优化,既然是叫搜 ...
Ruby与Python开发的环境IDE配置（附软件的百度云链接）
Ruby开发环境配置 1.Aptana_RadRails(提示功能不好,开发Ruby不推荐) 链接:http://pan.baidu.com/s/1i5q96K1 密码:yt04 2.Aptana S ...

随机推荐

【GStreamer开发】GStreamer基础教程16——平台相关的element
目标虽然GStreamer是跨平台的framework,但不是所有的element都是在所有平台下都有的.比如,音频和视频的sink都非常依赖于当前的window系统,根据当前的平台需要选择不同的e ...
solr搜索结果转实体类对象的两种方法
问题:就是把从solr搜索出来的结果转成我们想要的实体类对象,很常用的情景. 1.使用@Field注解 @Field这个注解放到实体类的属性[字段]中,例如下面 public class User{ ...
ucore 源码剖析
lab1 源码剖析从实模式到保护模式初始化ds,es和ss等段寄存器为0 使能A20门,其中seta20.1写数据到0x64端口,表示要写数据给8042芯片的Output Port;seta20. ...
《ucore lab1》实验报告
资源 ucore在线实验指导书我的ucore实验代码练习1:理解通过make生成执行文件的过程详见<ucore lab1 exercise1>实验报告练习2:使用qemu执行并调试 ...
Spring之28：AliasRegistry&SimpleAliasRegistry
AliasRegistry接口定义了alias的基本操作. package org.springframework.core; public interface AliasRegistry { //对 ...
剑指offer54：字符流中第一个不重复的字符
1 题目描述请实现一个函数用来找出字符流中第一个只出现一次的字符.例如,当从字符流中只读出前两个字符"go"时,第一个只出现一次的字符是"g".当从该字符流中 ...
UNIX环境高级编程笔记目录
每一章的重点会使用加粗字体第一章:UNIX基础知识:UNIX体系结构:文件和目录:输入和输出:程序和进程:出错处理:信号:时间值:系统调用和库函数第三章:文件I/O:文件描述符:文件操作函数:文件 ...
xml文件中引用网址报红色如何解决
用了ideal的宝宝们一定遇到过配置文件网址报红的错误吧其实解决很简单,就是网不好导致它没法补全,我们手动给他补全就好啦复制报红的网址点击File==>settings==>lang ...
LOJ3049 [十二省联考2019] 字符串问题【后缀自动机】【倍增】【拓扑排序】
题目分析: 建出后缀自动机,然后把A串用倍增定位到后缀自动机上,再把B串用倍增定位到后缀自动机上. SAM上每个点上的A串根据长度从小到大排序,建点,依次连边. 再对于SAM上面每个点,连到儿子的边, ...
Web Services使用SOAP Header
在Web Services方法进行通信使用SOAP遵循标准的SOAP格式,该格式的一部分是在XML文档中编码的数据.XML文档包含一个Envelope根元素(由必需的Body元素和可选的Header元 ...

python开发全自动网站链接主动提交百度工具

python开发全自动网站链接主动提交百度工具的更多相关文章

随机推荐

热门专题