python打造批量关键词排名查询工具

自己做站点的时候，都看看收录和关键词排名什么的，所以打造的这个批量关键词查询工具。

#encoding:utf-8

import urllib,re,random,time,sys,StringIO,socket

try:

    import pycurl

except:

    pass

from bs4 import BeautifulSoup

score={1: 28.56,

       2: 19.23,

       3: 10.20,

       4: 8.14,

       5: 7.50,

       6: 5.72,

       7: 4.01,

       8: 4.41,

       9: 5.53,

       10: 6.70,}

#获取根域名，百度产品直接显示子域名

def root_domain(url):

    if 'baidu.com' in url:

        return url

    else:

        try:

            url = url.replace('http://', '')

            l = ['.com.cn', '.org.cn', '.net.cn', '.gov.cn']

            for suffix in l:

                if suffix in url:

                    return re.search('^(.*?\..*?)*([^.]+?\.[^.]+?\.[^.]+)', url).group(2)

            return re.search('^(.*?\..*?)*([^.]+?\.[^.]+)', url).group(2)

        except:

            return '-'

def curl(url, debug=False, **kwargs):

    list=['Mozilla/5.0 (Windows NT 5.1; rv:37.0) Gecko/20100101 Firefox/37.0','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36','Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36']

    randhead=random.sample(list,1)

    while 1:

        try:

            s = StringIO.StringIO()

            c = pycurl.Curl()

            c.setopt(pycurl.URL, url)

            c.setopt(pycurl.REFERER, url)

            c.setopt(pycurl.FOLLOWLOCATION, True)

            c.setopt(pycurl.TIMEOUT, 60)

            c.setopt(pycurl.ENCODING, 'gzip')

            c.setopt(pycurl.USERAGENT, '%s'%randhead[0])

            c.setopt(pycurl.NOSIGNAL, True)

            c.setopt(pycurl.WRITEFUNCTION, s.write)

            for k, v in kwargs.iteritems():

                c.setopt(vars(pycurl)[k], v)

            c.perform()

            c.close()

            return s.getvalue()

        except:

            if debug:

                raise

            continue

def get_baidudata(keyword,rn):

    search_url = 'http://www.baidu.com/s?wd=%s&rn=%d'%(urllib.quote(keyword),rn)

    pagetext = curl(search_url)  #获取百度搜索结果源代码

    while 'http://verify.baidu.com' in pagetext: #判断 如果查询过程中出现验证码则提示并停止10分钟，然后重新查询

        print u"查询过程出现验证码，休息10分钟",keyword

        time.sleep(600)

        pagetext = curl(search_url)

    else:

        soup = BeautifulSoup(pagetext)

        data = soup.find_all("div",attrs={'class':'result c-container '})#提取自然排名结果

        return data

    return

def get_rank_data(keyword,rn):

    data = get_baidudata(keyword,rn)#获取自然排名结果

    items = {}

    for result in data:

        g = result.find_all("a",attrs={'class':'c-showurl'})#获取主域名

        if g:

            site=re.search(r'([a-zA-Z0-9\.\-]+)',g[0].text)

            host = site.groups(1)[0]

            host=root_domain(host)#获取根域名

            rank = int(result['id'])#排名

            if host not in items.keys():

                items[host] = []

                items[host].append(score[rank])

            else:

                items[host].append(score[rank])

    return items#返回单个词前十数据

def get_keywords(filename):#读取关键词返回列表

    kwfile = open(filename,'r')

    keywords = kwfile.readline()

    kw_list = []

    while keywords:

        kw = keywords.strip()

        kw_list.append(kw)

        keywords = kwfile.readline()

    kwfile.close()

    return kw_list

def get_all_data(filename,rn):#单域名数据合并

    kw_list = get_keywords(filename)

    items = {}

    for i,kw in enumerate(kw_list,1):

        print i,kw

        item = get_rank_data(kw,rn)

        for host,rank in item.items():

            if host not in items.keys():

                items[host] = rank

            else:

                items[host].extend(rank)

    return items

def get_score(filename,rn):

    data = get_all_data(filename,rn)

    fh = open('score.csv','a+')

    fh.write('host,kws,average_score,host_score,\n')

    for host,rank in data.items():

        if host != None:

            host = host.encode('utf-8')

        else:

            host = 'error page'

        kws = len(rank)#关键词数

        host_score = sum(rank)#总得分

        average_score = host_score/kws#平均分

        fh.write(host+','+str(kws)+','+str(average_score)+','+str(host_score)+'\n')

    return

if __name__=="__main__":

    file=raw_input("请输入包含关键词的文件名：")

python打造批量关键词排名查询工具的更多相关文章

python打造文件包含漏洞检测工具
0x00前言: 做Hack the box的题.感觉那个平台得开个VIp 不然得凉.一天只能重置一次...mmp 做的那题毒药是文件包含漏洞的题,涉及到了某个工具看的不错就开发了一个. 0x01代码 ...
第11章：使用Python打造MySQL专家系统
1.Python语言高级特性 1).深入浅出Python生成器 1).生成器函数:与普通函数定义类似,使用yield语句而不是return语句返回结果.yield语句一次返回一个结果,在每个结果中间挂 ...
python打造seo必备工具-自动查询排名
因为工作需要,利用业余时间开发的,可以查询百度排名+360排名工具,附上代码. #360搜索排名查询 # -*- coding=utf-8 -*- import requests from lxml ...
Python + MySQL 批量查询百度收录
做SEO的同学,经常会遇到几百或几千个站点,然后对于收录情况去做分析的情况那么多余常用的一些工具在面对几千个站点需要去做收录分析的时候,那么就显得不是很合适. 在此特意分享给大家一个批量查询百度收录 ...
Python 实现火车票查询工具
注意:由于 12306 的接口经常变化,课程内容可能很快过期,如果遇到接口问题,需要根据最新的接口对代码进行适当修改才可以完成实验. 一.实验简介当你想查询一下火车票信息的时候,你还在上 12306 ...
第四百零一节，Django+Xadmin打造上线标准的在线教育平台—生产环境部署virtualenv虚拟环境安装，与Python虚拟环境批量安装模块
第四百零一节,Django+Xadmin打造上线标准的在线教育平台—生产环境部署virtualenv虚拟环境安装,与Python虚拟环境批量安装模块 virtualenv简介 1.安装virtuale ...
Python 写了一个批量生成文件夹和批量重命名的工具
Python 写了一个批量生成文件夹和批量重命名的工具目录 Python 写了一个批量生成文件夹和批量重命名的工具演示功能 1. 可以读取excel内容,使用excel单元格内容进行新建文件夹, ...
10分钟教你用Python打造微信天气预报机器人
01 前言最近武汉的天气越来越恶劣了.动不动就下雨,所以,拥有一款好的天气预报工具,对于我们大学生来说,还真是挺重要的了.好了,自己动手,丰衣足食,我们来用Python打造一个天气预报的微信机器人吧 ...
Python3实现火车票查询工具
Python 实现火车票查询工具一. 实验介绍通过python3实现一个简单的命令行版本的火车票查询工具,用实际中的例子会更感兴趣,不管怎么样,既练习了又可以自己使用. 1. 知识点: Pyth ...

随机推荐

Error: python-devel conflicts with python-2.7.5-68.el7.x86_64
yum install yum-utils -y package-cleanup --cleandupes yum -y install python-devel yum -y install pyt ...
beyond Compare 30天过期后的处理办法
打开Beyond Compare 4,提示已经超出30天试用期限制,解决方法: 修改C:\Program Files\Beyond Compare 4\BCUnrar.dll,这个文件重命名或者直接删 ...
Appium移动自动化测试-----（五） java-client安装与测试
前提条件当你点击这一章时,说明你是打算使用 Java 语言编写 appium 自动化测试脚本的. 1.安装 Java 环境 ,我想这一步你已经搞定了 2.安装 IntelliJ IDEA , 当然, ...
nightwatch对前端做自动化测试
记录node环境使用nightwatch.selenium-server.chromedriver对部署后的前端页面进行自动化测试的项目搭建过程. 1.目标能对部署后的前端项目进行自动化测试,能自动 ...
js判断是Android还是iOS
var u = navigator.userAgent, app = navigator.appVersion; var isAndroid = u.indexOf('Android') > - ...
[转帖]iis最大并发连接数、队列长度、最大并发线程数、最大工作进程数
iis最大并发连接数.队列长度.最大并发线程数.最大工作进程数 2018-10-17 12:49:03 牛兜兜阅读数 2952 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议 ...
csdn博客整理
@TOC 欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器所展示的欢迎页.如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown ...
PAT(B) 1039 到底买不买（Java）字符串
题目链接:1039 到底买不买 (20 point(s)) 题目描述小红想买些珠子做一串自己喜欢的珠串.卖珠子的摊主有很多串五颜六色的珠串,但是不肯把任何一串拆散了卖.于是小红要你帮忙判断一下,某串 ...
Python开发【第一章】：简介和入门
Python简介 Python的创始人为Guido van Rossum.1989年圣诞节期间,在阿姆斯特丹,Guido为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,做为ABC 语言的一种继承. ...
VMWare打开centos，提示内部错误
如题,VMWare打开centos,提示内部错误.该原因是因为服务被停止了之后没有将其启动,将其启动就解决了. CMD客户端输入命令 services.msc 将关于VM的服务启动就可以了

python打造批量关键词排名查询工具

python打造批量关键词排名查询工具的更多相关文章

随机推荐

热门专题