python打造批量关键词排名查询工具

自己做站点的时候，都看看收录和关键词排名什么的，所以打造的这个批量关键词查询工具。

#encoding:utf-8

import urllib,re,random,time,sys,StringIO,socket

try:

    import pycurl

except:

    pass

from bs4 import BeautifulSoup

score={1: 28.56,

       2: 19.23,

       3: 10.20,

       4: 8.14,

       5: 7.50,

       6: 5.72,

       7: 4.01,

       8: 4.41,

       9: 5.53,

       10: 6.70,}

#获取根域名，百度产品直接显示子域名

def root_domain(url):

    if 'baidu.com' in url:

        return url

    else:

        try:

            url = url.replace('http://', '')

            l = ['.com.cn', '.org.cn', '.net.cn', '.gov.cn']

            for suffix in l:

                if suffix in url:

                    return re.search('^(.*?\..*?)*([^.]+?\.[^.]+?\.[^.]+)', url).group(2)

            return re.search('^(.*?\..*?)*([^.]+?\.[^.]+)', url).group(2)

        except:

            return '-'

def curl(url, debug=False, **kwargs):

    list=['Mozilla/5.0 (Windows NT 5.1; rv:37.0) Gecko/20100101 Firefox/37.0','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36','Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36']

    randhead=random.sample(list,1)

    while 1:

        try:

            s = StringIO.StringIO()

            c = pycurl.Curl()

            c.setopt(pycurl.URL, url)

            c.setopt(pycurl.REFERER, url)

            c.setopt(pycurl.FOLLOWLOCATION, True)

            c.setopt(pycurl.TIMEOUT, 60)

            c.setopt(pycurl.ENCODING, 'gzip')

            c.setopt(pycurl.USERAGENT, '%s'%randhead[0])

            c.setopt(pycurl.NOSIGNAL, True)

            c.setopt(pycurl.WRITEFUNCTION, s.write)

            for k, v in kwargs.iteritems():

                c.setopt(vars(pycurl)[k], v)

            c.perform()

            c.close()

            return s.getvalue()

        except:

            if debug:

                raise

            continue

def get_baidudata(keyword,rn):

    search_url = 'http://www.baidu.com/s?wd=%s&rn=%d'%(urllib.quote(keyword),rn)

    pagetext = curl(search_url)  #获取百度搜索结果源代码

    while 'http://verify.baidu.com' in pagetext: #判断 如果查询过程中出现验证码则提示并停止10分钟，然后重新查询

        print u"查询过程出现验证码，休息10分钟",keyword

        time.sleep(600)

        pagetext = curl(search_url)

    else:

        soup = BeautifulSoup(pagetext)

        data = soup.find_all("div",attrs={'class':'result c-container '})#提取自然排名结果

        return data

    return

def get_rank_data(keyword,rn):

    data = get_baidudata(keyword,rn)#获取自然排名结果

    items = {}

    for result in data:

        g = result.find_all("a",attrs={'class':'c-showurl'})#获取主域名

        if g:

            site=re.search(r'([a-zA-Z0-9\.\-]+)',g[0].text)

            host = site.groups(1)[0]

            host=root_domain(host)#获取根域名

            rank = int(result['id'])#排名

            if host not in items.keys():

                items[host] = []

                items[host].append(score[rank])

            else:

                items[host].append(score[rank])

    return items#返回单个词前十数据

def get_keywords(filename):#读取关键词返回列表

    kwfile = open(filename,'r')

    keywords = kwfile.readline()

    kw_list = []

    while keywords:

        kw = keywords.strip()

        kw_list.append(kw)

        keywords = kwfile.readline()

    kwfile.close()

    return kw_list

def get_all_data(filename,rn):#单域名数据合并

    kw_list = get_keywords(filename)

    items = {}

    for i,kw in enumerate(kw_list,1):

        print i,kw

        item = get_rank_data(kw,rn)

        for host,rank in item.items():

            if host not in items.keys():

                items[host] = rank

            else:

                items[host].extend(rank)

    return items

def get_score(filename,rn):

    data = get_all_data(filename,rn)

    fh = open('score.csv','a+')

    fh.write('host,kws,average_score,host_score,\n')

    for host,rank in data.items():

        if host != None:

            host = host.encode('utf-8')

        else:

            host = 'error page'

        kws = len(rank)#关键词数

        host_score = sum(rank)#总得分

        average_score = host_score/kws#平均分

        fh.write(host+','+str(kws)+','+str(average_score)+','+str(host_score)+'\n')

    return

if __name__=="__main__":

    file=raw_input("请输入包含关键词的文件名：")

python打造批量关键词排名查询工具的更多相关文章

python打造文件包含漏洞检测工具
0x00前言: 做Hack the box的题.感觉那个平台得开个VIp 不然得凉.一天只能重置一次...mmp 做的那题毒药是文件包含漏洞的题,涉及到了某个工具看的不错就开发了一个. 0x01代码 ...
第11章：使用Python打造MySQL专家系统
1.Python语言高级特性 1).深入浅出Python生成器 1).生成器函数:与普通函数定义类似,使用yield语句而不是return语句返回结果.yield语句一次返回一个结果,在每个结果中间挂 ...
python打造seo必备工具-自动查询排名
因为工作需要,利用业余时间开发的,可以查询百度排名+360排名工具,附上代码. #360搜索排名查询 # -*- coding=utf-8 -*- import requests from lxml ...
Python + MySQL 批量查询百度收录
做SEO的同学,经常会遇到几百或几千个站点,然后对于收录情况去做分析的情况那么多余常用的一些工具在面对几千个站点需要去做收录分析的时候,那么就显得不是很合适. 在此特意分享给大家一个批量查询百度收录 ...
Python 实现火车票查询工具
注意:由于 12306 的接口经常变化,课程内容可能很快过期,如果遇到接口问题,需要根据最新的接口对代码进行适当修改才可以完成实验. 一.实验简介当你想查询一下火车票信息的时候,你还在上 12306 ...
第四百零一节，Django+Xadmin打造上线标准的在线教育平台—生产环境部署virtualenv虚拟环境安装，与Python虚拟环境批量安装模块
第四百零一节,Django+Xadmin打造上线标准的在线教育平台—生产环境部署virtualenv虚拟环境安装,与Python虚拟环境批量安装模块 virtualenv简介 1.安装virtuale ...
Python 写了一个批量生成文件夹和批量重命名的工具
Python 写了一个批量生成文件夹和批量重命名的工具目录 Python 写了一个批量生成文件夹和批量重命名的工具演示功能 1. 可以读取excel内容,使用excel单元格内容进行新建文件夹, ...
10分钟教你用Python打造微信天气预报机器人
01 前言最近武汉的天气越来越恶劣了.动不动就下雨,所以,拥有一款好的天气预报工具,对于我们大学生来说,还真是挺重要的了.好了,自己动手,丰衣足食,我们来用Python打造一个天气预报的微信机器人吧 ...
Python3实现火车票查询工具
Python 实现火车票查询工具一. 实验介绍通过python3实现一个简单的命令行版本的火车票查询工具,用实际中的例子会更感兴趣,不管怎么样,既练习了又可以自己使用. 1. 知识点: Pyth ...

随机推荐

台式电脑Bios界面设置U盘启动
Echart timeline 高级用法！！！！
一.前言在使用 echart timeline 来着图形可视化时,我使用的和官网也不一样,因为我有使用映射关系.比如我将 no 映射到X轴,将 d4 映射到Y轴. 二.参考 echart官网:htt ...
idea的项目转maven项目
鼠标右键pom.xml>>>>>> Add as Maven Project
Appium移动自动化测试-----（六）1.appium-desktop下载安装
Appium 移动测试中有个很重新的组件 Appium-Server,它主要用来监听我们的移动设备(真机或模拟器),然将不同编程语言编写的 appium 测试脚本进行解析,然后,驱动移动设备来运行测试 ...
（模板）hdoj2544（最短路--bellman-ford算法&&spfa算法）
题目链接:https://vjudge.net/problem/HDU-2544 题意:给n个点,m条边,求点1到点n的最短路. 思路: 今天学了下bellman_ford,抄抄模板.dijkstra ...
IDEA 配置默认pom，logback模板，XML模板
Default pom模板 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=&qu ...
JVM插码之六：jacoco插码及问题“$jacocodata 属性 Method not found: is$jacocoData”
在使用jacoco统计自动化代码覆盖率 jacoco统计自动化代码覆盖率 1. 简介1.1. 什么是JacocoJacoco是一个开源的代码覆盖率工具,可以嵌入到Ant .Maven中,并提供了Ecl ...
python学习-59 hashlib模块
hashlib模块用于加密相关的操作,3.x里代替了md5模块和sha模块加密功能 import hashlib obj = hashlib.md5() # 如果在md5里加上自己设置的参数,别的 ...
shell从简单到脱坑
1.计算1-100的和(seq 1 100 使用反引号括起来的比较坑) #!/bin/bash ` do sum=$[$i+$sum] done echo $sum 2.编写shell脚本,要求输入一 ...
go context 源码分析
WithCancel func WithCancel(parent Context) (ctx Context, cancel CancelFunc) { c := newCancelCtx(pare ...

python打造批量关键词排名查询工具

python打造批量关键词排名查询工具的更多相关文章

随机推荐

热门专题