Request爬取网站（seo.chinaz.com）百度权重的查询结果

一：脚本需求

利用Python3查询网站权重并自动存储在本地数据库（Mysql数据库）中，同时导出一份网站权重查询结果的EXCEL表格

数据库类型：MySql

数据库表单名称：website_weight

表单内容及表头设置：表头包含有id、main_url（即要查询的网站）、website_weight（网站权重）

要查询的网站：EXCEL表格

二：需求实现

一：利用openpyxl模块解析excel文件，将查询的网站读取到一个列表中保存

# 解析excel文件，取出所有的url

def get_urls(file_path):

    wb = load_workbook(file_path)

    sheet = wb.active

    urls = []

    for cell in list(sheet.columns)[1]:

        if cell != sheet['B1']:

            urls.append(cell.value)

    return wb, urls

二：分析请求发送，伪造请求，取得HTML页面

# 伪造请求，取得html页面

def get_html(url):

    # 定义http的请求Header

    headers = {}

    # random.randint(1,99) 为了生成1到99之间的随机数，让UserAgent变的不同。

    headers[

        'User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str(

        random.randint(1, 99))

    # Referer地址使用待查询的网址

    headers['Referer'] = "http://seo.chinaz.com/" + url + "/"

    html = ''

    try:

        html = requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text

    except Exception:

        pass

    return html

三：分析HTML页面，利用BeautifulSoup模块提取数据

# 利用BeautifulSoup模块从html页面中提取数据

def get_data(html, url):

    if not html:

        return url, 0

    soup = bs(html, "lxml")

    p_tag = soup.select("p.ReLImgCenter")[0]

    src = p_tag.img.attrs["src"]

    regexp = re.compile(r'^http:.*?(\d).gif')

    br = regexp.findall(src)[0]

    return url, br

四：数据库连接配置，并获取游标

# 连接数据库

def get_connect():

    conn = pymysql.connect(

        host='127.0.0.1',

        port=3306,

        user='root',

        passwd='root',

        db='seotest',

        charset="utf8")

    # 获取游标对象

    cursor = conn.cursor()

    return conn, cursor

五：主程序逻辑编写

if __name__ == "__main__":

    #命令行执行脚本文件，获取excel文件路径

    file_path = sys.argv[1]

    #获取URL列表和excle工作簿

    wb, urls = get_urls(file_path)

    #获取数据库连接和游标

    conn, cursor = get_connect()

    #获取工作簿当前工作sheet

    sheet = wb.active

    #数据库插入语句

    sql_insert = '''insert into website_weight(main_url, website_weight) values (%s, %s)'''

    for row, url in enumerate(urls):

        if not url: continue

        html = get_html(url)

        data = get_data(html, url)

        # 插入数据到数据库

        cursor.execute(sql_insert, data)

        # 插入数据到Excel表中

        cell = sheet.cell(row=row + 2, column=3)

        cell.value = data[1]

        # 终端打印插入的数据

        print(data)

    conn.commit()

    conn.close()

    wb.save(file_path)

    wb.close()

# cmd命令：python3 F:\算法与结构\网站权重.py F:\website.xlsx

三：脚本运行及其实现结果

CMD执行

数据库：

excel文件写入：

Request爬取网站（seo.chinaz.com）百度权重的查询结果的更多相关文章

如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
requests 使用免费的代理ip爬取网站
import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxx ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
python 实现爬取网站下所有URL
python3 实现爬取网站下所有URL 获取首页元素信息: 首页的URL链接获取: 遍历第一次返回的结果: 递归循环遍历: 全部代码如下: 小结: python3.6 requests && ...
Python脚本爬取网站美女照片
上次无意之中看到一个网站,里面全是美女的照片,我就心想,哪天有时间了得把这网站的所有美女照片都得爬下来.今天有时间,写了点代码,爬去了网站的所有照片.附上战果!图片实在是太多了,爬半个多小时先附上所 ...
seo-mask -- 为单页应用创建一个适合蜘蛛爬取的seo网站
seo-mask seo-mask是利用搜索引擎蜘蛛的爬取原理(蜘蛛只会爬取网页的内容,并不会关心解析网页里的css和js),制作一套专门针对seo的镜像网站,鄙人称它为针对seo的mask,让蜘蛛看 ...
python request爬取百度贴吧
import requests import os import shutil import time class PostBarSpider(object): def __init__(self, ...

随机推荐

Android Holo Theme的三种表现形式
摘录自:http://blog.csdn.net/xyz_lmn/article/details/12000941 Holo Theme的三种表现形式 Holo Theme是android4.0开始提 ...
JavaScript 稀奇的js语法
function c(expression) { console.log(expression); } c(-0); // -0 c(-0 === +0); // true c((-0).toStri ...
【uoj#315/bzoj4943】[NOI2017]蚯蚓排队 Hash
题目描述给出 $n$ 个字符,初始每个字符单独成字符串.支持 $m$ 次操作,每次为一下三种之一: $1\ i\ j$ :将以 $i$ 结尾的串和以 $j$ 开头的串连到一起. $2\ i$ :将 ...
BZOJ5099 POI2018Pionek
假设确定了最终所得向量的方向,则应该选择所有在该方向上投影为正的向量.按极角序排序后这显然是一段连续区间.最终向量方向很难枚举,但对于某个向量,在其上投影为正的向量与其夹角范围是(-π/2,π/2), ...
Lattice Point or Not UVA - 11768（拓展欧几里得）
原文地址:https://www.cnblogs.com/zyb993963526/p/6783532.html 题意: 给定两个点A(x1,y1)和B(x2,y2),均为0.1的整数倍.统计选段AB ...
hbase 多个过滤器组合（列表）
使用FilterList要保证过滤器的顺序需要使用List<Filter> private static void mutilFilterData() throws IOException ...
BZOJ 3143 游走 | 数学期望高斯消元
啊我永远喜欢期望题 BZOJ 3143 游走题意有一个n个点m条边的无向联通图,每条边按1~m编号,从1号点出发,每次随机选择与当前点相连的一条边,走到这条边的另一个端点,一旦走到n号节点就停下 ...
【转】VMware虚拟机三种网络模式详解
由于Linux目前很热门,越来越多的人在学习Linux,但是买一台服务放家里来学习,实在是很浪费.那么如何解决这个问题?虚拟机软件是很好的选择,常用的虚拟机软件有VMware Workstations ...
20135306 2.4 ELF文件格式分析
2.4 ELF文件格式分析 20135306 黄韧 ELF全称Executable and Linkable Format,可执行连接格式,ELF格式的文件用于存储Linux程序.ELF文件(目标 ...
Linux内核设计第七周学习总结 Linux内核如何装载和启动一个可执行程序
陈巧然原创作品转载请注明出处 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-100002900 实验目的使用gdb跟踪s ...