用python查看网站被百度所有收录网址与标题进行SEO分析

SEO要是和python数据分析联合在一起，可谓是很好的方法，没事的时候尝试写的分析网站被百度收录的网址和标题。

首先得引入两个py模块，分别是：Beautiful Souprequests

没有下载这两个模块的可以用以下命令下载：

pip install BeautifulSoup

pip install requests

#!/usr/bin/env python

# -*- coding:utf-8 -*-

'''

百度收录网址标题查询

'''

 

import requests

from random import randint

from bs4 import BeautifulSoup

import re

import datetime

import sys

 

reload(sys)

sys.setdefaultencoding("utf-8")

 

HEADERS = {

        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",

        "X-Forwarded-For": '%s:%s:%s:%s' % (randint(1, 255),

                                                                                randint(1, 255), randint(1, 255), randint(1, 255)),

        "Content-Type": "application/x-www-form-urlencoded",

        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",

        "Connection": "keep-alive"}

 

# print HEADERS

start_time = datetime.datetime.now()  # 取当前时间

print (u'[-] 现在时间：%s') % start_time

 

for pn in range(0, 750, 10):

        print ('第【%s】页')%pn

        url_a = 'https://www.baidu.com/s?wd=site%3Azhimo.yuanzhumuban.cc&rsv_spt=1&rsv_iqid=0xac952cfa0005be29&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=1'

        joinUrl = url_a + str(pn) + url_b

        # print joinUrl   #拼接URL

        html_Doc = requests.get(joinUrl, headers=HEADERS).content  # 从Url 中取回网站源码

        html_Soup = BeautifulSoup(html_Doc, 'html.parser', from_encoding='utf-8')

        all_H3 = html_Soup.findAll('h3', attrs={'class': 't'})  # 取所有H3标签中class为t的所有元系

        print (u'[+] 此页共找到%s条数据!') % len(all_H3)

 

        for each in all_H3[0:]:

                # print each

                link = re.findall(r'" href="(.*?)" target="_blank">.*?</a></h3>', str(each), re.S)

                title = re.findall(r'" href=".*?" target="_blank">(.*?)</a>', str(each), re.S)

                print '[-] 标题：%s 链接：%s'%(str(title[0]), str(link[0]))

用python查看网站被百度所有收录网址与标题进行SEO分析的更多相关文章

python查看网站的RTT
import requests time=0.0 jpserver=['jp1.herejump.com','jp1.herejump.com','jp1.herejump.com'] usserve ...
百度优先收录HTTPS网站？你的网站https还在等什么
2015年5月25日,百度站长平台发布的公告,称将正式开放对HTTPS站点的收录.开始优先抓取HTTPS站点.所有事情都有两面性,这个消息对于已经到HTTPS的网站来说是个喜大普奔的好消息.对于需要 ...
SEO：查找网站的百度收录情况和如何让百度快速收录
查询收录的工具地址: http://tool.chinaz.com/baidu/entry/ 如何让百度快速收录: 一.大家都熟知的百度网站提交,只需要提交网站的首页即可.以前做完这一步就被百度收录的 ...
phpcms的后台网站直接访问正常，百度快照收录链接访问跳转到非法网站
问题: phpcms制作的网站直接访问正常,百度快照收录链接访问跳转到非法网站百度快照收录网站域名,访问时自动跳转到一个非法网站检查静态页index.html,index.php 网页内引用 ...
Python识别网站验证码
http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术验证码识别涉及很多方面的内 ...
网站被百度和google封了，怎么办？
很多站长总是抱着侥幸的心里,通过作弊的方式在搜索引擎上获得一定排名,以致于网站被百度和google封了,也就是所谓的被K站. 那么,要是网站被百度和Google封了,怎么办? 首先要确定你的网站已经被 ...
python 查看目录下所有目录和文件
python查看目录下所有的子目录和子文件 python递归遍历目录结构我喜欢第一种方法1 import json, os def list_dir(path, res): for i in os ...
Python编程初学者指南|百度网盘免费下载|Python新手入门资料
Python编程初学者指南|百度网盘免费下载提取码:9ozx 目录 · · · · · · 第1章启程:Game Over程序1.1 剖析Game Over程序1.2 Python简介1.2.1 ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...

随机推荐

百度地图jsapi 自定义大头针的方法
百度地图jsapi 自定义大头针的方法<pre> var myIcon = new BMap.Icon("http://developer.baidu.com/map/jsdem ...
java的错误分类
java的错误分类 java中的错误分为两大类:Error和Exception错误. Error 是程序无法处理的错误,表示运行应用程序中较严重问题,修改程序本身是不能解决的.例如java运行时产生的 ...
python 之 Django框架(orm单表查询、orm多表查询、聚合查询、分组查询、F查询、 Q查询、事务、Django ORM执行原生SQL)
12.329 orm单表查询 import os if __name__ == '__main__': # 指定当前py脚本需要加载的Django项目配置信息 os.environ.setdefaul ...
django.db.utils.ProgrammingError: 1146 解决办法
出现原因: 因为直接在mysql中删除了表或者在执行过一次迁移后,在modles中修改了表名及对应的方法和引用产生后果: 1.迁移的过程中可能出现表不存在的报错情况 2.迁移过程没有报错,在admi ...
爬虫请求库之requests库
一.介绍介绍:使用requests可以模拟浏览器的请求,比之前的urllib库使用更加方便注意:requests库发送请求将网页内容下载下来之后,并不会执行js代码,这需要我们自己分析目标站点然后 ...
Django模型层之ORM
Django模型层之ORM操作一 ORM简介我们在使用Django框架开发web应用的过程中,不可避免地会涉及到数据的管理操作(如增.删.改.查),而一旦谈到数据的管理操作,就需要用到数据库管理软 ...
Ubuntu遇到apt-get update报错："E: Could not get lock /var/lib/apt/lists/lock"
sudo apt-get update报错:"E: Could not get lock /var/lib/apt/lists/lock" 出现此问题的原因可能是有另外一个程序在运 ...
不是所有OutOfMemoryError异常都跟内存有关
一个老鸟遇到一个稀奇的问题后,如果只是想想,那么可能会失去一次丰富自己的机会. 如果从开始养成一个习惯,把所有难解决的问题都记录下来,面试的时候,也可能是给自己一次机会 *************** ...
ubuntu classicmenu-indicator
sudo add-apt-repository ppa:diesch/testing sudo apt-get update sudo apt-get install classicmenu-in ...
LVS简单理解
LVS LVS(Linux Virtual Server)即Linux虚拟服务器目前LVS已经被集成到Linux内核模块中.该项目在Linux内核中实现了基于IP的数据请求负载均衡调度方案终端用户 ...

用python查看网站被百度所有收录网址与标题进行SEO分析

用python查看网站被百度所有收录网址与标题进行SEO分析的更多相关文章

随机推荐

热门专题