python超链接抓取工具

python实现自动抓取某站点内所有超链接

（仅供学习使用）

代码部分

#!/usr/bin/python

import requests

import time

import re

import sys, getopt  #命令行选项

from bs4 import BeautifulSoup

localtime=time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()) #时间

z=[] #存取网站

x=[] #优化网站，去除冗杂部分

def main(argv):

   url = '' #输入的网址

   file_path = '' #保存路径

   try:

      opts, args = getopt.getopt(argv,"hu:f:",["url=","file="])

   except getopt.GetoptError:

      print ('allsite.py -u <url> -f <file>')

      sys.exit(2)

   for opt, arg in opts:

      if opt == '-h': #帮助

         print ('allsite.py -u <url> -f <file>')

         sys.exit()

      elif opt in ("-u", "--url"): #输入网址

         url = arg

         re1 = requests.get(url) #get网站内容

         re1.encoding = "utf-8"

         html = re1.text

         bt = BeautifulSoup(html, 'html.parser', )

         hh = bt.find_all('a') #查找<a>元素

         for site in hh:

                 z.append(site.get('href')) #进一步过滤得到超链接

         for i in z:

                 if (re.match('//www', str(i)) or re.match('www', str(i))):

                         xx = str(i).replace('//www', 'www', 1)

                         x.append(xx)

                 elif (re.match('http', str(i))): #过滤

                         x.append(str(i))

                 elif (re.match('/', str(i))): #过滤

                         xx = str(i).replace("/", "", 1)

                         if (re.match('/', xx)):

                                 xxx = str(xx).replace("/", "", 1)

                                 x.append(xxx)

                         else:

                                 x.append(url + xx)

                 else: #过滤

                         if (re.search('javascript', str(i)) == None):

                                 x.append(url + str(i))

         print(localtime + "  总共:" + str(len(x)) + "个网址") #输出超链接

         for i in x:

                 print(i)

      elif opt in ("-f", "--file"): #输入保存路径

         file_path = arg

         for i in x: #保存文件

                 with open(file_path, 'a') as file_object:

                         file_object.write(i)

                         file_object.write('\n')

if __name__ == "__main__":

   main(sys.argv[1:])

python超链接抓取工具的更多相关文章

python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Hawk-数据抓取工具
Hawk-数据抓取工具:简明教程 Hawk: Advanced Crawler& ETL tool written in C#/WPF 1.软件介绍 HAWK是一种数据采集和清洗工具,依据 ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
python数据抓取分析（python + mongodb）
分享点干货!!! Python数据抓取分析编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
Web站点抓取工具webhttrack
近来发现Ubuntu下一个很好用的web站点抓取工具webhttrack,能够将给定网址的站点抓取到本地的目录中,并实现离线浏览,很实用. 1.安装webhttrack ubuntu 16.04的官方 ...
python Web抓取（一）[没写完]
需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML ...

随机推荐

HTML页面之间的参数传递
HTML 与 HTML 的跳转中如何在HTML之中实现参数的传递?主要代码如下:request为方法名称,params 为要获取的参数. function request(params) { var ...
android打包so文件到apk
在apk里打包进.so文件的方法有两种方法, 1 是在Android.mk文件里增加 LOCAL_JNI_SHARED_LIBRARIES := libxxx 这样在编译的时候,NDK自动会把这个l ...
块元素&行内元素
大多数HTML 元素被定义为块级元素或内联元素.块级元素在浏览器显示时,通常会以新行来开始(和结束) block元素特点 1 总是在新行上开始: 2 高度,行高以及外边距和内边距都可控制: 3 宽度缺 ...
Network Function Virtualization: Challenges and Opportunities for Innovations
年份:2015 ABSTRACT 最近提出了网络功能虚拟化,以提高网络服务供应的灵活性并减少新服务的上市时间. 通过利用虚拟化技术和通用的商用可编程硬件(例如通用服务器,存储和交换机),NFV可以将网 ...
TICK/TIGK运维栈安装运行【上】
TICK/TIGK运运维metrics栈包括 InfuluxDB:为时间序列数据专门定制的高性能数据存储.TSM引擎允许高速接收和数据压缩.完全go语言编写.编译成一个单一的二进制,没有外部依赖.简单 ...
jquery数组倒序
倒叙前:var mem = [1, 2, 3]: 倒序后:var men1=[3,2,1]: <script type="text/javascript"> $(fun ...
openresty开发系列36--openresty执行流程之6日志模块处理阶段
openresty开发系列36--openresty执行流程之6日志模块处理阶段一)header_filter_by_lua 语法:header_filter_by_lua <lua-scri ...
docker安装并运行redis
拉取镜像: [mall@VM_0_7_centos ~]$ sudo docker pull redis:3.2 [sudo] password for mall: 3.2: Pulling from ...
SD-WAN基础---SD-WAN简单了解
一:推文(摘录.转载自) 关于SD-WAN,你不得不了解的10个常识那些让人怦然心动的SD-WAN功能(上) 那些让人怦然心动的SD-WAN功能(中) 二:SD-WAN是什么 SD-WAN,即软件定 ...
depth wise CNN
depth wise cnn相对于传统的CNN,区别在于:它是逐通道做卷积操作! 例子如下: (1)使用传统卷积,输入:H*W*C_in,最终输出h*w*C_out:卷积核尺寸为K*K*C_in*C_ ...

python超链接抓取工具

python实现自动抓取某站点内所有超链接

代码部分

python超链接抓取工具的更多相关文章

随机推荐

热门专题