python爬虫初级--获取指定页面上的菜单名称以及链接，然后导出

'''

Created on 2017年4月5日

@author: Admin

'''

import requests

from bs4 import BeautifulSoup as bsp

# 网站链接

site = 'http://www.runoob.com'

lineNo = 1

class Movie:

    def __init__(self, name, url):

        self.name = name

        self.url = url

    def __str__(self):

        return '%s,\t%s分,\t%s' % (self.name, self.url)

    __repr__ = __str__

def getSoup(url):

    r = requests.get(url)

#     r.encoding = 'gb18030'

    return bsp(r.text, "html.parser")

# 解析指定url，获取其中指定内容

def filterMovie(url):

    resultList = []
　　 # url处理，注意页面的编码集

    soup = getSoup(url)
    # 查找所有target=_top的a标签

    atags = soup.find_all('a', target='_top')

    for atag in atags:
　　　　 # 取到指定a标签的title属性

        titleA = atag['title']

        if atag is not None:

            try:
　　　　　　　　　　# 根据取到的href属性，拼接上页面域名 获得完整的跳转url

                url = site + atag['href']

                print('url:', url)

                print('title:', titleA)
　　　　　　　　　　# 根据主方法里面 _init_ 中定义的内容，将获取到的字段进行组合，然后放到集合中

                movie = Movie(titleA, url)

                resultList.append(movie)

            except:

                print('error !!')

    return resultList

# 根据传入的结果结合 按照指定格式保存到 文本文件中

def saveInfo(atagList):

    # 注意指定编码，否则输入到txt文件的时候会乱码

    fileObj = open('vueJS.txt', 'a',encoding='utf8')

    for atag in atagList:

        atagName = str(atag.name)

        print('url info:', atagName)

        global lineNo

        fileObj.write('(' + str(lineNo) + ') ' + atagName )

        fileObj.write('\t')

        fileObj.write(atag.url)

        fileObj.write(

            '————————————————————————————————————————————————————————————————————————————————————————————————')

        fileObj.write('\n')

        lineNo += 1

    fileObj.close()

# 获取到根据url整理出的一个结果集合，然后将结果集合保存的物理文件中

def getPageResource(url):
　　

    resultList = filterMovie(url)

    if len(resultList) > 0:

        saveInfo(resultList)


# 方法入口，定义一个页面url，然后去解析

if __name__ == '__main__':

    url = 'http://www.runoob.com/vue2/vue-tutorial.html'

    getPageResource(url)

python爬虫初级--获取指定页面上的菜单名称以及链接，然后导出的更多相关文章

Java 爬虫（获取指定页面中所有的邮箱地址）
import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.io.In ...
objectARX 获取指定图层上所有实体ID
2015-12-17 //获取指定图层上所有实体ID AcDbObjectIdArray GetAllEntityId(const TCHAR* layername) { AcDbObjectIdAr ...
python模块之HTMLParser抓页面上的所有URL链接
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser抓页面上的所有URL链接 import urllib #MyParse ...
php获取指定文件夹中文件名称
/** * php获取指定文件夹中文件名称 * @author jackie <2018.10.10> */ public static function getFileName($fil ...
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
python爬虫3——获取审查元素(板野友美吧图片下载)
测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0 测试网址:http://tieba.baidu.com/p/2827883128 目的是下载该 ...
Python爬虫爬取Web页面图片
从网页页面上批量下载jpg格式图片,并按照数字递增命名保存到指定的文件夹 Web地址:http://news.weather.com.cn/2017/12/2812347.shtml 打开网页,点击F ...
python 脚本（获取指定文件夹、指定文件格式、的代码行数、注释行数）
1.代码的运行结果: 获取指定文件夹下.指定文件格式文件的: 总代码行数.总注释行数(需指定注释格式).总空行数: #coding: utf-8 import os, re # 代码所在目录 FI ...
js禁用页面上右键菜单、选中和复制
有时候我们不想页面上的内容被人复制走,那么就可以使用js对页面进行设置,禁止右键菜单.禁止选中.禁止复制等功能可以有效的达到这个效果,js代码如下所示: /** * 禁用右键菜单 */ documen ...

随机推荐

Arthur and Walls CodeForces - 525D (bfs)
大意: 给定格点图, 每个'.'的连通块会扩散为矩形, 求最后图案. 一开始想得是直接并查集合并然后差分, 但实际上是不对的, 这个数据就可以hack掉. 3 3 **. .** ... 正解是bfs ...
多重if-else语句
C语言自学之多重if-else语句 Dome : 某游戏对不同等级的积分的玩家赋予不同的荣誉称号,其对应关系如下: 积分>=10000分为钻石玩家积分>=5000并且<10000为 ...
python----数据驱动ddt的使用
一.安装ddtpip install ddt 二.数据驱动和代码驱动数据驱动:根据你提供的数据来进行测试,比如接口自动化测试框架ATP代码驱动:必须得写代码才能测试,比如unittest 三.使用数据 ...
json转换字符串
在使用json模块时需要先 import json 引入模块 json.dumps()模块函数功能:将Python数据类型转换成字符串[有参] 使用方法:json.dumps(要转换的数据类型变量) ...
Python3调用Hadoop的API
前言: 上一篇文章我学习使用pandas进行简单的数据分析,但是各位...... Pandas处理.分析不了TB级别数据的大数据,于是再看看Hadoop. 另附上人心不足蛇吞象对故事一的感悟: ...
python运用turtle 画出汉诺塔搬运过程
python运用turtle 画出汉诺塔搬运过程 1.打开 IDLE 点击File-New File 新建立一个py文件 2.向py文件中输入如下代码 import turtle class Stac ...
C++结束进程并能显示其父进程
声明:有些网友有可能在CSDN博客上看到过相同的文章,因为本人有两个账号...请不要误会,均为原创这个程序功能强大哦~~ #include <cstdio> #include <w ...
如何安全的捂住你的AngelToken钱包
Angel Token钱包的重要性 AngelToken基于区块链底层技术的去中心化.安全可靠的特点,开发了数字资产钱包,是行业领先的中心化token钱包和去中心化交易平台相结合的链数字资产智能钱包. ...
Java基本概述
1.java语言的特点 1.面向对象:基本概念(类,对象) 三大特征:封装.继承.多态 2.健壮性 3.跨平台:通过Java语言的编写的应用程序在不同的系统平台上都能可以进行运行. 2.什么是JDK. ...
【tomcat环境搭建】一台服务器上部署多个tomcat
一台服务器上面如何部署多个tomcat?其实linux和windows步骤都差不多,都是: 第一步:解压tomcat安装包后,复制一份并且重命名:多个tomcat就多复制一份第二步:将复制的tomc ...

python爬虫初级--获取指定页面上的菜单名称以及链接，然后导出

python爬虫初级--获取指定页面上的菜单名称以及链接，然后导出的更多相关文章

随机推荐

热门专题