【python3】爬取新浪的栏目分类

目标地址： http://www.sina.com.cn/

查看源代码，分析：

1 整个分类在 div main-nav 里边包含

2 分组情况：1，4一组、 2，3一组、 5 一组、6一组

实现源码：

# coding=utf-8

import urllib.request

import ssl

from lxml import etree

# 获取html内容

def getHtml(url):

    page = urllib.request.urlopen(url)

    html = page.read()

    html = html.decode('utf-8')

    return html

# 获取内容

def get_title(arr, html, pathrole, sumtimes):

    selector = etree.HTML(html)

    content = selector.xpath(pathrole)

    i = 0

    while i <= sumtimes:

        result = content[i].xpath('string(.)').strip()

        arr.append(result)

        i += 1

    return arr

# 创建ssl证书

ssl._create_default_https_context = ssl._create_unverified_context

url = "http://www.sina.com.cn/"

html = getHtml(url)

# 第一次获取

arr = []

pathrole1 = '//div[@class="main-nav"]/div[@class="nav-mod-1 nav-w"]/ul/li'

retult1 = get_title(arr, html, pathrole=pathrole1, sumtimes=23)

# 第二次获取

if retult1:

    pathrole2 = '//div[@class="main-nav"]/div[@class="nav-mod-1"]/ul/li'

    retult2 = get_title(retult1, html, pathrole=pathrole2, sumtimes=23)

else:

    print("error")

# 第三次获取

if retult2:

    pathrole3 = '//div[@class="main-nav"]/div[@class="nav-mod-1 nav-mod-s"]/ul/li'

    retult3 = get_title(retult2, html, pathrole3, sumtimes=11)

else:

    print("error")

# 第四次获取

if retult3:

    pathrole4 = '//div[@class="main-nav"]/div[@class="nav-mod-1 nav-w nav-hasmore"]/ul/li'

    retult4 = get_title(retult3, html, pathrole4, sumtimes=1)

else:

    print("error")

# 第五次获取：更多列表

if retult4:

    pathrole5 = '//div[@class="main-nav"]/div[@class="nav-mod-1 nav-w nav-hasmore"]/ul/li/ul[@class="more-list"]/li'

    retult5 = get_title(retult4, html, pathrole5, sumtimes=6)

    print(retult5)

else:

    print("error")

以上代码，还可以继续优化，比如 xpath 的模糊匹配。可以把前四组合为一个，继续学习！

【python3】爬取新浪的栏目分类的更多相关文章

Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...
python3 爬取boss直聘职业分类数据(未完成)
import reimport urllib.request # 爬取boss直聘职业分类数据def subRule(fileName): result = re.findall(r'<p cl ...
python3爬虫-爬取新浪新闻首页所有新闻标题
准备工作:安装requests和BeautifulSoup4.打开cmd,输入如下命令 pip install requests pip install BeautifulSoup4 打开我们要爬取的 ...
python3使用requests爬取新浪热门微博
微博登录的实现代码来源:https://gist.github.com/mrluanma/3621775 相关环境使用的python3.4,发现配置好环境后可以直接使用pip easy_instal ...
Python 爬虫实例（7）—— 爬取新浪军事新闻
我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分第二zh张图片,显示需要分页, 源代码: # coding:utf-8 import json import redis i ...
python2.7 爬虫初体验爬取新浪国内新闻_20161130
python2.7 爬虫初学习模块:BeautifulSoup requests 1.获取新浪国内新闻标题 2.获取新闻url 3.还没想好,想法是把第2步的url 获取到下载网页源代码再去分析源 ...
python爬取新浪股票数据—绘图【原创分享】
目标:不做蜡烛图,只用折线图绘图,绘出四条线之间的关系. 注:未使用接口,仅爬虫学习,不做任何违法操作. """ 新浪财经,爬取历史股票数据 ""&q ...
xpath爬取新浪天气
参考资料: http://cuiqingcai.com/1052.html http://cuiqingcai.com/2621.html http://www.cnblogs.com/jixin/p ...

随机推荐

JDBC SQL语法
结构化查询语言(SQL)是一种标准化语言,允许对数据库执行操作,例如:创建数据记录,读取内容,更新内容和删除数据记录等. 本教程中将概述SQL,这是了解和学习JDBC概念的前提条件. 经过本章后,您将 ...
转换基于Maven的Java项目支持Eclipse IDE
在过去的教程中,使用 Maven 创建了一个Java项目,但是这个项目不能导入到Eclipse IDE中,因为它不是 Eclipse 风格的项目. 这里有一个指南,向您演示如何转换 Maven 生成 ...
为什么运行PHP就会出现404错误？
2007-05-09 12:40Googfox | 分类:浏览器 | 浏览8146次我在IIS中安装了Zend Core 2.0,IIS中用主机头值设置了许多80端口的网站,但是不管在这些网站中的哪 ...
ubuntu -- 不输入密码执行sudo
作为ubuntu等桌面系统,默认登录的帐号是没有root权限的,为了提升权限来执行任务,我们一般用到 "sudo+命令" 来执行,但是不难发现我们一般都要输入密码.那么有没有什么 ...
Java获取正在执行的函数名
利用StackTrace堆栈轨迹获取某个时间的调用堆栈状态. package com.dsp.demo; public class TechDemo { public static void main ...
免费在线直播课，送给所有IT项目经理
[免费在线直播课,送给所有IT项目经理]项目管理培训领域的老资格——光环国际,精心策划了一门一个半小时的在线直播课,送给所有辛苦的IT项目经理们.[直播主题]变化时代IT项目经理的成长要求[直播内容 ...
FunGene 功能基因数据库
背景:16SrRNA 基因通常作为分子标记进行微生物群落结构的研究,但是它有一些明显的限制,比如16S rRNA基因在物种中会有多个拷贝,而且,由于16S rRNA基因的进化速率较慢,在物种间保守,会 ...
idea出现插件突然失灵解决方案
File -> Settings -> Plgins 把失效的插件重新去掉打钩并重新打钩即可
find命令/文件名后缀
2.23/2.24/2.25 find命令 2.26 文件名后缀 find 搜索文件的命令: which 它是从环境变量中找: [root@centos_1 ~]# which ls alias ...
js 历史
原文http://javascript.ruanyifeng.com/introduction/history.html JavaScript的诞生 JavaScript 因为互联网而生,紧随着浏览器 ...

【python3】爬取新浪的栏目分类

【python3】爬取新浪的栏目分类的更多相关文章

随机推荐

热门专题