python 学习爬虫教程~

思路：：

（本文没有用xpath定位，xpath需要导入第三方库 from lxml import etree）

1.首先通过urllib类获取到网页的所有内容

2.通过partition获取其中的部分内容

3.在通过指定内容放到放到一个list中1！

代码如下：

#encoding: utf-8

import urllib, os

# 获取网页内容

def getContent(urlAddr):

    page = urllib.urlopen(urlAddr)

    html = page.read()

    return html

# 获取指定内容

def content(html):

    str = r'<div id="post_list">'

    content = html.partition(str)[2]

    str1 = r'<script>'

    content = content.partition(str1)[0]

# 爬取内容太存到list中

def getTitleName(content, beg = 0):

    try:

        title_list = []

        while True:

            num1 = content.index('target="_blank">', beg)+16

            num2 = content.index('</a>', num1)

            title_list.append(content[num1:num2])

            beg = num2

    except ValueError:

        return title_list

SourceUrl = "http://www.cnblogs.com/pick/"

contentTotal = getContent(SourceUrl)

specilContent = content(contentTotal)

for i in range (1, 40):

    print "%d标题是：%s" % (i, getTitleName(contentTotal)[i])

显示效果为：

1标题是：架构之路（五）：忘记数据库

2标题是：.NET基础拾遗（5）多线程开发基础

3标题是：你为什么不分享

4标题是：架构之路（三） 单元测试

5标题是：从中间件的历史来看移动App开发的未来

6标题是：架构之路（二）：性能

7标题是：每个人都应该懂点函数式编程

8标题是：程序员读书这件事情

9标题是：前端代码异常日志收集与监控

10标题是：iOS开发系列--Swift语言

11标题是：设计-简约而不简单

12标题是：Entity Framework教程(第二版)

13标题是：搞个这样的APP要多久？

14标题是：REST简介

15标题是：探索C#之6.0语法糖剖析

16标题是：CLR 这些年有啥变化吗？

17标题是：理想的应用框架

18标题是：Web性能优化：What? Why? How?

19标题是：CSS十问——好奇心+刨根问底=CSSer

20标题是：难免的尴尬：代码依赖

21标题是：反馈或建议

22标题是：官方博客

23标题是：博客模板

24标题是：.NET招聘

25标题是：Java招聘

26标题是：C++招聘

27标题是：PHP招聘

28标题是：Web前端招聘

29标题是：<img src="http://img.cnblogs.com/friend_links/logo_aliyun.jpg" alt="阿里云" />

30标题是：沪江网

31标题是：站长之家

32标题是：天极网

33标题是：A5源码下载

34标题是：葡萄城控件

35标题是：又拍云存储

36标题是：高考查分

37标题是：听云APP

38标题是：融云IM云

39标题是：极光推送

[Finished in 0.7s]

github地址为：

python 学习爬虫教程~的更多相关文章

用命令访问D:\python学习\wendjia教程\aa.py
用命令访问D:\python学习\wendjia教程\aa.py d: -----------切换到D盘 cd python学习\wend ...
Python学习入门教程，字符串函数扩充详解
因有用户反映,在基础文章对字符串函数的讲解太过少,故写一篇文章详细讲解一下常用字符串函数.本文章是对:程序员带你十天快速入门Python,玩转电脑软件开发(三)中字符串函数的详解与扩充. 如果您想学习 ...
Python学习—爬虫篇之破解ntml登陆问题
之前帮公司爬取过内部的一个问题单网站,要求将每个问题单的下的附件下载下来.一开始的时候我就遇到一个破解登陆验证的大坑...... (╬￣皿￣)=○ 由于在公司使用的都是内网,代码和网站的描述 ...
Python学习——爬虫篇
requests 使用requests进行爬取下面是我编写的第一个爬虫的脚本 import requests # 导入reques ...
Python学习详细教程-武沛齐
目录 Python之路[第一篇]:Python简介和入门 Python之路[第二篇]:Python基础(一) Python之路[第三篇]:Python基础(二) Python之路[第四篇]:模块 Py ...
Python学习基础教程(learning Python)--2.2.1 Python下的变量解析
前文提及过变量代表内存里的某个数据,这个说法有根据么? 这里我们介绍一个python内建(built-in)函数id.我们先看看id函数的帮助文档吧.在python查某个函数的帮助文档很简单,只用he ...
Python学习---爬虫学习[scrapy框架初识]
Scrapy Scrapy是一个框架,可以帮助我们进行创建项目,运行项目,可以帮我们下载,解析网页,同时支持cookies和自定义其他功能. Scrapy是一个为了爬取网站数据,提取结构性数据而编写的 ...
Python学习---爬虫学习[requests模块]180411
模块安装安装requests模块 pip3 install requests 安装beautifulsoup4模块 [更多参考]https://blog.csdn.net/sunhuaqiang1/ ...
Python学习 —— 爬虫入门 - 爬取Pixiv每日排行中的图片
更新于 2019-01-30 16:30:55 我另外写了一个面向 pixiv 的库:pixiver 支持通过作品 ID 获取相关信息.下载等,支持通过日期浏览各种排行榜(包括R-18),支持通过 p ...

随机推荐

HDU 6709“Fishing Master”（贪心+优先级队列）
传送门 •参考资料 [1]:2019CCPC网络选拔赛 H.Fishing Master(思维+贪心) •题意池塘里有 n 条鱼,捕捉一条鱼需要花费固定的 k 时间: 你有一个锅,每次只能煮一条鱼, ...
SpringBoot整合Redis乱码原因及解决方案
问题描述:springboot使用spring data redis存储数据时乱码 redis key/value 出现\xAC\xED\x00\x05t\x00\x05 问题分析: 查看RedisT ...
P1038 间谍入侵
题目描述爱丽丝魔法王国成立10周年,于是决定矩形国庆大阅兵. 在国庆大阅兵期间,为了防止暗黑王国的间谍乔装成平民混入,需要对每一个进城的人做检测. 因为暗黑王国的人长得和爱丽丝魔法王国的人长得很像, ...
tensorflow在文本处理中的使用——辅助函数
代码来源于:tensorflow机器学习实战指南(曾益强译,2017年9月)——第七章:自然语言处理代码地址:https://github.com/nfmcclure/tensorflow-coo ...
tensorflow在文本处理中的使用——TF-IDF算法
代码来源于:tensorflow机器学习实战指南(曾益强译,2017年9月)——第七章:自然语言处理代码地址:https://github.com/nfmcclure/tensorflow-coo ...
java.util.Date和jdk1.8新时间API比拼
旧的时间和日期的API的缺陷 Java 的 java.util.Date 和 java.util.Calendar 类易用性差,不支持时区,而且都不是线程安全的. Date如果不格式化,打印出的日期可 ...
js实现new
function New(fn,...args){ let obj={} obj.__proto__=fn.prototype let result=fn.apply(obj,args) if(typ ...
git push报错大文件，删除后重新commit依然报错
git push报错: github不能上传大文件,按道理删掉重新提交就行了可是删掉后,git add -A,再git commit,再git push,依然报错后来我想明白了 github上传时 ...
TCPIP四层模型和OSI七层模型对应表
C语言中的断言
一.原型定义:void assert( int expression ); assert宏的原型定义在<assert.h>中,其作用是先计算表达式 expression ,如果expres ...

python 学习爬虫教程~

python 学习爬虫教程~的更多相关文章

随机推荐

热门专题