抓取oschina上面的代码分享python块区下的 标题和对应URL
# -*- coding=utf-8 -*-
import requests,re
from lxml import etree
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" ) """
目标:抓取oschina上面的代码分享python块区下的 标题和对应URL
"""
class spiders_oschina:
def __init__(self):
print u'开始运行' def get_html_obj(self,url = 'http://www.oschina.net/code/list?lang=python&catalog=&show=time&sort=&p=1'): #传入地址,返回一个xpath对象
tou = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'}
obj = etree.HTML(requests.get(url,headers = tou).content) # 实例化可以被lxml操作的对像
return obj def get_page(self):
tmp = '//*[@id="OSC_Content"]/div[1]/ul/li[11]/a/text()'
obj = self.get_html_obj()
page = int(obj.xpath(tmp)[0]) #从第一页可取得一共有多少页
urllist = []
for i in range(1,page+1):
urllist.append('http://www.oschina.net/code/list?lang=python&catalog=&show=time&sort=&p=' + str(i))
return urllist def get_result(self,obj): #需要传入一个xpath对像
tmp = '//*[@id="OSC_Content"]/div[1]/div[3]/ul/li/h3/a/text()' #a标签中的文本
tmp2 = '//*[@id="OSC_Content"]/div[1]/div[3]/ul/li/h3/a/@href' #a标签的href属性
t = obj.xpath(tmp) #[0].decode('utf-8') #测试xpath方法
t2 = obj.xpath(tmp2)
f = open('res.txt','a')
str = ''
for i in t:
n = 0
str += i + ' ——>对应的URL是:' + t2[n] + '\n \n --------------------------\n'
n += 1
f.write(str) #把结果最终写入txt文本
f.close() if __name__ == "__main__":
oca = spiders_oschina()
n = 1
for i in oca.get_page():
obj = oca.get_html_obj(i)
oca.get_result(obj)
print u'第%d页爬取完成' %n
n += 1
貌似生成的url有问题,待优化。。。
抓取oschina上面的代码分享python块区下的 标题和对应URL的更多相关文章
- git clone 拉取github上面的代码报错:fatal: Authentication failed for xxx解决
1.打开git bash,输入密码:git config --system --unset credential.helper2.结果报错:error: could not lock config f ...
- python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
- Git拉取Gitlab上的代码时,报128的解决方法
今天拉取gitlab上的代码时出现错误,一直返回128 首先我们确定我们在存储库上有没有权限,然后我就去项目中的 Members上看是否有权限,然后发现也是有的. 然后克隆的时候发现输入一万遍密码都还 ...
- 使用Fiddler抓取手机上的数据包
在IIS中,如果网站已经绑定了域名在使用IP是不能访问的,需要添加一个空的主机名与IP的映射才能访问.如下图: Fiddler抓取手机包 在PC上建一个WIFI热的 勾选Fiddler中Tool-&g ...
- Postman----设置代理抓取手机上的请求
一般为方便接口测试,我们都会设置代理,抓取手机上的请求来方便测试,具体的操作方法如下. 操作步骤: 一.手机和电脑连接同一网络,查看电脑连接网络的IP,配置手机的代理 1.查看电脑连接的网络与IP地址 ...
- 重新实践c++primer上面的代码
又重新敲了敲c++primer上面的代码,觉得很有意思,讲的很细,c++真牛逼啊 #include <iostream> #include <string> #include ...
- Git同步更新操作GitHub和码云仓库上面的代码
一.前言 问题: 小编在生活中,一般都是将代码保存到github上,但由于国内的码云仓库确实速度比github快很多,用起来也很方便,于是后来就慢慢转码云了,当然小编在github上的代码也不想放弃更 ...
- Python爬取网站上面的数据很简单,但是如何爬取APP上面的数据呢
- Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
随机推荐
- python正则表达式之元字符介绍
python中元字符及其含义如下: 元字符 含义 . 匹配除换行符以外的任意一个字符 ^ 匹配行首 $ 匹配行尾 ? 重复匹配0次或1次 * 重复匹配0次或更多次 + 重复匹配1次或更多次 {n,} ...
- c# TCPclient
服务端 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; ...
- hdu4924 Football Manager
这题上来我是没有思路的.因为目标值关涉到的因素太多而直接枚举的复杂度又太高. 目标值由两部分合成,一部分是队员的CA和与PA和,另一部分是队员之间的relationship. 前者是简单的代数累加,而 ...
- The Happy Worm 分类: POJ 排序 2015-08-03 18:57 5人阅读 评论(0) 收藏
The Happy Worm Time Limit: 5000MS Memory Limit: 131072K Total Submissions: 4698 Accepted: 1047 Descr ...
- ural 1106,二分图染色,DFS
题目链接:http://acm.timus.ru/problem.aspx?space=1&num=1106 乍一眼看上去,好像二分图匹配,哎,想不出和哪一种匹配类似,到网上查了一下,DFS染 ...
- Linux下缓冲区溢出攻击的原理及对策(转载)
前言 从逻辑上讲进程的堆栈是由多个堆栈帧构成的,其中每个堆栈帧都对应一个函数调用.当函数调用发生时,新的堆栈帧被压入堆栈:当函数返回时,相应的堆栈帧从堆栈中弹出.尽管堆栈帧结构的引入为在高级语言中实现 ...
- 从客户端中检测到有潜在危险的 Request.Form 值
今天在使用Kindeditor的时候,出现了如题的错误. 错误如图: 百度了下,艰难的找了原来是Framework的问题,原来用的2.0,后面变成了4.0,验证级别也更高了: 解决办法:在config ...
- CSS之盒子模型
CSS核心内容 源文件目录: D:\Users\ylf\Workspaces\MyEclipse 10 标准流 盒子模型 浮动 定位 标准流/非标准流: 标准流:就是普通的 非标准流:实际工作中要打破 ...
- 2016年12月15日 星期四 --出埃及记 Exodus 21:10
2016年12月15日 星期四 --出埃及记 Exodus 21:10 If he marries another woman, he must not deprive the first one o ...
- EF 增删改查
StudentEntities entities = new StudentEntities(); //初始化对象 Register register = new Register(); #regio ...