spider_text
__author__ = 'sus'
import urllib
import urllib2
import re
def getPage(url):        #获取网页
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    page=response.read().decode('utf-8')
    return page
def getTitle(page):       #获取目录
    pattern = re.compile('<a href="http://news.bistu.edu.cn.*?>(.*?)</a>',re.S)
    items = re.findall(pattern,page)
    for item in items:
        return item
page=getPage("http://www.bistu.edu.cn")
print getTitle(page)
spider_text的更多相关文章
- 爬取字段 spider_text
		
__author__ = 'sus'import urllibimport urllib2import re def getPage(url): #获取网页 request = urll ...
 
随机推荐
- $smarty获取变量get,post等用法
			
{$smarty}保留变量不需要从PHP脚本中分配,是可以在模板中直接访问的数组类型变量,通常被用于访问一些特殊的模板变量.例如,直接在模板中访问页面请求变量.获取访问模板时的时间邮戳.直接访问PHP ...
 - C 语言
			
1, // char server[] = BaseNetServerIp; // string serverStr = _aliNetServerEnabled?Ne ...
 - EL表达式语言总结
			
EL介绍 Expressive Language, JSP2.0引入,简化jsp开发中对对象的引用. 基本语法 ${表达式} 常见用法 根据其访问对象,可大体分成三类:访问数据及其各种表达式,访问EL ...
 - Linux进程管理
			
一.进程管理简介 进程是正在执行的程序或命令,每一个进程都是一个运行实体,都有自己的地址空间,并占用一定的系统资源. 进程管理的作用: 1.判断服务器的健康状态 2.查看系统中的所有进程 3.杀死进程 ...
 - 结合nodejs开发aspnet5项目
			
1.安装kvm 官方教程地址:https://github.com/ligershark/Kulture 打开 powershell命令窗口,找不到可以在开始菜单菜单那块输入 powershell ...
 - [记录][python]python爬虫,下载某图片网站的所有图集
			
随笔仅用于学习交流,转载时请注明出处,http://www.cnblogs.com/CaDevil/p/5958770.html 该随笔是记录我的第一个python程序,一个爬去指定图片站点的所有图集 ...
 - Openfire用户密码加密解密
			
需求要求审核过程中都用匿名进行用户注册登录,注册用户审核通过后才使用openfire内置表 如何做到用户密码统一 Openfire是通过org.jivesoftware.util.Blowfish.j ...
 - spice命令使用
			
spicec.exe -h 192.168.1.1 -p 5912 -w 主机 物理机IP 端口号 主机
 - MySQL中的两种临时表
			
MySQL中的两种临时表 伯乐在线2016-07-06 05:16:52阅读(4556)评论(3) 声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场.举报 ...
 - 统计学习中感知机的C++代码
			
感知机是古老的统计学习方法,主要应用于二类线性可分数据,策略是在给定的超平面上对误差点进行纠正,从而保证所有的点都是正确可分的. 用到的方法是随机梯度下降法,由于是线性可分的,可保证最终在有限步内收敛 ...