python BeautifulSoup 获取页面多个子节点中的各个节点的内容

页面html格式为

 import httplib

 from BeautifulSoup import BeautifulSoup

 def main():

     f = open('result','a')

     headers = {'Content-Type':'application/x-www-form-urlencoded',

         'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

         'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

         'Accept-Encoding': 'gzip, deflate',

         'Referer': 'http://xxx.xxx.com/admin/userlist',

         'Cookie': 'JSESSIONID=9F6F2D03D2C11400B3D6731E90D73117',

         'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 6.1; rv:46.0) Gecko/20100101 Firefox/46.0',

     }

     conn = httplib.HTTPConnection('*.*.*.*', timeout=50)

     for p in range(1,1287):

         print p

         conn.request(method='GET',

                         url="/admin/userlist?toPage=%s&sessionID=" % str(p),

                         headers=headers)

         resp = conn.getresponse()

         html_doc = resp.read()

         mainSoup = BeautifulSoup(html_doc)

         for s in mainSoup.findAll('tr', attrs={'bgcolor':'#7bb5de'}):

             if 'style' not in str(s):

                 continue

             for d in s.findAll('td'):

                 print d.getText(),

                 f.write("%s " % d.getText().encode('utf-8'))   #f.write("%s " % d.getText())==> UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

             f.write("%s\n" % d.getText().encode('utf-8'))

             print

     f.close()

     conn.close()

 if __name__ == '__main__':

     main()

python BeautifulSoup 获取页面多个子节点中的各个节点的内容的更多相关文章

zTree实现单独选中根节点中第一个节点
zTree实现单独选中根节点中第一个节点 1.实现源码 <!DOCTYPE html> <html> <head> <title>zTree实现基本树& ...
python beautifulsoup获取特定html源码
beautifulsoup 获取特定html源码(无需登录页面) import refrom bs4 import BeautifulSoupimport urllib2 url = 'http:// ...
python中用ElementTree.iterparse()读取xml文件中的多层节点
我在使用Python解析比较大型的xml文件时,为了提高效率,决定使用iterparse()方法,但是发现根据网上的例子:每次if event == 'end':之后elem.clear()或者是每次 ...
python实现剑指offer删除链表中重复的节点
题目描述在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针. 例如,链表1->2->3->3->4->4->5 处理后 ...
python之获取页面标签的方法
from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoup ...
python 自动获取（打印）代码中的变量的名字字串
方法一: import inspectimport re def varname(p): for line in inspect.getframeinfo(inspect.currentframe() ...
JS(基础)_总结获取页面中元素和节点的方式
一.前言 1.元素和节点的区别 2.总结获取元素的方式 3.总结获取节点的方式二.主要内容 1.结点和元素的区别 (1)一些常见基本概念: 文档:document 元素:页面中所有的标签结点:页面 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
webAPI(DOM) 2.1 获取页面元素 | 事件1 | 属性操作 | 节点 | 创建元素 | 事件2
js分三个部分: ECMAScript标准:js的基本语法 DOM:Ducument Object Model--->文档对象模型--->操作页面的元素 BOM:Browser Objec ...

随机推荐

搞笑OI
OI难噫吁嚱,维护难哉!OI之难,难于上青天!哈希及DP,代码何茫然!尔来一千两百A,不见金牌背后难.西当华师有考场,可以横绝CN巅.编译不过壮士死,然后超时爆内存相钩连.上有自主招生之高标,下有由 ...
HDU 4609 FFT+各种分类讨论
思路: http://www.cnblogs.com/kuangbin/archive/2013/07/24/3210565.html 其实我是懒得写了.... 一定要define int long ...
上传文件时文件类型限制 <input id="File1" type="file" accept=""/>
在做项目项目中经常需要上传文件,类型也就那几种.虽然在js中加了上传文件类型的限制,但是为了减少因为用户选择不当而造成的反复检验.可以在input标签上加上accept属性.这种限制只是优化了选择文件 ...
Java多线程编程模式实战指南（二）：Immutable Object模式--转载
本文由本人首次发布在infoq中文站上:http://www.infoq.com/cn/articles/java-multithreaded-programming-mode-immutable-o ...
简述Sql Server中常用的数据库对象（面试题）
1.表(Table ) 数据库中的表与我们日常生活中使用的表格类似,它也是由行(Row) 和列(Column)组成的.列由同类的信息组成,每列又称为一个字段,每列的标题称为字段名.行包括了若干列信息项 ...
jqGrid冻结列
jqgrid冻结列冻结列:就是横向移动表格时,让某一列保持不动做法: 1.colModel的行要加上属性: frozen:true.注意:冻结列必须从第一列开始,包括隐藏列 2.加载jqgrid后 ...
inline元素和inline-block元素的4px空白间距解决方案
实在不想写了,要吐了,看到一篇讲的比较全的文章,直接粘链接了 inline元素和inline-block元素的4px空白间距解决方案出自脚本之家
【原创】Apache服务器500错误失去响应的问题解决
某生产网站部署在Apache上,使用tomcat集群,偶尔网站失去响应,查看首页发现无法打开,页面假死,出现过多次,查看apache的日志,发现经常出现以下提示: [Fri Dec :: ] [war ...
QT笔记 -- (3) 为QLabel添加鼠标响应方法1
参考 http://qt-project.org/wiki/Make-a-QLabel-Clickable 1.首先重载QLabel的mousePressEvent,这样点击QLabel时就能发出cl ...
ZBrush中常用笔刷综合简介
单击左托盘的笔刷图标,弹出一个笔刷库,其中有许多常用笔刷,这也是许多初学者所头疼的问题,ZBrush的笔刷非常多,而且功能很强大,好多朋友不知道该选择哪一个笔刷进行雕刻.其实,在ZBrush的学习中我 ...

python BeautifulSoup 获取页面多个子节点中的各个节点的内容

python BeautifulSoup 获取页面多个子节点中的各个节点的内容的更多相关文章

随机推荐

热门专题