BeautifulSoup抓取列表页锚文本

素闻BeautifulSoup提取效率低，艾玛，第一印象果然是很要命的，反正比Re 和 Lxml 是要慢的，不过就无奈Re的正则折腾来折腾去，没写出来，Lxml 的 Xpath 又用得不好。

不过就这三个模版来看，BeautifulSoup的表现还是不错的，够简单，顺便测试了一下时间，抓10个列表页花不了1分钟，当然我是菜鸟，没事不会纠结终结速度。

核心就是这部分，用 Find_all 和 Find 都搞了半天不成功，最后用CSS提取搞定，也怪我太着急。

用Find比较麻烦，一层层的Class找，多次索引效率肯定不能保证

用Urllib2 或者 Pycurl 抓都可以

key_list = open('title.txt','a+')

for page in xrange(0,101):　　＃要抓的列表数量

    url = 'http://www.xxx.net/wangwen/list_205_%s.html' % page

    soup = bs(gethtml(url,headers),"lxml")

    for i in soup.select('.thread_list a'):　　＃这句是核心，CSS组合查找，找到.thread_list 下的 a 标签

        i = i.text.encode('utf-8')　　＃提取a标签内的文笔内容，也就是锚文本 <a href="http://aaa.com">我是锚文本</a> 此时代码编译为utf-8

        key_list.write(i + '\n')

        print i,ctime()　　#装B的写了ctime看时间，其实没啥米鸟用

        time.sleep(3)

key_list.close()

import pycurl,StringIO,json,time,re,sys

from time import ctime

from lxml import etree

from bs4 import BeautifulSoup as bs

reload(sys)

sys.setdefaultencoding('utf-8')　　#设定系统默认编码，Windows设置gbk呗，没这句容易出错

BeautifulSoup抓取列表页锚文本的更多相关文章

python实现一个栏目的分页抓取列表页抓取
python实现一个栏目的分页抓取列表页抓取 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import Beautifu ...
控制台js常用解决方案，字符串替换和抓取列表页链接
抓取列表页链接由于测试站没有jquery所以,我用了原生的js var obj = document.getElementsByClassName('class1'); for(let i = 0; ...
利用BeautifulSoup抓取新浪网页新闻的内容
第一次写的小爬虫,python确实功能很强大,二十来行的代码抓取内容并存储为一个txt文本直接上代码 #coding = 'utf-8' import requests from bs4 impor ...
使用selenium+BeautifulSoup 抓取京东商城手机信息
1.准备工作: chromedriver 传送门:国内:http://npm.taobao.org/mirrors/chromedriver/ vpn: selenium BeautifulSo ...
python3用BeautifulSoup抓取id='xiaodeng',且正则包含‘elsie’的标签
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #使用多个指定名字的参数可以同时过滤 ...
python3用BeautifulSoup抓取a标签
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 from bs4 import Be ...
一、使用 BeautifulSoup抓取网页信息信息
一.解析网页信息 from bs4 import BeautifulSoup with open('C:/Users/michael/Desktop/Plan-for-combating-master ...
python3用BeautifulSoup抓取div标签
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 imp ...
爬虫初体验：Python+Requests+BeautifulSoup抓取广播剧
可以看到一个DIV下放一个广播剧的信息,包括名称和地址,第一步我们先收集所有广播剧的收听地址: # 用requests的get方法访问novel_list_resp = requests.get(&q ...

随机推荐

Kafka consumer处理大消息数据问题
案例分析处理kafka consumer的程序的时候,发现如下错误: ERROR [2016-07-22 07:16:02,466] com.flow.kafka.consumer.main.Kaf ...
JDK1.8源码阅读系列之一：ArrayList
本篇随笔主要描述的是我阅读 ArrayList 源码期间的对于 ArrayList 的一些实现上的个人理解,有不对的地方,请指出- 先来看一下 ArrayList 的继承图: 由图可以看出,Array ...
C#中的重写和覆盖的区别
#中重写(override)和覆盖(new)的区别重写用关键字 virtual 修饰的方法,叫虚方法.可以在子类中用override 声明同名的方法,这叫“重写”.相应的没有用virtual修饰的方 ...
Jquery 操作DropDownList 根据条件选中
$("#<%=DDLCounty.ClientID%> option").each(function () { if ($(this).text() == $(&quo ...
前端知识点一HTML相关知识点
1.浏览器页面有哪三层构成,分别是什么,作用是什么? 构成:结构层.表示层.行为层分别是:HTML.CSS.JavaScript 作用:HTML实现页面结构,CSS完成页面的表现与风格,JavaSc ...
【AndroidStudio】关于SVN的相关配置简介
AndroidStudio 的SVN 安装和使用方法与我以前用的其他IDE 都有很大差别,感觉特麻烦,网上相关资料很少,貌似现在 Git 比较流行,之前有用过 github 但是他只能是开源项目免费, ...
nodejs 包引用的终极结论
通常我们用exports 或module.exports 来导出一个文件中的接口和字段,用require来引用导出的对象.那么这个exports 和 module.exports到底有啥关联呢? 1. ...
解决IE兼容总汇【转】
转载声明: 藏羚羊 2014年04月16日于前端开拓者发表本文固定链接: http://www.frontopen.com/2552.html 1. <meta http-equiv=“ ...
JS---控制键盘事件
键盘事件汇总: 1.onkeydown 键盘按下时触发; 2.onkeyup 键盘按下后抬起触发的事件 3.onkeypress 这个事件在用户按下并放开任何字母数字键时发生(不常用) keyCo ...
[DP优化方法之斜率DP]
什么是斜率dp呢大概就把一些单调的分组问题从O(N^2)降到O(N) 具体的话我就不多说了看论文: http://www.cnblogs.com/ka200812/archive/2012/08 ...

BeautifulSoup抓取列表页锚文本

BeautifulSoup抓取列表页锚文本的更多相关文章

随机推荐

热门专题