一直听同事说Python是个奇妙的语言,上周在逛知乎的时候深受这个话题的启示。

能利用爬虫技术做到哪些非常酷非常有趣非常实用的事情?

先是说到IDE的选择,作为python新人,尽管知道mac终端自带Python,但在一番谷歌百度之后,还是选择了PyCharm 。理由大概是 PyCharm比較像xcode吧。看上去有种亲切感。

Python的第三方库和iOS开发的第三方库大体相像。可是在引入第三方库的时候,PyCharm似乎是更加的简单。注意选择相应的版本号然后下载第三方库,稍等片刻就成功了。

Python的第三方库和iOS开发的第三方库大体相像。可是在引入第三方库的时候。PyCharm似乎是更加的简单。注意选择相应的版本号然后下载第三方库,稍等片刻就成功了。


第一次爬数据,选择了百度贴吧作为联系的目标,爬之前并没有查到关于爬贴吧帖子列表的一个教程,自己动手丰衣足食。

首先引入须要使用的第三方库PyQuery

#coding=utf-8

from pyquery import PyQuery as pq

from lxml import etree

v_source=pq(url='http://tieba.baidu.com/f?kw=%BD%A3%CD%F83&fr=ala0&tpl=5')

v_source2=(v_source('div').children('.wrap2')).children('.content')

v_source3=((v_source2.children()).children('.main')).children()

v_source4=(((((v_source3.children()).children()).children()).children('.col2_right')).children('.threadlist_lz')).children('.threadlist_title')

print(v_source4)

fordatainv_source4:

Atitle=pq(data).text()

Aurl= pq(data)('a[class= "j_th_tit " ]').attr('href')

if(AurlandAtitle):

print(Atitle,"http://tieba.baidu.com"+Aurl)

最后得到的结果是 帖子的标题以及url:

【破事水】情缘了两个月 昨天死了 http://tieba.baidu.com/p/3978787393

隔壁贴在问专业,我好想知道渣基三的都是做什么工作的。 http://tieba.baidu.com/p/3977454500

【树洞】今天我截了个5000分藏剑的镖… http://tieba.baidu.com/p/3977501311

当剑三这两种体型同一时候出如今你身边,你选哪一个做你男/女朋友 http://tieba.baidu.com/p/3976484359

怒撕大战啥都不会就有脸进组的小白 http://tieba.baidu.com/p/3977928309

新手看到10多个门派好方啊,选哪个好玩啊 http://tieba.baidu.com/p/3978693801

【女神养成】且看小白怎样逆袭成女神 http://tieba.baidu.com/p/3108513494

【这是一个日了狗的树洞】情缘七夕居然不要我和她做任务 http://tieba.baidu.com/p/3978824104

【假装是对称贴】那个睁眼说瞎话的咩太你进来我有事和你说说 http://tieba.baidu.com/p/3977303586

求赐一个清新脱俗漂亮动听的秀萝名字 http://tieba.baidu.com/p/3977303814

七夕GM疯辣 http://tieba.baidu.com/p/3978419861

【跟风】是不是仅仅有我一个认为花哥最丑 http://tieba.baidu.com/p/3978734881

一个基三渣男的自我救赎之路。(就作为离别的感言吧) http://tieba.baidu.com/p/3978565064

曝光一个骗子_(:з」∠)_!

http://tieba.baidu.com/p/3976992408

【捏脸向】莫提来路 莫问归处(邮箱+网盘) http://tieba.baidu.com/p/3978273550

【我的江湖不留遗憾】A之前要做的100件事 http://tieba.baidu.com/p/3963973171

【破事水】就由于奶花不易上手。奶不上hps不怪你咯 http://tieba.baidu.com/p/3977435265

【树洞】我是那个代练…那个高三老板的代练 http://tieba.baidu.com/p/3972726245

艾特自己的游戏ID,亮了的揍死他!

http://tieba.baidu.com/p/2738498207

【关于腾讯】之前一直骂腾讯抢头条然而…… http://tieba.baidu.com/p/3978690160

仅仅有我认为囤货商人如今都是老爷么 http://tieba.baidu.com/p/3977553269

【树洞】那个以为我每次打本工资都有26W的徒弟,我不欠你什么。 http://tieba.baidu.com/p/3977360158

关于刷羽毛点 http://tieba.baidu.com/p/3978301556

【仅仅是树洞】同心锁,真能锁得住什么 http://tieba.baidu.com/p/3978821975

剑三碧池新标准大科普!

http://tieba.baidu.com/p/3770167700

为什么我的代练永远画风不太对。。 http://tieba.baidu.com/p/3894758678

十七万血万分苍云被9600冰心满血秒掉 惊呆了 http://tieba.baidu.com/p/3978488404

为什么打怪不掉鸟毛 http://tieba.baidu.com/p/3978816908

【捏脸帖】雨浥红妆娇娜娜(邮箱+网盘) http://tieba.baidu.com/p/3977768289

抄书。十三棍僧。,,我去npc买了好多这书,不知道怎么用啊 http://tieba.baidu.com/p/3978675722

【歌帖】且伴这岁月长长,君余音仍绕梁漫漫 http://tieba.baidu.com/p/3976837006

【818?】那个假装备胎还脚踏几条船的甩锅王麻烦你不要再内she了 http://tieba.baidu.com/p/3898377744

【树洞】自从我拜了个说话不超过五个字的师父,我的人生轨迹改变了 http://tieba.baidu.com/p/3940312698

【姨妈服】你们不知道的赖子 http://tieba.baidu.com/p/3938340367

【调查】你玩剑三多久了花了多少软妹币 http://tieba.baidu.com/p/3978388753

我比金山聪明系列之各职业能力分布图 http://tieba.baidu.com/p/3978388473

818。念破处女座团长 http://tieba.baidu.com/p/3978805760

[616]论排队捡物资有没有必要 http://tieba.baidu.com/p/3978673469

【树洞】那个少女心的小公举师傅和他的菜地帮 http://tieba.baidu.com/p/3978791802

有个奶说被松狮丐喂了糖葫芦感觉非常恶心 http://tieba.baidu.com/p/3978722892

【外观水贴】无聊时发一下罢了(从南皇到朔雪) http://tieba.baidu.com/p/3765402065

我就想问问刷999个羽毛要多久 http://tieba.baidu.com/p/3978748424

又看见逗比言论,长点见识再来bb行吗 http://tieba.baidu.com/p/3978376261

【求助】七夕鸟毛去哪里刷最快? http://tieba.baidu.com/p/3978781271

【树洞】我陆日天一生渣妹无数。但我愿意为这个胎收手。 http://tieba.baidu.com/p/3970223700

【树洞】直到今天母上推开了我屋的门ojz http://tieba.baidu.com/p/3978813461

略微提一下在学习的时候碰到的问题:

#include "libxml/xmlversion.h" 报错。

not found 或者error:command'cc'failedwithexit status1。

这个问题国内论坛基本上没答案。而且都是一个版本号.还是万能的stackoverflow挽救了我。

Cannot install Lxml on Mac os x 10.9

附上 pyquery的api文档

pyquery – PyQuery complete API

初触Python,关于pyquery解析html(百度贴吧)的更多相关文章

  1. 【Python爬虫】PyQuery解析库

    PyQuery解析库 阅读目录 初始化 基本CSS选择器 查找元素 遍历 获取信息 DOM操作 伪类选择器 PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎 ...

  2. pyspider示例代码三:用PyQuery解析页面数据

    本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一些 ...

  3. 安装虚拟机与初触linux心得

    安装虚拟机与初触linux心得 安装虚拟机 不知道是电脑问题还是软件问题,我安装虚拟机的过程异常坎坷,首先我在官网,360,太平洋等地方下载的virtualbox5.0以后的软件普遍有问题,问题是打不 ...

  4. Python中PyQuery库的使用总结

    介绍 pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,官方文档地址是:http://packages.python.org/pyquery/ pyquery 可让你用 ...

  5. pyspider用PyQuery解析页面数据

    示例说明: 本示例主要是PyQuery解析返回的response页面数据.response.doc解析页面数据是pyspider的主要用法,应该熟练掌握基本使用方法.其他返回类型示例见后续文章. py ...

  6. python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到,但是无法点击问题 && pycharm多行缩进、左移

    先说一下可能用到的一些python知识 一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...

  7. Python中PyQuery库的使用

    pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的. 它的官方文档地址是:http://packages ...

  8. python学习(解析python官网会议安排)

    在学习python的过程中,做练习,解析https://www.python.org/events/python-events/ HTML文件,输出Python官网发布的会议时间.名称和地点. 对ht ...

  9. python中html解析-Beautiful Soup

    1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...

随机推荐

  1. css每次的初始化代码

    ;;} body{font-size:14px;} img{border:none;} li{list-style:none;} input,select,textarea{outline:none; ...

  2. 前端开发之旅-zopim在线即时聊天客服

    一.与潜在客户实时聊天的神奇-zopim Zopim是一款高效的可嵌入网页中去的即使通讯与网站访客信息追踪的的Web软件.知道谁在访问您的网站吗?想和他们实时交流吗?想更有效的把握商机吗?使用Zopi ...

  3. Sql Server 优化 SQL 查询:如何写出高性能SQL语句

    1. 首先要搞明白什么叫执行计划? 执行计划是数据库根据SQL语句和相关表的统计信息作出的一个查询方案,这个方案是由查询优化器自动分析产生的,比如一条SQL语句如果用来从一个 10万条记录的表中查1条 ...

  4. 【PostgreSQL-9.6.3】触发器概述(普通触发器)

    一个触发器声明了当执行一种特定类型的操作时数据库应该自动执行一个特殊的函数.触发器可以被附加到表.视图和外部表.触发器经常用于做完整性约束,或者某种业务规则的约束. 1. 触发器的创建语法如下: CR ...

  5. 【PL/SQL】触发器示例:记录加薪

    首先创建一张表,用于保存薪资变化情况: --创建加薪记录表 CREATE TABLE scott.raisedsalarylog ( empno ) NOT NULL PRIMARY KEY, --员 ...

  6. Prime算法生成最小生成树

    虽说是生成树,但我只将生成的边输出了.至于怎么用这些边来创建树...我不知道_(:з」∠)_ //Prime方法生成最小生成树 void GraphAdjacencyListWeight::Gener ...

  7. 2016.01.05 DOM笔记(一) 查找元素

    DOM节点的种类 元素和标签是一个意思,例如<body>标签或者称为<body>元素 节点DOM的节点分为三类  元素节点,文本节点,属性节点 例如 <div id=‘b ...

  8. CDR服装设计-用CorelDRAW排钻如何把圈摆均匀

    服装设计一直都是一个很火热的行业,也是一个比较高端的行业,随着时代的步伐,以前的人都是用手绘的方式来设计服装,现在不一样了,电脑可以说普及到了每一个家庭,让软件以更快的速度,更准确的数据来设计服装中的 ...

  9. 如何在mac里面,把xcode代码同步到 tfs 的 git库(新git库)

    克隆篇请参考:http://www.cnblogs.com/IWings/p/6744895.html 在mac安装visual studio code https://code.visualstud ...

  10. 关于JS闭包的一点理解

    通常来讲,闭包通常是指函数内部可以访问到外部作用域的一个过程. 一.广义的定义:任何函数都产生了闭包. 二.狭义的定义:函数内部能访问到其他变量函数的作用域. 我们来看个例子 var a = 10; ...