爬行百度标题&URL案例

思路：

　　先将需要获取的匹配出，然后可以用"永真"（即while True:）来遍历使得URL可以一直自增变化（百度点击下一页URL的pn参数就增加10）每增加10就爬行一遍URL然后提取一次数据。

#-*-coding:UTF-8-*-

import sys,re,requests,graphics,Tkinter

import easygui as gui

string = raw_input("string is :")

pn = 0

while True:

    url = "http://www.baidu.com/s?wd=%s&pn=%d" % (string, pn)

    pn += 10

    html = requests.get(url).text

    # html = """

    # <div class="c-tools" id="tools_2269957611132062659_2" data-tools='{"title":"织梦CMS 官方网站 - 内容管理系统 - 上海卓卓网络科技有限公司","url":"http://www.baidu.com/link?url=gXtstOFbadX8Lia_Fwwl_AS8VUgXEfqcHe4bpP6Paj-BIGvrYgaUwI4BXvB2M4vg"}'><a class="c-tip-icon"><i class="c-icon c-icon-triangle-down-g"></i></a></div>

    # """

    res = "<div .*? data-tools=(.*?)>.*?</div>"

    con = re.findall(res, html)

    for i in con:

        d = eval(i.strip("'"))#将正则匹配到的json格式的数据转换为字典，eval即为转换。

        print "title:" + d[u'title'] + "  " + d['url']

    num = raw_input(u"e or q:")

    if num == "q":

        exit()

后期又修改了一下．

 #!/usr/bin/env python

 #encoding:utf-8

 #by i3ekr

 import sys,re,requests,time,json

 print """

                        #G

                        #K

                       .Et

                       :#

                     : ##

                     ##Dj K

                    .####G###

                    E;#####f;

                     ########

                     #######.

                     .i#L#,t

                     DEDECMS               

 """

 string = raw_input("string is :")

 pn = 0

 nn = 0

 r = requests.session()

 head = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'}

 while True:

     url = "http://www.baidu.com/s?wd=%s&pn=%d" % (string, pn)

     html = r.get(url, headers=head).text

     res = "<div .*? data-tools=(.*?)>.*?</div>"

     con = re.findall(res, html)

     pn += 10

     nn += 1

     try:

       for i in con:

           a = eval(eval(i))

           b = r.get(a.get("url"), headers=head)

           print "[%s] %s"%(nn,b.url)

     except Exception as e:

       pass

爬行百度标题&URL案例的更多相关文章

百度搜索URL中的参数都是什么
最近,点石排名更新了一个新功能——站内搜索.其实理解起来也很简单,就是通过URL限定搜索结果为某个网站,从而参与点击(例如:https://www.baidu.com/s?wd=SEO&si= ...
零基础学习java------23---------动态代理，ip，url案例
1. 动态代理 2. ip,url案例给定的access.log是电信运营商的用户上网数据,第一个字段是时间, 第二个字段是ip地址,第三个字段是访问的网站,其他字段可以忽略不计. 第一个字段是网段 ...
百度UEditor开发案例（JSP）
本案例的开发环境:MyEclipse+tomcat+jdk 本案例的开发内容: 用百度编辑器发布新闻(UEditor的初始化开发部署) 编辑已发过的新闻(UEditor的应用——编辑旧文章) ...
百度搜索URL参数搜索关键字
http://www.baidu.com/s?wd=关键字 wd(Keyword):查询的关键词: http://www.baidu.com/s?wd=关键字&cl=3 cl(Class):搜 ...
百度搜索URL参数你知道多少
http://www.baidu.com/s?wd=关键字 wd(Keyword):查询的关键词: http://www.baidu.com/s?wd=关键字&cl=3 cl(Class):搜 ...
百度搜索URL参数
http://www.baidu.com/s?wd=关键字wd(Keyword):查询的关键词:http://www.baidu.com/s?wd=关键字&cl=3cl(Class):搜索类型 ...
百度搜索URL参数含义
序号参数含义 1 tn 搜索框所属网站.比如 tn=sitehao123,就是 http://www.hao123.com/ 左上那个搜索框(指通过什么方式到达百度首页搜索界面;) 2 s?wd ...
百度搜索结果页url参数详解
在百度首页输入任意关键词搜索之后,我们跳转到搜索结果页面,在浏览器的网址栏我们可以看到很长的一串url地址.那么,你真的了解这一串url的含义吗? s?:搜索百度搜索结果页使用了重定向,因此我们看到 ...
B站标题/子标题/url爬取示例(requests+re)
#coding:utf-8 __author__ = "zhoumi" 3 import requests import re import urllib ''' 本文档目的在于获 ...

随机推荐

BZOJ 1975 魔法猪学院(A*求K短路)
显然每次贪心的走最少消耗的路径即可.那么也就是找出最短路,次短路,,,K短路之后消耗E的能量的最多的路径条数. 也就是裸的A*算法. #include <bits/stdc++.h> us ...
Django 2.0 学习(16)：Django ORM 数据库操作(下)
Django ORM数据库操作(下) 一.增加表记录对于表单有两种方式: # 方式一:实例化对象就是一条表记录france_obj = models.Student(name="海地&qu ...
http://www.pythonchallenge.com/ 网站题解
在知乎中无意发现了这个网站,做了几题发现挺有趣的,这里记录下自己的解题思路,顺便对比下答案中的思路网页:http://www.pythonchallenge.com/ 目前只做了几题,解题的方法就是 ...
P3916 图的遍历
题目描述给出 NNN 个点, MMM 条边的有向图,对于每个点 vvv ,求 A(v)A(v)A(v) 表示从点 vvv 出发,能到达的编号最大的点. 输入输出格式输入格式: 第1 行,2 个整数 ...
【MVVM Dev】ComboBox嵌入CheckBox的显示问题
一.前言在ComboBox中嵌入若干个CheckBox时,当我们勾选一些CheckBox,ComboBox会显示相应的勾选项. 例如:CheckBox项有A,B,C 那么勾选这三项,ComboB ...
Codeforces 906B. Seating of Students（构造+DFS）
行和列>4的可以直接构造,只要交叉着放就好了,比如1 3 5 2 4和2 4 1 3 5,每一行和下一行用不同的方法就能保证没有邻居. 其他的可以用爆搜,每次暴力和后面的一个编号交换并判断可行性 ...
初识python版本
区别一: python2x:源码重复不规范. python3x:重新整理规范了源码. 区别二: python2x: 默认的编码方式ascii,显示中文需要首行添加:# _*_ encoding: u ...
Java高级应用之泛型与反射20170627
/*************************************************************************************************** ...
ros error : c++: error: $(catkin_LIBRARIES): 没有那个文件或目录
卧槽,真是........................瞎眼了. 一个半小时才找出错误来..... c++: error: $(catkin_LIBRARIES): 没有那个文件或目录 Oh my ...
Codeforces Round #405 (rated, Div. 2, based on VK Cup 2017 Round 1)A B C 水并查集思路
A. Bear and Big Brother time limit per test 1 second memory limit per test 256 megabytes input stand ...

爬行百度标题&URL案例

爬行百度标题&URL案例的更多相关文章

随机推荐

热门专题