获取搜索结果的真实URL、描述、标题

1、场景

爬虫练手代码

2、代码

Python2：

#!/usr/bin/python

# -*- coding:utf-8 -*-

import requests

from lxml import etree

import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

def getfromBaidu(word):

    list=[]

    headers = {

        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

        'Accept-Encoding': 'gzip, deflate, compress',

        'Accept-Language': 'en-us;q=0.5,en;q=0.3',

        'Cache-Control': 'max-age=0',

        'Connection': 'keep-alive',

        'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'

        }

    baiduurl = 'http://www.baidu.com'

    url = 'http://www.baidu.com.cn/s?wd=' + word + '&cl=3'

    html = requests.get(url=url,headers=headers)

    path = etree.HTML(html.content)

    #用k来控制爬取的页码范围

    for k in range(1, 20):

        # 取出内容

        path = etree.HTML(requests.get(url, headers).content)

        flag = 11

        if k == 1:

            flag = 10

        for i in range(1, flag):

            # 获取标题

            sentence = ""

            for j in path.xpath('//*[@id="%d"]/h3/a//text()'%((k-1)*10+i)):

                sentence+=j

            print sentence                # 打印标题

            # 获取真实URL

            try:

                url_href =  path.xpath('//*[@id="%d"]/h3/a/@href'%((k-1)*10+i))

                url_href = ''.join(url_href)

                baidu_url = requests.get(url=url_href, headers=headers, allow_redirects=False)

                real_url = baidu_url.headers['Location']  # 得到网页原始地址

                print real_url               # 打印URL

            except:

                print "error",sentence,url_href

            # 获取描述

            res_abstract =  path.xpath('//*[@id="%d"]/div[@class="c-abstract"]'%((k-1)*10+i))

            if res_abstract:

                abstract = res_abstract[0].xpath('string(.)')

            else:

                res_abstract = path.xpath('//*[@id="%d"]/div/div[2]/div[@class="c-abstract"]' % ((k - 1) * 10 + i))

                if res_abstract:

                    abstract = res_abstract[0].xpath('string(.)')

            print abstract                  # 打印描述

        url = baiduurl+path.xpath('//*[@id="page"]/a[%d]/@href'%flag)[0]

    return

#主程序测试函数

if __name__ == '__main__':

    print getfromBaidu('上网')

3、效果

获取搜索结果的真实URL、描述、标题的更多相关文章

获取百度搜索结果的真实url以及摘要和时间
利用requests库和bs4实现,demo如下: #coding:utf- import requests from bs4 import BeautifulSoup import bs4 impo ...
songtaste网站歌曲真实URL获取
个人挺喜欢songtaste网站的歌曲的,下载方法也层出不穷,可是作为程序员如果不知其中原理的方法真是羞愧.首先简单点的方法当然有google插件这样的嗅探器了,不过这种工具的原理还不是很了解.今天先 ...
Java 获取网络重定向文件的真实URL
其实Java 使用HttpURLConnection下载的的时候,会自动下载重定向后的文件,但是我们无法获知目标文件的真实文件名,文件类型,用下面的方法可以得到真实的URL,下面是一个YOUKU视频的 ...
多级反向代理下，Java获取请求客户端的真实IP地址多中方法整合
在JSP里,获取客户端的IP地址的方法是:request.getRemoteAddr(),这种方法在大部分情况下都是有效的.但是在通过了Apache,Squid等反向代理软件就不能获取到客户端的真实I ...
spring中获取当前项目的真实路径
总结: 方法1: WebApplicationContext webApplicationContext = ContextLoader.getCurrentWebApplicationContext ...
Java获取请求客户端的真实IP地址
整理网友的材料,最后有源码,亲测能解决所有java获取IP真实地址的问题整理的这里: 1.链接1 2.链接2 JSP里,获取客户端的IP地址的方法是: request.getRemoteAddr() ...
使用CDN后配置nginx自定义日志获取访问用户的真实IP
问题描述: 新上线了一个项目,架构如下(简单画的理解就好): 问题是:负载前面加上CDN后负载这里无法获取客户的真实访问IP,只能过去到CDN的IP地址: 问题解决: 修改nginx日 ...
用Head方法获得百度搜索结果的真实地址
用Head方法获得百度搜索结果的真实地址在百度中搜索"Java",第一条结果的链接为: https://www.baidu.com/link?url=HBOOMbhPKH4SfI ...
获取HTML中所有图片的 URL
/// <summary> /// 获取HTML中所有图片的 URL /// </summary> /// <param name="strHtml" ...

随机推荐

TensorRT&Sample&Python[end_to_end_tensorflow_mnist]
本文是基于TensorRT 5.0.2基础上,关于其内部的end_to_end_tensorflow_mnist例子的分析和介绍. 1 引言假设当前路径为: TensorRT-5.0.2.6/sam ...
随心测试_软测基础_003< 理解测试 >
目标:对于软件测试基础,利用清晰的框架,掌握相关知识点. 做某件事情,思路如下: 以上过程,理解为:针对x一个对象,围绕特定的目的,利用具备的方法,按一定的流程做事情,并反复思考总结,这样做是否达到目 ...
core dump文件的生成
#include <stdio.h> int main(int argc, char *argv[]) { char * p = "abcdefg"; p[] = '; ...
iview 动态渲染menu时active-name无效的问题
动态渲染menu时,如果需要active-name,那么name只能绑定index,动态渲染的数组初始必须有一个空对象.否则无法使用active-name属性.注:仅限3.0版本,不排除新版本修复的可 ...
布局无法发送，布局发布状态停留在“Transferring”,进度停留在 0%
按顺序检查如下: 1. 检查Player是否在线?不在线则无法发送任何内容,进度会停留在0%,待Player下次在线时,任务自动开始传输. Player在线,Messenger上可以看到Player名 ...
Spring 使用AOP——基于注解配置
首先,使用注解实现AOP是基于AspectJ方式的. 创建包含切点方法的类 package cn.ganlixin.test; import org.aspectj.lang.annotation.P ...
乐观锁vs悲观锁
引言为什么需要锁(并发控制) 在并发的环境中,会存在多个用户同时更新同一条数据,这时就会产生冲突. 冲突结果: 丢失更新:一个事务的更新覆盖了其它事务的更新结果,就是所谓的更新丢失. 脏读:当一个事 ...
git命令行整理（一位大神给我的私藏）
Evernote Export Git 是一个很强大的分布式版本控制系统.它不但适用于管理大型开源软件的源代码,管理私人的文档和源代码也有很多优势. Git常用操作命令: 1) 远程仓库相关命令检出 ...
只能用Android studio做平台移植了！在Windows10下，开发Android。
安装好IDE后, 会一直显示同步失败, 看看如下步骤: 需要注意的是: -> 安装NDK 自带的NDK版本有问题自己去下一个15版本的 -> 按照系统提示一步一步安装其他 ...
SpringCloud学习笔记：熔断器Hystrix（5）
1. Hystrix简介在分布式系统中,服务与服务之间相互依赖,一种不可避免的情况是某些服务会出现故障,导致依赖于它们的其他服务出现远程调度的线程阻塞. Hystrix提供熔断器功能,能够阻止分布式 ...

获取搜索结果的真实URL、描述、标题

1、场景

2、代码

3、效果

获取搜索结果的真实URL、描述、标题的更多相关文章

随机推荐

热门专题