获取百度搜索结果的真实url以及摘要和时间

利用requests库和bs4实现，demo如下：

#coding:utf-

import requests

from bs4 import BeautifulSoup

import bs4

import re

headers = {

    'User-Agent':'Chrome/68.0.3440.106'

}

def getHTMLText(url):

    try:

        r=requests.get(url,headers=headers)

        r.raise_for_status()

        r.encoding=r.apparent_encoding

        return r.text

    except:

        return ''

'''

def getHref(html):

    soup=BeautifulSoup(html,'lxml')

    for node in soup.find_all()

'''

def bdurlCode(url):

    res = requests.get(url, allow_redirects=False)

    Real_url = res.headers['location']

    return Real_url

def fillList(ulist,html):

    soup=BeautifulSoup(html,'lxml')

    for node in soup.find_all('div', {'class': 'result c-container '}):

        abstract_node = node.find('div',{'class':'c-abstract'})

        cite_node = node.find('a', {'class': 'c-showurl'})

        time_node=node.find('span',{'class':' newTimeFactor_before_abs m'})

        if not time_node:continue

        url=cite_node['href']

        url=bdurlCode(url)

        abstract=abstract_node.text

        time=time_node.text

        ulist.append([url,time,abstract])

    print(ulist)

    print(len(ulist))

uinfo=[]

url="https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E6%98%8E%E7%95%A5%E6%95%B0%E6%8D%AECTO&oq=%25E6%2598%258E%25E7%2595%25A5%25E6%2595%25B0%25E6%258D%25AE&rsv_pq=9429009d00000f0c&rsv_t=0278viP4h51Y2xMneo8a0HfaOkqnhW8wmti1KAz4ddKuKCUjeKDsh9yB1YM&rqlang=cn&rsv_enter=1&inputT=894&rsv_sug3=17&rsv_sug1=9&rsv_sug7=100&rsv_sug2=0&rsv_sug4=1273&rsv_sug=1"

html=getHTMLText(url)

fillList(uinfo,html)

获取百度搜索结果的真实url以及摘要和时间的更多相关文章

用Head方法获得百度搜索结果的真实地址
用Head方法获得百度搜索结果的真实地址在百度中搜索"Java",第一条结果的链接为: https://www.baidu.com/link?url=HBOOMbhPKH4SfI ...
获取搜索结果的真实URL、描述、标题
1.场景爬虫练手代码 2.代码 Python2: #!/usr/bin/python # -*- coding:utf-8 -*- import requests from lxml import ...
python采集百度搜索结果带有特定URL的链接
#coding utf-8 import requests from bs4 import BeautifulSoup as bs import re from Queue import Queue ...
js 获取百度搜索关键词的代码
有可能有时候我们会用到在百度搜什么关键词进来我们的网站的,所有我们又想拿到用户搜索的关键词. 这是我研究了半天所得出的办法.话不多说直接贴代码 <script> function quer ...
【Python学习笔记六】获取百度搜索结果以及百度返回“百度安全验证”问题解决
1.获取百度搜索结果页面主要是修改百度搜索url中的参数实现,例如查询的关键字为wd: 举例:https://www.baidu.com/s?wd=python",这样就可以查询到‘pyth ...
jsonp模拟获取百度搜索相关词汇
随便写了个jsonp模拟百度搜索相关词汇的小demo,帮助新手理解jsonp的用法. <!DOCTYPE html><html lang="en">< ...
Java 获取网络重定向文件的真实URL
其实Java 使用HttpURLConnection下载的的时候,会自动下载重定向后的文件,但是我们无法获知目标文件的真实文件名,文件类型,用下面的方法可以得到真实的URL,下面是一个YOUKU视频的 ...
解析百度搜索结果链接的url，获取真正的url
通常,在百度输入关键词搜索出现的列表页,点击目标链接,然而跳转的时候却是百度地址,经过百度解析,才真的跳到目标页面. 在SEO中,经常需要看下自己的网站排名,又不想手动每天手动去点,可用以下方法去得到 ...
PHP 批量获取百度搜索结果网址列表
<?php set_time_limit(0); function curl($url){ $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $u ...

随机推荐

github 第一次使用及出现的问题解决
1.前言: 我们使用git,自然是希望我们的项目可以方便的从本地上传到git的仓库中,从而实现项目版本控制和备份,但是,从GitHub的网站上传文件,只能上传25MB的数据,我想多数人的项目都不可能只 ...
Codeforces Round #286 (Div. 2)B. Mr. Kitayuta's Colorful Graph(dfs,暴力)
数据规模小,所以就暴力枚举每一种颜色的边就行了. #include<iostream> #include<cstdio> #include<cstdlib> #in ...
I.MX6 Android 5.1 回到 Android 4.2 emmc 启动
/*************************************************************************** * I.MX6 Android 5.1 回到 ...
dwd面试记录与最近面试的一些感想。
因为自己简历有些问题,额,面试官以为我有三年的工作经验. (吐槽一些智联的简历系统,)16年工作,一到18年自动变三年.这也忒坑人了. 工作年限一定要真实,避免出现问题,这会让面试官觉得你很不真诚. ...
FPGA 竞争与冒险
一,概念在数字电路设计时,无论是组合.时序,还是FPGA电路中,都需要考虑竞争冒险现象(Race and Competition). 竞争:由于信号在传输和处理过程中经过不同的逻辑门.触发器或逻辑单 ...
检测一个DLL文件是x64还是x86
对于一个DLL,我们如何判定其是32位的还是64位的,或者是any cpu的platform? Visual Studio提供了一个很好的工具:corflags,这个是内嵌到Developer Com ...
DATAX动态参数数据传递
实例:ORACLE到ORACLE的数据传递编写job.xml文件,添加变量参数执行datax.py文件时记得带参数格式:./datax.py –p"-Ddbname=*** -Di ...
一个分类，两个问题之ArrayList
前段时间,在做一个商品的分类,分类有3级,类似于以下这种形式的: ---食物 ---蔬菜 ---白菜 ---材料 ---鸡肉 ....... 而我需要做的是将取得的一个商品的字符串类型的分类ID集,然 ...
Redis 集群之 Redis-Cluster
Redis集群官方推荐方案 Redis-Cluster 集群 redis cluster 通过分片实࣫容量扩展通过主从复制实࣫节点的高可用节点之间互相通信每个节点都维护整个集群的节点信息 red ...
maven 学习十关于打包
clean package -Dmaven.test.skip=true -P product 这个命令干的活: 清class文件,打包构建,跳过测试,注意最后一个 -P product, 会激活项目 ...

获取百度搜索结果的真实url以及摘要和时间

获取百度搜索结果的真实url以及摘要和时间的更多相关文章

随机推荐

热门专题