用 Python 获取百度搜索结果链接

前言

近期有许多项目需要这个功能，由于Python实现起来比较简单就这么做了，代码贴下来觉得好点个赞吧~

代码

# coding: utf-8

import os

import time

import requests

import urllib.parse

from bs4 import BeautifulSoup

from urllib.parse import urlparse

from fake_useragent import UserAgent

from multiprocessing.pool import ThreadPool

LOCATIONS = {}

GLOBAL_THREAD = 500

GLOBAL_TIMEOUT = 50

def get_links(keyword, generator, pages):

    links = []

    for page in range(int(pages.split("-")[0]), int(pages.split("-")[1]) + 1):

        for genera in range(int(generator.split("-")[0]), int(generator.split("-")[1]) + 1):

            links.append(

                "http://www.baidu.com.cn/s?wd=" + urllib.parse.quote(keyword + str(genera)) + "&pn=" + str(page * 10))

    return links

def get_page(url):

    headers = {"user-agent": UserAgent().chrome}

    req = requests.get(url, headers=headers)

    req.encoding = "utf-8"

    soup = BeautifulSoup(req.text, "lxml")

    for link in soup.select("div.result > h3.t > a"):

        req = requests.get(link.get("href"), headers=headers, allow_redirects=False)

        if "=" in req.headers["location"]:

            root = urlparse(req.headers["location"]).netloc

            LOCATIONS[root] = req.headers["location"]

def baidu_search():

    try:

        os.system("cls")

        print("-" * 56 + "\n")

        print("| BaiduSearch Engine By 美图博客[https://www.meitubk.com/] |\n")

        print("-" * 56 + "\n")

        keyword = input("Keyword: ")

        generator = input("Generator(1-10): ")

        pages = input("Pages(0-10): ")

        start = time.time()

        pool = ThreadPool(processes=GLOBAL_THREAD)

        pool.map(get_page, get_links(keyword, generator, pages))

        pool.close()

        pool.join()

        end = time.time()

        path = r"D:\Desktop\result.txt"

        save_result(path)

        print("\nSava in %s" % path)

        print("Result count: %d" % len(LOCATIONS.values()))

        print("Running time: %ds" % (end - start))

    except:

        print("\nInput Error!")

        exit(0)

def save_result(path):

    with open(path, "w") as file:

        for url in list(LOCATIONS.values()):

            file.write(url + "\n")

baidu_search()

使用

用 Python 获取百度搜索结果链接的更多相关文章

【Python学习笔记六】获取百度搜索结果以及百度返回“百度安全验证”问题解决
1.获取百度搜索结果页面主要是修改百度搜索url中的参数实现,例如查询的关键字为wd: 举例:https://www.baidu.com/s?wd=python",这样就可以查询到‘pyth ...
python采集百度搜索结果带有特定URL的链接
#coding utf-8 import requests from bs4 import BeautifulSoup as bs import re from Queue import Queue ...
Python获取百度浏览记录
Python模拟百度登录实例详解 http://www.jb51.net/article/78406.htm Python实战计划学习作业2-1 http://blog.csdn.net/python ...
js 获取百度搜索关键词的代码
有可能有时候我们会用到在百度搜什么关键词进来我们的网站的,所有我们又想拿到用户搜索的关键词. 这是我研究了半天所得出的办法.话不多说直接贴代码 <script> function quer ...
jsonp模拟获取百度搜索相关词汇
随便写了个jsonp模拟百度搜索相关词汇的小demo,帮助新手理解jsonp的用法. <!DOCTYPE html><html lang="en">< ...
Python实现百度搜索并保存到本地示例，Python实现百度搜索
实现百度搜索并保存到本地 User_Agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko ...
解析百度搜索结果链接的url，获取真正的url
通常,在百度输入关键词搜索出现的列表页,点击目标链接,然而跳转的时候却是百度地址,经过百度解析,才真的跳到目标页面. 在SEO中,经常需要看下自己的网站排名,又不想手动每天手动去点,可用以下方法去得到 ...
Python 版百度站长平台链接主动推送脚本
如果自己的网站需要被百度收录,可以在搜索结果中找到,就需要将网站的链接提交给百度.依靠百度的爬虫可能无法检索到网站所有的内容,因此可以主动将链接提交给百度. 在百度的站长平台上介绍了链接提交方法,目前 ...
python 模拟百度搜索
import urllib.request def Url(url): flag = input("请输入要搜索的关键字:") headers_ = { "User-Ag ...

随机推荐

关于TensorFlow九件你非知不可的事
来源 | Hackernoon 译者 | Revolver 前些天我参加了7 月24 日在美国旧金山举行的Google Cloud Next 2018 大会,其中的一个演讲( What's New w ...
【Pytest05】全网最全最新的Pytest框架之用例分组执行
一.Fixture用例分组运行常用于冒烟测试,分模块运行等 pytest.ini配置文件中增加分组参数markers来实现用例分组,如: markers = g1:组一 smoke:冒烟测试 pyte ...
使用maven-pom进行依赖管理与自动构建
使用maven-pom进行依赖管理与自动构建 span.kw { color: #007020; font-weight: bold; } /* Keyword */ code > span.d ...
Mac 中命令行启动、停止、重启Mysql
启动: ~$ sudo /usr/local/mysql/support-files/mysql.server start 停止: ~$ sudo /usr/local/mysql/support-f ...
ftp 无法显示远程文件夹
翻阅了网上前辈们的答案,都未能解决,所以就研究了一下不需要防火墙的情况,关闭防火墙即可下面使用的iptables防火墙验证的,其他的请自行验证研究了好久,发现ftp使用端口波动很大,大概在300 ...
DOM--选取文档元素
大多数的客户端JavaScript程序在运行时都是在操作一个或者多个文档元素,而为了操作文档中的元素我们就必须要通过某种途径或者方法获得或者选取这些引用文档元素的Element对象.DOM定义了许多种 ...
mysql服务器内存使用情况总结
活动链接(动态)使用的内存数量如下所示: per_connection_memory = read_buffer_size //memory for sequential table scans +r ...
PHP获取所有扩展及扩展下的所有函数签名生成php.snippet
<?php $ext_info = array(); $modules = get_loaded_extensions(); foreach ($modules as $module) { $f ...
【php】面向对象（二）
一. 封装: a) 描述:使用成员修饰符修饰成员属性和成员方法,能够最大限度的隐藏对象内部的细节,保证对象的安全 b) PPP修饰符:public(公共的),protected(受保护的),priva ...
android 软件（app）之家庭版记账本首次进行helloword等相关测试
在进行对于app的创建之前是对于android studio的相关安装的环境的配置,完成这些之后自己就写个一个简单的helloword的实例进行了测试.之后通过进一步的向下挖掘,发现当将hellowo ...

用 Python 获取百度搜索结果链接

前言

代码

使用

用 Python 获取百度搜索结果链接的更多相关文章

随机推荐

热门专题