用 Python 获取百度搜索结果链接

前言

近期有许多项目需要这个功能，由于Python实现起来比较简单就这么做了，代码贴下来觉得好点个赞吧~

代码

# coding: utf-8

import os

import time

import requests

import urllib.parse

from bs4 import BeautifulSoup

from urllib.parse import urlparse

from fake_useragent import UserAgent

from multiprocessing.pool import ThreadPool

LOCATIONS = {}

GLOBAL_THREAD = 500

GLOBAL_TIMEOUT = 50

def get_links(keyword, generator, pages):

    links = []

    for page in range(int(pages.split("-")[0]), int(pages.split("-")[1]) + 1):

        for genera in range(int(generator.split("-")[0]), int(generator.split("-")[1]) + 1):

            links.append(

                "http://www.baidu.com.cn/s?wd=" + urllib.parse.quote(keyword + str(genera)) + "&pn=" + str(page * 10))

    return links

def get_page(url):

    headers = {"user-agent": UserAgent().chrome}

    req = requests.get(url, headers=headers)

    req.encoding = "utf-8"

    soup = BeautifulSoup(req.text, "lxml")

    for link in soup.select("div.result > h3.t > a"):

        req = requests.get(link.get("href"), headers=headers, allow_redirects=False)

        if "=" in req.headers["location"]:

            root = urlparse(req.headers["location"]).netloc

            LOCATIONS[root] = req.headers["location"]

def baidu_search():

    try:

        os.system("cls")

        print("-" * 56 + "\n")

        print("| BaiduSearch Engine By 美图博客[https://www.meitubk.com/] |\n")

        print("-" * 56 + "\n")

        keyword = input("Keyword: ")

        generator = input("Generator(1-10): ")

        pages = input("Pages(0-10): ")

        start = time.time()

        pool = ThreadPool(processes=GLOBAL_THREAD)

        pool.map(get_page, get_links(keyword, generator, pages))

        pool.close()

        pool.join()

        end = time.time()

        path = r"D:\Desktop\result.txt"

        save_result(path)

        print("\nSava in %s" % path)

        print("Result count: %d" % len(LOCATIONS.values()))

        print("Running time: %ds" % (end - start))

    except:

        print("\nInput Error!")

        exit(0)

def save_result(path):

    with open(path, "w") as file:

        for url in list(LOCATIONS.values()):

            file.write(url + "\n")

baidu_search()

使用

用 Python 获取百度搜索结果链接的更多相关文章

【Python学习笔记六】获取百度搜索结果以及百度返回“百度安全验证”问题解决
1.获取百度搜索结果页面主要是修改百度搜索url中的参数实现,例如查询的关键字为wd: 举例:https://www.baidu.com/s?wd=python",这样就可以查询到‘pyth ...
python采集百度搜索结果带有特定URL的链接
#coding utf-8 import requests from bs4 import BeautifulSoup as bs import re from Queue import Queue ...
Python获取百度浏览记录
Python模拟百度登录实例详解 http://www.jb51.net/article/78406.htm Python实战计划学习作业2-1 http://blog.csdn.net/python ...
js 获取百度搜索关键词的代码
有可能有时候我们会用到在百度搜什么关键词进来我们的网站的,所有我们又想拿到用户搜索的关键词. 这是我研究了半天所得出的办法.话不多说直接贴代码 <script> function quer ...
jsonp模拟获取百度搜索相关词汇
随便写了个jsonp模拟百度搜索相关词汇的小demo,帮助新手理解jsonp的用法. <!DOCTYPE html><html lang="en">< ...
Python实现百度搜索并保存到本地示例，Python实现百度搜索
实现百度搜索并保存到本地 User_Agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko ...
解析百度搜索结果链接的url，获取真正的url
通常,在百度输入关键词搜索出现的列表页,点击目标链接,然而跳转的时候却是百度地址,经过百度解析,才真的跳到目标页面. 在SEO中,经常需要看下自己的网站排名,又不想手动每天手动去点,可用以下方法去得到 ...
Python 版百度站长平台链接主动推送脚本
如果自己的网站需要被百度收录,可以在搜索结果中找到,就需要将网站的链接提交给百度.依靠百度的爬虫可能无法检索到网站所有的内容,因此可以主动将链接提交给百度. 在百度的站长平台上介绍了链接提交方法,目前 ...
python 模拟百度搜索
import urllib.request def Url(url): flag = input("请输入要搜索的关键字:") headers_ = { "User-Ag ...

随机推荐

Jmeter4.0接口测试之案例实战（七）
在前面的知识体系中介绍了Jmeter的基本应用,下来通过具体的案例来看Jmeter在接口测试中的具体案例实战部分. HTTP是基于应用层的协议,底层的网络传输层它不需要去关心,同时它是一个无状态的协议 ...
线程安全，syncronized 用法
1,为什么有线程安全问题? 当多个线程同时共享同一个全局变量或静态变量,做写的操作时,可能会发生数据冲突问题,也就是线程安全问题.但是做读操作是不会发生数据冲突问题. public class Tra ...
使用docsify 写开源文档
使用docsify 写开源文档官网:https://docsify.js.org/#/ docsify 是一个动态生成文档网站的工具.不同于 GitBook.Hexo 的地方是它不会生成将 .md ...
CSS盒子模型(boeder)+浮动(float)+定位(position)
盒子的上下层:margin--background-color--background-image--padding--content--border(最外层) 计算一个盒子宽 = 内容的宽(wid ...
Python常用模块之configparser
ConfigParser简介 ConfigParser 是用来读取配置文件的包.配置文件的格式如下:中括号“[ ]”内包含的为section.section 下面为类似于key-value 的配置内容 ...
html前端之css基础
CSS 属性导航: CSS 属性组动画背景边框和轮廓框颜色内容页的媒体属性尺寸盒子模型(新) 盒子模型(旧) 字体内容生成网格超链接线框列表外边距字幕多列内边距页面 ...
Q - 迷宫问题 POJ - 3984(BFS / DFS + 记录路径)
Q - 迷宫问题 POJ - 3984 定义一个二维数组: int maze[5][5] = { 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, ...
HDU 2147kiki's game（巴什博弈变形）
题目链接思路如下 P : 必胜点,那个人先走到含P的点,那个这个人一定会输, N:必败点,谁走到这个点谁输! 在这一个题中: 某个点是P还是 N,之与 ⬅️左边第一个点.⬇️下边第一个点.↙️左下 ...
SQL Server 创建链接服务器的脚本，自定义链路服务器的简短名称
USE [master]GO /****** Object: LinkedServer [SQL01] Script Date: 2020/4/9 11:51:17 ******/EXEC m ...
Django REST Framework 教程开篇
作者:HelloGitHub-追梦人物欢迎来到 HelloDjango 全栈系列教程第二步--Django REST Framework 教程! 首先恭喜你完成了 HelloDjango 全栈系列教 ...

用 Python 获取百度搜索结果链接

前言

代码

使用

用 Python 获取百度搜索结果链接的更多相关文章

随机推荐

热门专题