AI大模型应用开发入门-LangChain实现文档总结

一、整体思路

长网页文本往往超过 LLM 单次处理的 token 限制，我们需要设计一个 map-reduce 流水线来拆分、局部总结、归并：

加载网页内容
拆分成可控大小的 chunk
对每个 chunk 做初步总结 (map)
汇总所有初步总结 (reduce)
如有需要递归 reduce 直到满足 token 限制
输出最终总结

接下来我们用代码实现！

二、准备工作

1. 初始化 LLM

首先我们通过 init_chat_model 加载 LLM：

# llm_env.py

from langchain.chat_models import init_chat_model

llm = init_chat_model("gpt-4o-mini", model_provider="openai")

三、主程序 main.py

1. 导入依赖 & 初始化

import os

import sys

sys.path.append(os.getcwd())

from langchain_community.document_loaders import WebBaseLoader

from langchain.chains.combine_documents import create_stuff_documents_chain

from langchain.chains.llm import LLMChain

from langchain_core.prompts import ChatPromptTemplate

from langchain_text_splitters import CharacterTextSplitter

import operator

from typing import Annotated, List, Literal, TypedDict

from langchain.chains.combine_documents.reduce import collapse_docs, split_list_of_docs

from langchain_core.documents import Document

from langgraph.constants import Send

from langgraph.graph import END, START, StateGraph

from llm_set import llm_env

llm = llm_env.llm

2. 加载网页

loader = WebBaseLoader("https://en.wikipedia.org/wiki/Artificial_intelligence")

docs = loader.load()

通过 WebBaseLoader 可以轻松加载网页文本到 docs 列表中。

3. 定义 Prompt 模板

- Map 阶段 Prompt

map_prompt = ChatPromptTemplate.from_messages(

    [("system", "Write a concise summary of the following: \\n\\n{context}")]

)

- Reduce 阶段 Prompt

reduce_template = """

The following is a set of summaries:

{docs}

Take these and distill it into a final, consolidated summary

of the main themes.

"""

reduce_prompt = ChatPromptTemplate([("human", reduce_template)])

4. 拆分文档 chunk

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)

split_docs = text_splitter.split_documents(docs)

print(f"Split into {len(split_docs)} chunks")

将网页内容拆分成多个 chunk，chunk 大小设置 1000 tokens，便于单次处理。

5. 定义 Token 长度计算

token_max = 1000

def length_function(documents: List[Document]) -> int:

    return sum(llm.get_num_tokens(d.page_content) for d in documents)

计算输入文档 token 总量，用于判断是否需要继续 collapse。

6. 定义状态

主状态：

class OverallState(TypedDict):

    contents: List[str]

    summaries: Annotated[list, operator.add]

    collapsed_summaries: List[Document]

    final_summary: str

Map 阶段状态：

class SummaryState(TypedDict):

    content: str

7. 生成初步 summary (Map 阶段)

def generate_summary(state: SummaryState):

    prompt = map_prompt.invoke(state["content"])

    response = llm.invoke(prompt)

    return {"summaries": [response.content]}

8. Map 调度逻辑

def map_summaries(state: OverallState):

    return [

        Send("generate_summary", {"content": content}) for content in state["contents"]

    ]

9. 收集 summary

def collect_summaries(state: OverallState):

    return {

        "collapsed_summaries": [Document(summary) for summary in state["summaries"]]

    }

10. Reduce 逻辑

- 内部 reduce 函数

def _reduce(input: dict) -> str:

    prompt = reduce_prompt.invoke(input)

    response = llm.invoke(prompt)

    return response.content

- Collapse summaries

def collapse_summaries(state: OverallState):

    docs_lists = split_list_of_docs(

        state["collapsed_summaries"],

        length_function,

        token_max,

    )

    results = []

    for doc_list in docs_lists:

        combined = collapse_docs(doc_list, _reduce)

        results.append(combined)

    return {"collapsed_summaries": results}

11. 是否继续 collapse

def should_collapse(state: OverallState):

    num_tokens = length_function(state["collapsed_summaries"])

    if num_tokens > token_max:

        return "collapse_summaries"

    else:

        return "generate_final_summary"

12. 生成最终 summary

def generate_final_summary(state: OverallState):

    response = _reduce(state["collapsed_summaries"])

    return {"final_summary": response}

四、构建流程图 (StateGraph)

graph = StateGraph(OverallState)

graph.add_node("generate_summary", generate_summary)

graph.add_node("collect_summaries", collect_summaries)

graph.add_node("collapse_summaries", collapse_summaries)

graph.add_node("generate_final_summary", generate_final_summary)

graph.add_conditional_edges(START, map_summaries, ["generate_summary"])

graph.add_edge("generate_summary", "collect_summaries")

graph.add_conditional_edges("collect_summaries", should_collapse)

graph.add_conditional_edges("collapse_summaries", should_collapse)

graph.add_edge("generate_final_summary", END)

app = graph.compile()

五、执行总结流程

for step in app.stream(

    {"contents": [doc.page_content for doc in split_docs]},

    {"recursion_limit": 10},

):

    print(list(step.keys()))

通过 .stream() 启动整个流水线，传入切片后的 contents，流式输出每步结果，直到最终汇总完成。

六、总结

通过这个示例，你可以看到：

使用 LangChain + LLM 轻松实现 网页总结

设计了 自动 map-reduce 流程，支持长文本拆分和递归 reduce

通过 StateGraph 灵活编排流程、

AI大模型应用开发入门-LangChain实现文档总结的更多相关文章

【分享】iTOP4412开发板-Bluetooth移植文档
[分享]iTOP4412开发板-Bluetooth移植文档最近须要把Bluetooth移植到iTOP-4412 开发平台.查阅了相关资料,经过一段时间的研究.调试,最终成功的将蓝牙功能移植到了开发板 ...
Apache PDFbox开发指南之PDF文档读取
转载请注明来源:http://blog.csdn.net/loongshawn/article/details/51542309 相关文章: <Apache PDFbox开发指南之PDF文本内容 ...
AI大模型学习了解
# 百度文心上线时间:2019年3月官方介绍:https://wenxin.baidu.com/ 发布地点: 参考资料: 2600亿!全球最大中文单体模型鹏城-百度·文心发布 # 华为盘古上线时 ...
MongoDB开发深入之一：文档数据关系模型详解（一对多，多对多）
文档关联模型通常有3种方式: 嵌入式(一对一.一对多) 后期手动统一ID处理(一对多.多对多) References引用(一对一.一对多) 文档树模型通常有3种方式: 父引用(Parent Refer ...
python 全栈开发，Day48(标准文档流,块级元素和行内元素,浮动,margin的用法,文本属性和字体属性)
昨日内容回顾高级选择器: 后代选择 : div p 子代选择器 : div>p 并集选择器: div,p 交集选择器: div.active 属性选择器: [属性~='属性值'] 伪类选择器 ...
{03--CSS布局设置} 盒模型二 padding bode margin 标准文档流块级元素和行内元素浮动 margin的用法文本属性和字体属性超链接导航栏 background 定位 z-index
03--CSS布局设置本节目录一盒模型二 padding(内边距) 三 boder(边框) 四简单认识一下margin(外边距) 五标准文档流六块级元素和行内元素七浮动八 mar ...
前端开发—BOM对象DOM文档对象操作
BOM 浏览器对象 BOM:Browser Object Model 操作浏览器,需要调用window对象,它是所有浏览器都支持的对象,表示的就是浏览器窗口 window对象可以通过点调用子对象 wi ...
【Win10 开发】读取PDF文档
关于用来读取PDF文档的内容的API,其实在Win8.1的时候就有,不过没关系,既咱们讨论的是10的UAP,连同8.1的内容也包括进去,所以老周无数次强调:把以前的内容学好了,就可以在不学习任何新知识 ...
Android开发人员官方站点文档 - 国内踏得网镜像
Android Developer 安卓开发人员官方站点无法正常訪问.即使FQ因为网络原因依旧訪问缓慢. 故整理相关字体.脚本.样式.页面资源,在踏得网server上建立了本地镜像.初始镜像时间201 ...
Java开发知识之XML文档使用,解析
目录 XML文件详解一丶XML简介 1.文档结构 2.XML中的元素(Element)或者叫做标签(Tab).属性文本内容. 节点(Node) 3.XML语法规则二丶XML文档解析三丶使用XP ...

随机推荐

Delphi 判断字符是否是汉字
function IsHZ(ch: WideChar): boolean; var i: Integer; begin i := Ord(ch); if (i < 19968) or (i &g ...
Mac 刷题环境配置
Mac 刷题环境配置这篇博文主要记录自己为了更方便的在 Mac 上写算法题,主要是基于 Clion做的一些环境配置:有些操作其实在 Windows ,Linux 下也是通用的,如果看到的小伙伴也可以 ...
[每日算法 - 华为机试] leetcode45 ：跳跃游戏 II 「动态规划神器推荐」
leetcode入口 45. 跳跃游戏 IIhttps://leetcode.cn/problems/jump-game-ii/ 题目描述给定一个长度为 n 的 0 索引整数数组 nums.初始位置 ...
【SpringMVC】映射请求参数 & 请求头
映射请求参数 & 请求参数请求处理方法签名 Spring MVC 通过分析处理方法的签名,将 HTTP 请求信息绑定到处理方法的相应人参中. Spring MVC 对控制器处理方法签名的限制 ...
DevSecOps的实现与相关开源工具
DevSecOps的实现与相关开源工具 DevSecOps是一种以自动化方式在DevOps流程中集成安全工具的方法.DevSecOps不仅仅是引入新的安全工具,还包括关于使用这些工具的必要知识.这需要 ...
免费、快速、可靠：揭秘IsGPT如何精准检测AI内容
随着GPT等技术的迅猛发展,不少人开始担心信息真实性和学术诚信.今天,分享一款由MIT CSAIL孵化的AI内容检测工具,看看它如何帮你快狠准地识别AI生成的文本 isgpt.org 市面上虽有不少A ...
一款让 Everything 更加如虎添翼的 .NET 开源辅助工具！
前言相信很多同学都应该用过 Everything 这个实用的 Windows 文件搜索神器吧,今天大姚给大家分享一款让 Everything 更加如虎添翼的 .NET 开源辅助工具:Everythi ...
HttpRunner使用总结
1.安装打开cmd或cmder,输入命令:pip3 install httprunner 安装完成输入命令:hrun -V或hrun -h 检查安装是否成功 2.使用 1)新建test.yaml文件 ...
MONyog入门总结
1.安装步骤 1)安装MONyog_6.6.3.exe文件,步骤如下: 2)停止MONyog服务 3)将MONyog.exe和MONyog-patch.exe文件放到E:\MONyog\bin目录下 ...
Spring AI与DeepSeek实战四：系统API调用
一.概述在 AI 应用开发中,工具调用 Tool Calling 是增强大模型能力的核心技术.通过让模型与外部 API 或工具交互,可实现实时信息检索(如天气查询.新闻获取).系统操作(如创建任务 ...