DeepSeek实战:3分钟学会提取网页纯文本!(含提示词)
DeepSeek实战:3分钟学会提取网页纯文本!(含提示词)
| 原创作者/编辑:凯哥Java | 分类:人工智能学习系列教程
大家好,我是凯哥Java。今天给大家介绍如何使用DeepSeek提取网页纯文本内容。

DeepSeek实战指南
痛点分析:
在日常工作中,我们经常需要从网页上复制文字内容,但很多网站会设置权限限制,例如:
提示需要登录才能复制内容,如下图:

复制需要登录的示例
提示需要申请编辑权限。如下图:

需要申请编辑权限的示例
直接禁用右键复制功能。
这些限制让我们无法快速获取所需信息,尤其是在需要整理资料或进行数据分析时,效率大大降低。
PS:本文是Deepseek实战系列课程。
本系列教程其他文章,还在文章末尾添加。欢迎系统学习!
解决方案
针对上述问题,我们可以通过浏览器的开发者工具(DevTools)来绕过限制,直接获取网页的HTML内容,然后借助AI工具(如DeepSeek)过滤掉HTML标签,提取纯文本内容。
解决操作步骤
以下是详细的操作步骤:
步骤1:打开开发者工具
如果使用的是谷歌浏览器,点击右上角的三个小点(菜单按钮),选择“更多工具” → “开发者工具”。

打开开发者工具步骤
或者直接使用快捷键:F12
步骤2:定位目标内容
1.在开发者工具中,点击左上角的“元素选择器”图标(小箭头图标)。
2.用鼠标点击网页上需要复制的文字内容,开发者工具会自动定位到对应的HTML元素。
具体操作:
如下图①;
选择需要复制页面的任意文字。如下图②;
根据文字元素往上找DIV。如下图③;

定位目标内容步骤
步骤3:找到目标DIV
1.在开发者工具的“元素”面板中,找到包含目标文字的DIV元素。
2.右键点击该DIV,选择“Edit as HTML”。
具体操作步骤:
如果能找到把整个文字选中的div就是我们的目标DIV了。如下图④所示。然后选中这个div,鼠标右键,Editer as html。这个时候就可以编辑html了

找打目标div步骤

Edit as HTML
步骤4:复制HTML内容
将编辑模式下的HTML内容全选并复制。

复制HTML内容操作
步骤5:使用DeepSeek过滤HTML标签
将复制的内容发送给DeepSeek,并输入指令:“把我发你的字符串过滤掉HTML标签”。

发送指令
DeepSeek会返回过滤后的纯文本内容。

DeepSeek处理后效果
注意点
F12被禁用:如果网站禁用了F12快捷键,可以尝试使用 Ctrl+Shift+I 打开开发者工具。
内容过长:由于DeepSeek的Token限制,如果复制的HTML内容过长,可以分段截取后再发送。
复杂网页:对于结构复杂的网页,可能需要多次尝试才能找到包含全部目标内容的DIV。
福利:
另外给大家准备了完整的deepseek资料:安装包、视频教程、学习资料、实用指令

学习资料

使用技巧
如果有需要的朋友,你们都懂得哈~。如果需要文中截图相关文章,你们也懂得怎么获取啊~
如果你们还有其他想要的实战教程,记得留言。凯哥写教程
DeepSeek实战:3分钟学会提取网页纯文本!(含提示词)的更多相关文章
- java 正则表达式提取html纯文本
本文来自我的个人博客: java 正则表达式提取html纯文本 做内容的大家都知道,从html中直接提取纯文本是一个非常大的问题.现将我做的正则匹配贴上: import java.util.regex ...
- 实用的php清除html,php去除空格与换行,php清除空白行和换行,提取页面纯文本
实用的php清除html,换行,空格类,php去除空格与换行,php清除空白行和换行,提取页面纯文本内容 方法一: function DeleteHtml($str) { $str = trim($s ...
- EXchange导出通讯录提取url纯文本
用outlook链接邮箱 文件-打开和导出--导出到文件--逗号分隔值--选择联系人--保存 保存为一个后缀为csv的文件 打开该文件 选中该列 用替换功能删掉()符号 用vba脚本删掉汉字 Sub ...
- 前端开发css实战:使用css制作网页中的多级菜单
前端开发css实战:使用css制作网页中的多级菜单 在日常工作中,大家都会遇到一些显示隐藏类菜单,比如页头导航.二维码显示隐藏.文本提示等等......而这些效果都是可以使用纯css实现的(而且非常简 ...
- 《量化投资:以MATLAB为工具》连载(2)基础篇-N分钟学会MATLAB(中)
http://www.matlabsky.com/thread-43937-1-1.html <量化投资:以MATLAB为工具>连载(3)基础篇-N分钟学会MATLAB(下) ...
- 第八篇 :微信公众平台开发实战Java版之如何网页授权获取用户基本信息
第一部分:微信授权获取基本信息的介绍 我们首先来看看官方的文档怎么说: 如果用户在微信客户端中访问第三方网页,公众号可以通过微信网页授权机制,来获取用户基本信息,进而实现业务逻辑. 关于网页授权回调域 ...
- 10分钟学会Linux
10分钟学会Linux有点夸张,可是能够让一个新手初步熟悉Linux中最重要最主要的知识,本文翻译的英文网页在众多Linux入门学习的资料中还是很不错的. 英文地址:http://freeengine ...
- 三分钟学会使用Derby数据库
Derby数据库是一个纯用Java实现的内存数据库,属于Apache的一个开源项目.由于是用Java实现的,所以可以在任何平台上运行:另外一个特点是体积小,免安装,java1.6开始集成了derby数 ...
- 5分钟学会使用Less预编译器
5分钟学会使用Less预编译器 Less是什么? LESS CSS是一种动态样式语言,属于CSS预处理语言的一种,它使用类似CSS的语法为CSS赋予了动态语言的特性,如变量.继承.运算.函数等,更方便 ...
- 【grunt第二弹】30分钟学会使用grunt打包前端代码(02)
前言 上一篇博客,我们简单的介绍了grunt的使用,一些基础点没能覆盖,我们今天有必要看看一些基础知识 [grunt第一弹]30分钟学会使用grunt打包前端代码 配置任务/grunt.initCon ...
随机推荐
- Javascript 异步处理
1.传统异步处理 ES6之前使用回调进行处理,示例代码: //创建一个异步返回 双倍数值 的函数 function asyncDouble(num,cb){ // 创建标识,表示该异步处理是否完成 v ...
- Reverse花指令及反混淆
花指令及反混淆 1.花指令 花指令是反调试的一种基本的方法.其存在是干扰选手静态分析,但不会影响程序的运行.实质就是一串垃圾指令,它与程序本身的功能无关,并不影响程序本身的逻辑.在软件保护中,花指 ...
- chrome浏览器设置允许跨域
前情 在访问测试搭建的测试环境的时候,发现接口因为跨域全部失败了,服务端又不想设置允许跨域,又急于使用,于是想到是不是可以使用跨域浏览器 放开chrome的跨域设置步骤 复制一个chrome快捷图标, ...
- 服务拆分之《Dubbo服务跨云通信》
2022年10月开始,公司从阿里请来的架构师将全力推进服务拆分这个计划.实际上这个计划早就提上日程了,只是没有一个带头大哥带着把这个事情搞起来,因为这个系统太庞大了,还非常的复杂,当时就没有哪一个人是 ...
- COS数据工作流+云函数最佳实践 - 自定义音视频转码
01 背景 音视频作为信息传播中流量占比最大的部分在各行业的业务中都弥足重要,而不同的业务场景中对音视频的处理逻辑可能具备行业的特殊性. 公有云虽然提供大量的视频处理服务供用户选择,但依然不能做到全面 ...
- 使用 VS Code 徒手构建 PDF 文件
使用 VS Code 徒手构建 PDF 文件 PDF 文件是广泛应用的页面描述文件格式,从本质上讲,文件内部的结构混合使用了文本格式描述和二进制格式描述,对于简单的文件,比如说我们今天要创建的第一个 ...
- docker - 将几个目录复制到另一个目录
您如何将多个目录复制到Docker中的目标目录?我不想复制目录内容,而是复制整个目录结构.COPY和ADD命令复制目录内容,展平结构,这是我不想要的.也就是说,如果这些是我的来源: . ├── a │ ...
- Mac netstat 查看端口报错 netstat: option requires an argument -- p 解决
netstat -anvp |grep 10001 查询端口的时候报错提示 意思是缺少协议. 解决方案在Mac上正确使用的方法是:即-f需要加上地址族,-p需要加上协议TCP或者UDP等 a)如果需要 ...
- Qt设置运行时动态库路径的几点说明
随着需求的不断增加,程序不断变大,用到的动态库也越来越多,到了发布程序的时候你会发现和可执行文件同一目录下文件数量真多(比如著名的金融软件 https://www.webull.com/ 哎呀我去,目 ...
- Qt6.2发布(含项目代码升级到Qt6吐血经验总结)
一.前言 升级到Qt6吐血经验总结 https://gitee.com/feiyangqingyun/qtkaifajingyan#二升级到qt6 我很高兴地宣布 Qt 6.2 的发布.Qt 6.2 ...