DeepSeek实战:3分钟学会提取网页纯文本!(含提示词)

|  原创作者/编辑:凯哥Java                      |  分类:人工智能学习系列教程

大家好,我是凯哥Java。今天给大家介绍如何使用DeepSeek提取网页纯文本内容。

DeepSeek实战指南

痛点分析:

在日常工作中,我们经常需要从网页上复制文字内容,但很多网站会设置权限限制,例如:

提示需要登录才能复制内容,如下图:

复制需要登录的示例

提示需要申请编辑权限。如下图:

需要申请编辑权限的示例

直接禁用右键复制功能。

这些限制让我们无法快速获取所需信息,尤其是在需要整理资料或进行数据分析时,效率大大降低。

PS:本文是Deepseek实战系列课程。

本系列教程其他文章,还在文章末尾添加。欢迎系统学习!

解决方案

针对上述问题,我们可以通过浏览器的开发者工具(DevTools)来绕过限制,直接获取网页的HTML内容,然后借助AI工具(如DeepSeek)过滤掉HTML标签,提取纯文本内容。

解决操作步骤

以下是详细的操作步骤:

步骤1:打开开发者工具

如果使用的是谷歌浏览器,点击右上角的三个小点(菜单按钮),选择“更多工具” → “开发者工具”。

打开开发者工具步骤

或者直接使用快捷键:F12

步骤2:定位目标内容

1.在开发者工具中,点击左上角的“元素选择器”图标(小箭头图标)。

2.用鼠标点击网页上需要复制的文字内容,开发者工具会自动定位到对应的HTML元素。

具体操作:
如下图①;

选择需要复制页面的任意文字。如下图②;

根据文字元素往上找DIV。如下图③;

定位目标内容步骤

步骤3:找到目标DIV

1.在开发者工具的“元素”面板中,找到包含目标文字的DIV元素。

2.右键点击该DIV,选择“Edit as HTML”。

具体操作步骤:

如果能找到把整个文字选中的div就是我们的目标DIV了。如下图④所示。然后选中这个div,鼠标右键,Editer as html。这个时候就可以编辑html了

找打目标div步骤

Edit as HTML

步骤4:复制HTML内容

将编辑模式下的HTML内容全选并复制。

复制HTML内容操作

步骤5:使用DeepSeek过滤HTML标签

将复制的内容发送给DeepSeek,并输入指令:“把我发你的字符串过滤掉HTML标签”。

发送指令

DeepSeek会返回过滤后的纯文本内容。

  • DeepSeek处理后效果

注意点

F12被禁用:如果网站禁用了F12快捷键,可以尝试使用 Ctrl+Shift+I 打开开发者工具。

内容过长:由于DeepSeek的Token限制,如果复制的HTML内容过长,可以分段截取后再发送。

复杂网页:对于结构复杂的网页,可能需要多次尝试才能找到包含全部目标内容的DIV。

福利:

另外给大家准备了完整的deepseek资料:安装包、视频教程、学习资料、实用指令

学习资料

使用技巧

如果有需要的朋友,你们都懂得哈~。如果需要文中截图相关文章,你们也懂得怎么获取啊~

如果你们还有其他想要的实战教程,记得留言。凯哥写教程

DeepSeek实战:3分钟学会提取网页纯文本!(含提示词)的更多相关文章

  1. java 正则表达式提取html纯文本

    本文来自我的个人博客: java 正则表达式提取html纯文本 做内容的大家都知道,从html中直接提取纯文本是一个非常大的问题.现将我做的正则匹配贴上: import java.util.regex ...

  2. 实用的php清除html,php去除空格与换行,php清除空白行和换行,提取页面纯文本

    实用的php清除html,换行,空格类,php去除空格与换行,php清除空白行和换行,提取页面纯文本内容 方法一: function DeleteHtml($str) { $str = trim($s ...

  3. EXchange导出通讯录提取url纯文本

    用outlook链接邮箱 文件-打开和导出--导出到文件--逗号分隔值--选择联系人--保存 保存为一个后缀为csv的文件 打开该文件  选中该列 用替换功能删掉()符号 用vba脚本删掉汉字 Sub ...

  4. 前端开发css实战:使用css制作网页中的多级菜单

    前端开发css实战:使用css制作网页中的多级菜单 在日常工作中,大家都会遇到一些显示隐藏类菜单,比如页头导航.二维码显示隐藏.文本提示等等......而这些效果都是可以使用纯css实现的(而且非常简 ...

  5. 《量化投资:以MATLAB为工具》连载(2)基础篇-N分钟学会MATLAB(中)

    http://www.matlabsky.com/thread-43937-1-1.html   <量化投资:以MATLAB为工具>连载(3)基础篇-N分钟学会MATLAB(下)     ...

  6. 第八篇 :微信公众平台开发实战Java版之如何网页授权获取用户基本信息

    第一部分:微信授权获取基本信息的介绍 我们首先来看看官方的文档怎么说: 如果用户在微信客户端中访问第三方网页,公众号可以通过微信网页授权机制,来获取用户基本信息,进而实现业务逻辑. 关于网页授权回调域 ...

  7. 10分钟学会Linux

    10分钟学会Linux有点夸张,可是能够让一个新手初步熟悉Linux中最重要最主要的知识,本文翻译的英文网页在众多Linux入门学习的资料中还是很不错的. 英文地址:http://freeengine ...

  8. 三分钟学会使用Derby数据库

    Derby数据库是一个纯用Java实现的内存数据库,属于Apache的一个开源项目.由于是用Java实现的,所以可以在任何平台上运行:另外一个特点是体积小,免安装,java1.6开始集成了derby数 ...

  9. 5分钟学会使用Less预编译器

    5分钟学会使用Less预编译器 Less是什么? LESS CSS是一种动态样式语言,属于CSS预处理语言的一种,它使用类似CSS的语法为CSS赋予了动态语言的特性,如变量.继承.运算.函数等,更方便 ...

  10. 【grunt第二弹】30分钟学会使用grunt打包前端代码(02)

    前言 上一篇博客,我们简单的介绍了grunt的使用,一些基础点没能覆盖,我们今天有必要看看一些基础知识 [grunt第一弹]30分钟学会使用grunt打包前端代码 配置任务/grunt.initCon ...

随机推荐

  1. Linux系统之Ubuntu

    常用命令: #查看安装包 dpkg -l 1)切换镜像源 本身的镜像都是国外的,下载依赖包太慢, 需要替换成国内镜像地址 国内镜像源推荐阿里 OPSX 源: https://opsx.alibaba. ...

  2. C#/.NET/.NET Core优秀项目和框架2024年11月简报

    前言 公众号每月定期推广和分享的C#/.NET/.NET Core优秀项目和框架(每周至少会推荐两个优秀的项目和框架当然节假日除外),公众号推文中有项目和框架的详细介绍.功能特点.使用方式以及部分功能 ...

  3. R机器学习:特征工程与特征选择的介绍

    两个月没更新了,没有其它理由,就是懒惰,间接持续性的懒惰,一直持续了2个月,简直懒惰!!!大家的好多的私信也没回就过期回不了了.请大家批评我!!!. 看了很多高深的算法之后,实在是看不太明白,所以今天 ...

  4. ChatGPT生成接口测试用例(一)

    接口测试在软件开发生命周期中扮演着至关重要的角色,有助于验证不同模块之间的交互是否正确.若协议消息被恶意修改,系统是否能够恰当处理,以确保系统的功能正常运行,不会出现宕机或者安全问题. 5.1 Cha ...

  5. 【Linux】当初的学习笔记

    目录 Linux 笔记 linux基本概念 linux终端四部分 linux的实质 linux系统操作命令 查询用户 who who -H whoami 修改密码 快速切换到用户目录 sshd sys ...

  6. Qt编写物联网管理平台34-地图按钮

    一.前言 地图按钮很常见,这也是用户给钱就干的一个模块.设备现场提供了对应的地图文件,其实就是图片文件,做的简单点就是直接CAD图纸转成jpg,做的精致点就是搞了3D风格的立体样式图片,其实还是图片, ...

  7. 在Win7操作系统上安装VS2017报错:安装程序清单签名验证失败

    方法1: 开始-运行-gpedit.msc-计算机配置-Windows 设置-安全设置-本地策略-安全选项-系统机密:将FIPS兼容算法用于加密.哈希和签名-设置禁用-退出安装程序,重新安装一次.亲测 ...

  8. 如何通过C#修改Windows操作系统时间

    C#的System.DateTime类提供了对日期时间的封装,用它进行时间的转换和处理很方便,但是我没有在其中找到任何可以用来修改系统时间的成员.用过VC.VB等的朋友可能知道,我们可以调用Win32 ...

  9. [转]在Eclipse整合Maven3.6.3插件导入maven项目并编译时,控制台提示No compiler is provided in this environment. Perhaps you are running on a JRE rather than a JDK?

    近日有同事遇到在编译Maven项目时出现[ERROR] No compiler is provided in this environment. Perhaps you are running on ...

  10. 利用Navicat向MySQL数据库中批量插入多条记录的方法

    利用Navicat向MySQL数据库中批量插入多条记录的方法: 1.执行包含多条记录的SQL脚本 当VALUES后面的值与表中的字段相比,缺少某些字段时,可采用指定相应的字段名的方式批量插入数据: I ...