1. 背景

最近本qiang~关注了一个开源项目Scrapegraph-ai，是关于网页爬虫结合LLM的项目，所以想一探究竟，毕竟当下及未来，LLM终将替代以往的方方面面。

这篇文章主要介绍下该项目，并基于此项目实现一个demo页面，页面功能是输入一个待爬取的网页地址以及想要从网页中抽取的内容，最后点击按钮实现网页抓取及解析。

2. 模块简介

2.1 Scrapegraph-ai

该项目是一个网页爬虫的python包，使用LLM和直接图逻辑(direct graph logic)来为网页和本地文档(XML, HTML, JSON)创建爬取管道(pipeline)。

2.2 GPT-3.5免费申请，且国内可访问

GPT3.5-Turbo免费申请可以在开源项目GPT_API_free进行访问，其中该项目有免费申请的地址，以及网页插件、桌面应用安装等教程，在日志工作学习中，使用起来非常丝滑~

其次，国内访问gpt3.5可以基于该项目提供的代理: https://api.chatanywhere.tech/v1来实现访问。

3. 实战

3.1 安装第三方包

# 网页开发包，和Gradio类似

pip install streamlit

# 爬虫相关包

pip install playwright

playwright install

playwright install-deps # 安装依赖

3.2 设置gpt3.5代理环境变量

import os

os.environ['OPENAI_API_BASE'] = 'https://api.chatanywhere.tech/v1'

OPEN_API_KEY = 'sk-xxxxx'

3.3 创建网页元素

import streamlit as st

st.title('网页爬虫AI agent')

st.caption('该app基于gpt3.5抓取网页信息')

url = st.text_input('属于你想抓取的网页地址URL')

user_prompt = st.text_input('输入你想要从该网页获取知识的prompt')

3.4 基于scrapegraph-ai包构建图配置以及创建图逻辑

from scrapegraphai.graphs import SmartScraperGraph

# 图配置信息，默认调用gpt3.5，其次embedding模型未设置，但阅读源码后，可以发现默认走的是openai的embedding模型

graph_config = {

    'llm': {

        'api_key': OPEN_API_KEY,

        'model': 'gpt-3.5-turbo',

        'temperature': 0.1

    }

}

# 创建直接图逻辑

smart_scraper_graph = SmartScraperGraph(

    prompt=user_prompt, # 用户输入的prompt

    source=url, # 用户输入的url

    config=graph_config

)

# 增加一个按钮进行爬取、解析及页面渲染

if st.button('爬取'):

    result = smart_scraper_graph.run()

    st.write(result)

3.5 运行启动

streamlit run scrape_web_openai.py

3.6 底层原理

通过研读SmartScraperGraph源码，底层直接图逻辑的原理如下图所示。分为抓取、解析、RAG、答案生成，并默认以json格式输出

4. 效果

4.1 新闻类

网址：ps://news.sina.com.cn/w/2024-05-20/doc-inavwrxq4965190.shtml

4.2 公众号

https://mp.weixin.qq.com/s/rFYXKiedqmVo5URDxlbHzA

针对一些简单的网页如新闻网页等，可以正常爬取，但响应时间在10s以上，针对一些复杂的页面，如包含鉴权、反爬机制等，可能无法正常爬取。

5. 总结

一句话足矣~

本文主要是通过Scrapegraph-ai集成gpt3.5实现一个简单的网页爬取并解析的demo应用，其中涉及到gpt3.5免费申请，Scrapegraph-ai底层原理简介，demo应用源码等。

之后会写一篇关于Qwen7B和BGE的相似度模型，与Scrapegraph-ai集成的demo应用，敬请期待 ~

6. 参考

1. Scrapegraph-ai: https://github.com/VinciGit00/Scrapegraph-ai

2. GPT_API_free: https://github.com/chatanywhere/GPT_API_free

LLM实战：当网页爬虫集成gpt3.5的更多相关文章

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
[resource-]Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
reference: http://www.52nlp.cn/python-%e7%bd%91%e9%a1%b5%e7%88%ac%e8%99%ab-%e6%96%87%e6%9c%ac%e5%a4% ...
实战项目：EMOS集成邮件平台
实战项目:EMOS集成邮件平台用户邮箱系统:http://mailAnonymous.cn/邮件服务器管理平台http://mailAnonymous.cn/extman 项目需求:随着公司规模不断扩 ...
Python带你轻松进行网页爬虫
前不久DotNet开源大本营通过为.NET程序员演示如何在.NET下使用C#+HtmlAgilityPack+XPath进行网页数据的抓取,从而为我们展示了HtmlAgilitypack利器的优点和使 ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
零基础入门Python实战:四周实现爬虫网站 Django项目视频教程
点击了解更多Python课程>>> 零基础入门Python实战:四周实现爬虫网站 Django项目视频教程适用人群: 即将毕业的大学生,工资低工作重的白领,渴望崭露头角的职场新人, ...
《实战Python网络爬虫》- 感想
端午节假期过了,之前一直在做出行准备,后面旅游完又休息了一下,最近才恢复状态. 端午假期最后一天收到一个快递,回去打开,发现是微信抽奖中的一本书,黄永祥的<实战Python网络爬虫>. 去 ...
Jmeter(四十五) - 从入门到精通高级篇 - Jmeter之网页爬虫-上篇（详解教程）
1.简介上大学的时候,第一次听同学说网页爬虫,当时比较幼稚和懵懂,觉得就是几只电子虫子爬在网页上在抓取东西.后来又听说写代码可以实现网页爬虫,宏哥感觉高大上,后来工作又听说,有的公司做爬虫被抓的新闻 ...
cURL 学习笔记与总结（2）网页爬虫、天气预报
例1.一个简单的 curl 获取百度 html 的爬虫程序(crawler): spider.php <?php /* 获取百度html的简单网页爬虫 */ $curl = curl_init( ...
c#网页爬虫初探
一个简单的网页爬虫例子! html代码: <head runat="server"> <title>c#爬网</title> </head ...

随机推荐

华为Push用户增长服务：精准触达，加速增长
速戳了解华为Push用户增长服务:通过精细化运营,助力开发者高效实现用户增长,提升用户活跃度和粘性! 合作咨询请点此链接了解更多详情>> 访问华为开发者联盟官网获取开发指导文档华为移 ...
Djangorestframework 记录一个报错 -- rest_framework.authentication.ToKenAuthentication
今天在使用 Djangorestframework 这个框架时,发生报错: ImportError: Could not import 'rest_framework.authentication.T ...
如何在openGauss 2.1.0中使用Job
如何在 openGauss 2.1.0 中使用 Job 如何在 openGauss 2.1.0 中使用 Job Job 类似 unix 中的 crontab,有定时执行的功能,可以在指定的时间点或每天 ...
鸿蒙HarmonyOS实战-ArkUI组件（Popup）
一.Popup Popup组件通常用于在屏幕上弹出一个对话框或者浮动窗口.这个组件通常和其他组件一起用于用户界面的交互和反馈. Popup组件可以包含任何类型的组件或内容,比如文本.按钮.输入框.图片 ...
踩坑指南：入门OpenTenBase之监控篇
本次监控将采用Prometheus.Grafana可视化工具以及postgres_exporter对OpenTenBase进行全面监控和优化. 安装监控 Docker安装 1.Docker要求 Cen ...
鸿蒙智联生态产品《接入智慧生活App开发指导》（官方更新版）
原文:https://mp.weixin.qq.com/s/BDC-12aiZz2EhtjYLR7QIg,点击链接查看更多技术内容. 在HarmonyOS Connect生态产品应用开发过程中,很多开 ...
【SSH通道数据库连接池】连接远程linix服务器上面的mysql
首先,我用的是阿里的druid数据库连接池,其次,需要第三方jar包,maven坐标如下: <dependency> <groupId>com.jcraft</group ...
鸿蒙HarmonyO实战-ArkUI动画（组件内转场动画）
前言转场动画是一种在电影.视频和演示文稿中使用的动画效果,用于平滑地切换不同的场景或幻灯片.转场动画可以增加视觉吸引力,改善观众的观看体验. 常见的转场动画包括淡入淡出.滑动.旋转.放大缩小等效果. ...
力扣844(Java)-比较含退格的字符串（简单）
题目: 给定 s 和 t 两个字符串,当它们分别被输入到空白的文本编辑器后,如果两者相等,返回 true .# 代表退格字符. 注意:如果对空文本输入退格字符,文本继续为空. 示例 1: 输入:s = ...
App隐私合规“免费”自动化检测
简介: App隐私合规检测提供了全面的隐私合规检测报告和专家建议,从确保形式合规(隐私政策文本合规性)及实质合规(代码层合规性)的一致性,从个人信息收集.权限使用场景.超范围采集.隐私政策.三方SDK ...

LLM实战：当网页爬虫集成gpt3.5