使用browser-use进行数据爬取实战记录

前言

前面的文章介绍了browser-use的基本使用，今天带来的分享是使用browser-use进行一次数据爬取的实战（不过还是demo级别的）。

使用到的三个玩法分别是使用自己的浏览器、定义输出结构与注册一个行为。

实践

使用自己的浏览器

首先解决使用自己的浏览器。

代码：

from langchain_openai import ChatOpenAI
from browser_use import Agent
from browser_use.browser.browser import Browser, BrowserConfig
from dotenv import load_dotenv
import os
load_dotenv()

import asyncio

api_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')

browser = Browser(
    config=BrowserConfig(
        # NOTE: you need to close your chrome browser - so that this can open your browser in debug mode
        # d:\Learning\AI-related\browser-use-demo\.env注意：您需要关闭您的Chrome浏览器，以便此操作可以在调试模式下打开您的浏览器
        chrome_instance_path=r'C:\Program Files\Google\Chrome\Application\chrome.exe',
    )
)

llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)

async def main():
    agent = Agent(
        task="获取https://cloud.siliconflow.cn/bills的账单信息",
        llm=llm,
        browser=browser,
        use_vision=False,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

将chrome_instance_path替换为你自己的浏览器路径。

为什么要使用自己的浏览器呢？

有一个好处就是你登录过的保存信息的网站就可以直接登录不用验证了。

就比如我想查看我硅基流动的账单一样，如果不用自己的浏览器还要进行登录操作，用自己的浏览器如果保存信息了就不用再登了。

模型我选择的是：Qwen/Qwen2.5-72B-Instruct。

查看效果：

准确获取到了我们想要的数据。

定义自定义输出

其次，我们来定义自定义输出。

代码：

from langchain_openai import ChatOpenAI
from browser_use import Agent
from browser_use.browser.browser import Browser, BrowserConfig
from dotenv import load_dotenv
import os
from pydantic import BaseModel
import asyncio
from typing import List
from browser_use import ActionResult, Agent, Controller

load_dotenv()

api_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')

browser = Browser(
    config=BrowserConfig(
        # NOTE: you need to close your chrome browser - so that this can open your browser in debug mode
        # d:\Learning\AI-related\browser-use-demo\.env注意：您需要关闭您的Chrome浏览器，以便此操作可以在调试模式下打开您的浏览器
        chrome_instance_path=r'C:\Program Files\Google\Chrome\Application\chrome.exe',
    )
)

class Bill(BaseModel):
    account_period: str
    total_consumption : float

controller = Controller(output_model=Bill)

llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)

async def main():
    agent = Agent(
        task="""
        获取https://cloud.siliconflow.cn/bills的账单信息。     
        """,
        llm=llm,
        controller=controller,
        browser=browser,
        use_vision=False,
    )
    
    result = await agent.run()
    print(result)

asyncio.run(main())

效果：

使用到了自己定义的数据结构。

注册一个行为

比如我想把结果保存到一个文件中。

代码：

from langchain_openai import ChatOpenAI
from browser_use import Agent, Controller
from browser_use.browser.browser import Browser, BrowserConfig
from browser_use.agent.views import ActionResult
from dotenv import load_dotenv
import os
load_dotenv()

import asyncio

api_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')

browser = Browser(
    config=BrowserConfig(
        # NOTE: you need to close your chrome browser - so that this can open your browser in debug mode
        # d:\Learning\AI-related\browser-use-demo\.env注意：您需要关闭您的Chrome浏览器，以便此操作可以在调试模式下打开您的浏览器
        chrome_instance_path=r'C:\Program Files\Google\Chrome\Application\chrome.exe',
    )
)

controller = Controller()
@controller.registry.action('保存结果到指定文件')
def save_to_file(text: str,file_path: str):
    with open(file_path, 'w') as f:
        f.write(text)
    return ActionResult(extracted_content=text)

llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)

async def main():
    agent = Agent(
        task="获取https://cloud.siliconflow.cn/bills的账单信息，并将结果保存到test3.txt。",
        llm=llm,
        controller=controller,
        browser=browser,
        use_vision=False,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

效果：

最后

以上就是使用browser-use进行一次数据爬取的实战记录，更多玩法可由读者自行探索。

使用browser-use进行数据爬取实战记录的更多相关文章

Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
爬虫1.5-ajax数据爬取
目录爬虫-ajax数据爬取 1. ajax数据 2. selenium+chromedriver知识准备 3. selenium+chromedriver实战拉勾网爬虫代码爬虫-ajax数据爬取 ...
Web Scraper——轻量数据爬取利器
日常学习工作中,我们多多少少都会遇到一些数据爬取的需求,比如说写论文时要收集相关课题下的论文列表,运营活动时收集用户评价,竞品分析时收集友商数据. 当我们着手准备收集数据时,面对低效的复制黏贴工作,一 ...
python实现人人网用户数据爬取及简单分析
这是之前做的一个小项目.这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~ 简单来说这个项目实现了,登录人人网并爬取用户数据.并对用户数据进行分析挖掘,终于效果例如以下:1.存储人人网用户数据( ...
芝麻HTTP：JavaScript加密逻辑分析与Python模拟执行实现数据爬取
本节来说明一下 JavaScript 加密逻辑分析并利用 Python 模拟执行 JavaScript 实现数据爬取的过程.在这里以中国空气质量在线监测分析平台为例来进行分析,主要分析其加密逻辑及破解 ...
Python爬虫股票数据爬取
前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析地址分析 http://m ...
quotes 整站数据爬取存mongo
安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取第一部分项目创建 1.进入到存储项目的文件夹,执行指令 scra ...
Ajax数据爬取
Ajax的基本原理以菜鸟教程的代码为例: XMLHTTPRequest对象是JS对Ajax的底层实现: var xmlhttp; if (window.XMLHttpRequest) { // IE ...
基于 PHP 的数据爬取（QueryList）
基于PHP的数据爬取官方网站站点简单. 灵活.强大的PHP采集工具,让采集更简单一点. 简介: QueryList使用jQuery选择器来做采集,让你告别复杂的正则表达式:QueryList具有j ...
Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...

随机推荐

解析JDBC使用查询MySQL【非流式、流式、游标】
解析JDBC使用游标查询MySQL 使用jdbc查询MySQL数据库,如果使用游标或者流式查询的话,则可以有效解决OOM的问题,否则MySQL驱动就会把数据集全部查询出来加载到内存里面,这样在大数据的 ...
Uri的解析
//最基本的划分 [scheme:]scheme-specific-part[#fragment] //对scheme-specific-part进一步划分 [scheme:][//authority ...
opencv imshow 大图片显示，拖动显示
用imshow显示大图片,不能完整显示,不方便.结合网友的代码,修改成现在的代码,可以拖动图片,方便查看完整图片.而且方便调试,只需要用MatShow替换imshow. struct MousePar ...
注册美区 Apple ID 账号！都2020年了，你还没有一个自己的海外苹果ID？
写在前面: 小伙伴们学腻了技术,不防今天来点大家都感兴趣的海外苹果 Apple ID 吧! 今天就教大家怎么注册美区 Apple ID,这个方法也是目前注册苹果美区 Apple ID 最快最简单的 ...
VB 不应该是这副模样出现
和同时代的其它语言比,VB 设计的太烂了,应景之作,充满了各种小聪明. 当时有 JS, 有 python,VB 的设计者不懂参考借鉴,给出的是一个连继承都没有的设计. VB 的语言设计问题极多, 首选 ...
Soulmate
理想之所以是理想,也就是因为它只能存在于脑海中,天上月是天上月,水中花是水中花.但我们仍可以怀揣着对乌托邦的向往,所以,我对理想中的对象设想如下: 原来形容一个女子的眉眼,我总喜欢说眉眼如黛,眉如远山 ...
《AutoCAD2020中文版基础教程》和《从零开始—AutoCAD 2020中文版基础教程》配套资源下载
<AutoCAD2020中文版基础教程>作者:姜春峰//武小紅//魏春雪中国青年出版社配套资源链接:https://pan.baidu.com/s/1kPGNKZEw2kOTGqZyXjp ...
[转]vue项目中app.vue 、main.js和 index.html的关系
参考链接: 1.vue项目中app.vue .main.js和 index.html的关联 2.Vue中index.html.main.js.App.vue,之间关系 3.关于Vue中main.js, ...
移动端弱网优化专题(十四)：携程APP移动网络优化实践（弱网识别篇）
本文由携程技术团队Aaron分享,原题"干货 | 携程弱网识别技术探索",下文进行了排版和内容优化. 1.引言网络优化一直是移动互联网时代的热议话题,弱网识别作为移动端弱网优化的 ...
kubernetes系列(五) - kubernetes网络原理
目录前言 1. kubernetes网络模型 2. kubernetes的组件之间如何通讯 2.1 同一个pod内的多容器之间 2.2 各个pod直接的通讯 2.2.1 同一个节点上的pod互相通讯 ...