Nanobrowser
扫码查看

可在浏览器本地运行的AI网页自动化操作智能体

Nanobrowser

综合介绍

Nanobrowser是一个开源的Chrome浏览器扩展程序。它通过AI技术来自动完成网页上的各种任务,用户可以用它来替代一些需要付费的自动化工具。这个工具的一个核心特点是它在用户的浏览器本地运行,这意味着用户的账户信息和操作数据都保留在自己的电脑上,不会发送到任何云端服务器,保证了隐私安全。它不收取订阅费,用户只需在设置中填入自己的大语言模型(LLM)API密钥,就可以直接使用,费用完全取决于API的实际用量。Nanobrowser内部设计了多个智能体协同工作,比如负责规划任务的“规划师”和负责具体网页操作的“导航员”,通过分工合作来完成复杂的网络任务。

功能列表

  • 多智能体系统: 内置多个分工明确的AI智能体(如规划师、导航员、验证器),它们相互协作,能完成复杂的网页浏览和操作任务。
  • 支持多种大语言模型(LLM): 用户可以灵活接入并更换不同的大语言模型服务商,包括OpenAI, Anthropic, Gemini, Ollama, Groq等,并能为不同的智能体指定不同的模型,以平衡成本和性能。
  • 本地化运行,保护隐私: 所有操作和数据处理都在用户本地的浏览器中完成,API密钥等敏感信息不会上传到任何外部服务器。
  • 完全免费和开源: 扩展程序本身免费使用,无任何订阅费用。代码完全开放源代码,增加了透明度。
  • 交互式侧边栏: 提供一个直观的聊天界面,用户可以在侧边栏输入指令,并实时看到任务执行的状态更新。
  • 任务自动化: 能自动执行重复性的网页操作,例如数据提取、信息搜集、内容总结等。
  • 上下文追问: 在一个任务完成后,用户可以针对结果继续提出问题,进行更深入的探索。
  • 历史记录管理: 自动保存用户与智能体的交互历史,方便随时回顾和管理。

使用帮助

Nanobrowser是一款功能强大的浏览器AI智能体,安装和使用都非常直接。下面是详细的安装和使用流程,可以帮助你快速上手。

安装方法

你可以选择两种方式来安装Nanobrowser,一种是直接从Chrome应用商店安装稳定版,另一种是手动安装获取最新版。

方法一:从Chrome应用商店安装(推荐)

这是最简单快捷的安装方式,可以确保你使用的是稳定的版本。

  1. 打开Chrome浏览器,访问 Nanobrowser在Chrome应用商店的页面
  2. 点击页面右上角的“添加到Chrome”按钮。
  3. 浏览器会弹出确认窗口,点击“添加扩展程序”进行确认。
  4. 安装完成后,Chrome浏览器的右上角工具栏会出现Nanobrowser的图标。

方法二:手动安装最新版本

Chrome应用商店的版本更新需要审核,可能会有延迟。如果你想立即体验最新的功能,可以选择手动安装。

  1. 下载文件:访问Nanobrowser的 官方Github发布页面。在最新版本中,找到名为 nanobrowser.zip 的文件并下载到你的电脑。
  2. 解压文件:找到下载好的 nanobrowser.zip 文件,并将其解压缩到一个固定的文件夹中,例如解压到 D:\Tools\nanobrowser
  3. 在Chrome中加载扩展:
    • 在Chrome浏览器的地址栏输入 chrome://extensions/ 并按回车,进入扩展管理页面。
    • 在页面右上角,找到并打开“开发者模式”的开关。
    • 启用后,页面左上方会出现“加载已解压的扩展程序”按钮,点击它。
    • 在弹出的文件选择窗口中,选择你刚刚解压缩的 nanobrowser 文件夹。
    • 加载成功后,Nanobrowser就会出现在你的扩展列表中,并且图标也会显示在浏览器工具栏上。

配置与使用

安装完成后,你需要配置大语言模型(LLM)的API密钥,才能让智能体开始工作。

  1. 打开侧边栏:在浏览器工具栏中点击Nanobrowser的图标,屏幕右侧会滑出它的交互侧边栏。
  2. 进入设置:在侧边栏的右上角,找到并点击齿轮形状的“设置”图标。
  3. 添加API密钥:在设置页面,你会看到不同LLM服务商的输入框。将你拥有的大语言模型API密钥粘贴到对应的输入框中。例如,如果你有OpenAI的密钥,就粘贴到OpenAI的栏目下。
  4. 为智能体选择模型:Nanobrowser的独特之处在于,你可以为不同的智能体(Planner、Navigator、Validator)选择不同的模型。
    • Planner (规划师): 负责理解你的高级指令,并将其分解成具体的可执行步骤。建议使用推理能力强的模型,如 Claude 3.7 Sonnet 或 GPT-4o
    • Navigator (导航员): 负责执行具体的网页浏览操作,如点击按钮、填写表单。可以使用速度快、成本低的模型,如 Claude 3.5 Haiku 或 Gemini 2.0 Flash
    • Validator (验证器): 负责检查任务是否已正确完成。同样建议使用推理能力较强的模型。

    配置建议:

    • 高性能配置: Planner和Validator使用 Claude 3.7 Sonnet,Navigator使用 Claude 3.5 Haiku
    • 高性价比配置: Planner和Validator使用 Claude Haiku 或 GPT-4o,Navigator使用 Gemini 2.0 Flash 或 GPT-4o-mini
    • 本地模型配置: 你也可以通过Ollama等工具在本地运行模型,然后在设置中选择Custom OpenAI-Compatible providers,实现完全离线和零API费用。

开始使用

配置完成后,你就可以通过自然语言指令来让Nanobrowser为你工作了。

  1. 发出指令:在侧边栏的聊天框中,输入你想要完成的任务。指令越清晰、越具体,执行效果越好。
    • 简单任务: “访问TechCrunch网站,然后告诉我今天最新的5条新闻标题。”
    • 复杂任务: “去亚马逊网站,帮我找一款价格低于50美元、防水、电池续航至少10小时的便携蓝牙音箱。”
    • 研究任务: “访问GitHub的trending页面,找出过去一周星标数最多的3个Python项目。”
  2. 观察执行过程:发出指令后,你可以在侧边栏实时看到智能体的工作状态。Planner会首先分析你的需求,然后Navigator会开始在网页上执行点击、滚动、提取信息等操作。如果遇到问题,Planner还会自我修正并指导Navigator调整方案。
  3. 进行追问:当任务完成后,结果会显示在侧边栏。你可以基于这些结果继续提问,例如:“把刚刚找到的3个Python项目地址都发给我。”

通过以上步骤,你就可以充分利用Nanobrowser来提升网页信息获取和处理的效率。

应用场景

  1. 新闻与资讯聚合对于需要每天浏览大量行业网站、新闻门户的用户,可以使用Nanobrowser自动访问这些网站,并提取出最关键的信息。例如,可以设定指令:“每天早上访问Hacker News和TechCrunch,总结各自首页的前5条标题和链接,并整理在一个列表里。”
  2. 市场与竞品调研市场分析师或产品经理可以利用它来自动搜集竞争对手的产品信息或用户评论。例如:“访问亚马逊网站,搜索‘无线吸尘器’,找出排名前10的产品,并列出它们的价格、评分和差评中提到最多的三个问题。”
  3. 学术研究资料搜集学生和研究人员可以用它来自动在学术数据库或GitHub上搜寻相关领域的最新论文和开源项目。例如:“去GitHub上搜索带有‘agent-based model’标签的Python项目,并列出过去一个月内更新最活跃的三个项目及其简介。”
  4. 电商购物比价普通消费者在购物前,可以用它来自动完成跨平台比价。例如:“帮我在淘宝和京东上搜索同一款‘任天堂Switch OLED’游戏机,并告诉我哪个平台的价格更低。”

QA

  1. Nanobrowser安全吗?我的API密钥会泄露吗?Nanobrowser在设计上将隐私和安全放在首位。它是一个完全在浏览器本地运行的扩展程序,你的所有数据,包括输入的API密钥和浏览历史,都存储在你自己的电脑上,不会被发送到任何开发者或第三方服务器。代码是开源的,任何人都可以审查其安全性。
  2. 为什么我需要自己提供API密钥?它不是免费的吗?Nanobrowser工具本身是100%免费和开源的,不收取任何订阅费。它扮演的是一个连接你和大型语言模型(LLM)的“执行器”角色。你需要提供自己的API密钥,是因为实际的AI计算和推理是由OpenAI、Anthropic这些外部服务商完成的,你需要直接向他们支付所消耗的计算资源费用。这种模式让你对成本有完全的控制权,只为你使用的部分付费。
  3. 我可以同时使用多个不同公司的模型吗?可以,这是Nanobrowser的一个核心优势。你可以在设置中为不同的内置智能体(如负责规划的Planner和负责执行的Navigator)分配不同的模型。例如,你可以让Planner使用更强大但更昂贵的模型(如GPT-4o)来进行精确的任务规划,同时让Navigator使用更快速、更便宜的模型(如Claude 3.5 Haiku)来执行浏览操作,从而实现成本和性能的最佳平衡。
  4. 如果任务执行失败了,我该怎么办?任务失败可能是由多种原因造成的,例如网页结构复杂、指令不够清晰或模型能力限制。你可以尝试以下方法解决:
    • 优化指令:尝试将一个复杂的任务分解成几个更简单、更具体的步骤,然后分步下达指令。
    • 更换模型:如果当前的模型配置无法完成任务,可以尝试为Planner更换一个推理能力更强的模型。
    • 查看社区:可以加入官方的Discord社区, সেখানে其他用户分享的成功案例和指令模板,或者直接向社区和开发者求助。
微信微博Email复制链接