2024欧洲杯官网- 欢迎您&-欧洲杯投注入口Operator 擅所长理视觉交互-2024欧洲杯官网- 欢迎您&

欧洲杯投注入口Operator 擅所长理视觉交互-2024欧洲杯官网- 欢迎您&

发布日期:2025-09-28 10:13  点击次数:95

欧洲杯投注入口Operator 擅所长理视觉交互-2024欧洲杯官网- 欢迎您&

7 月 23 日音书,红杉成当天前举办了一场对话会,与 OpenAI ChatGPT Agent 团队成员深入探讨其技能创新与改日后劲。对话由红杉成本两位联合东谈主索尼娅 · 黄(Sonya Huang)和劳伦 · 里德(Lauren Reeder)共同主捏,参与 ChatGPT Agent 发布四肢的 OpenAI 团队成员伊萨・富尔福德(Isa Fulford)、凯西 · 楚(Casey Chu)和孙之清(Edward Sun)参加。

在这场对话中,他们分享了 ChatGPT Agent 的诞生历程,探讨了 ChatGPT Agent 如何团结 Deep Research 和 Operator 的上风,竣事跨领域任务的高效履行。他们还筹商了 ChatGPT Agent 的安全保险要领以及日常的应用场景。

按照 OpenAI 的设思,ChatGPT Agent 将具备更强的孤立判断才略,粗略把柄每个用户的民风和需求提供定制化业绩,并撑捏语音、笔墨、图像等多种交流神志。改日,OpenAI 将打造通用超等智能体,粗略处理东谈主类在计较机上的近乎所有任务。

以下为对话内容精简版:

主捏东谈主:今天,咱们将与 OpenAI 团队的富尔福德、凯西 · 楚和孙之清共同探讨 AI Agent 的演进历程。你们诞生了全新的 ChatGPT Agent,请先容一下它的中枢功能和首要打破。

富尔福德:感谢邀请咱们参加节目。ChatGPT Agent 是 Deep Research 和 Operator 团队配合诞生的恶果。这款 AI Agent 粗略履行复杂且耗时长达一小时的多门径任务。咱们为它配备了一个编造计较机环境,集成了文本浏览、视觉浏览、末端走访和 API 集成等功能,所有这些用具分享气象,访佛于东谈主类使用计较机时多个应用标准分享文献系统。

这种联想让 ChatGPT Agent 粗略天真处理各式复杂任务,权贵升迁效率和才略。咱们对这款模子在多轮对话中的阐扬尤为舒畅,它能捏续处理任务并不休改进。改日,咱们但愿进一步增强个性化和缅想功能,使 ChatGPT Agent 粗略在无需用户主动发起的情况下履行任务。

出身与演进主捏东谈主:能否分享一下这个项意见发祥故事?它是如何初始的?

凯西 · 楚:这个项目源于 Deep Research 和 Operator 两个家具的团结。2025 年 1 月,咱们发布了 Operator,它粗略履行在线购物等互联网任务。

两周后,咱们推出了 Deep Research,专注于浏览和概述相聚信息,生成带有引文的详备说合证明。在制定改日发展道路时,咱们意志到这两个家具不错互补。

Operator 擅所长理视觉交互,举例点击网页元素,而 Deep Research 更擅所长理文本信息,举例阅读长篇著述。用户反馈走漏,他们但愿 Deep Research 能走访付费内容,而 Operator 已具备这种才略。因此,将两者团结是一个自但是然的选用。

孙之清:咱们的团队通过息争 Deep Research 和 Operator 的架构,竣事了才略的渊博飞跃。所有用具分享气象,用户不错在文分内析、视觉浏览和代码履行之间畅达切换。咱们莫得事先编程用具的使用形状,而是通过强化学习,在数千个编造机上让模子自行发现最好计谋。

这种方法使 ChatGPT Agent 粗略与用户配合数小时,提议澄莹问题并接受任务中的改变,极地面膨胀了与 AI 智能体的交互神志。咱们还面对安全性和任务复杂性等挑战,举例日历选用对 AI 仍是一个难堪。微型团队通过全心的数据筛选竣事了打破,标明 AI 发展进入了一个新阶段,家具知悉与计较才略相同进击。

富尔福德:ChatGPT Agent 粗略履行需要东谈主类滥用无数时刻的复杂任务。咱们为它提供了一个编造计较机环境,包含多种用具:文本浏览器(访佛于 Deep Research 用具),用于高效得回在线信息;视觉浏览器(访佛于 Operator 用具),粗略与图形用户界面交互,撑捏点击、输入表单、鼎新和拖动等操作;以及末端用具,用于运行代码、分析文献、生成电子表格或幻灯片等恶果物。

此外,通过 API 集成,ChatGPT Agent 不错走访 GitHub、Google Drive、SharePoint 等业绩,所有用具分享气象,访佛于东谈主类计较机上的应用标准分享文献系统。这种联想使 ChatGPT Agent 粗略天真搪塞复杂任务,为用户提供刚劲撑捏。

主捏东谈主:能否详备谈谈这个团结的流程?如何竣事" 1+1 大于 2 "的效果?

凯西 · 楚:咱们的团队分裂诞生了 Operator 和 Deep Research。Operator 擅所长理视觉交互,举例在网页上点击或填写表单,但不擅长阅读长篇著述;Deep Research 则擅长高效浏览和概述文本信息,但难以处理交互性强的视觉元素。咱们审视到用户在 Operator 上尝试 Deep Research 类型的任务,举例"说合旅行然后预订"。

因此,将两者团结是天然的选用。咱们不仅交融了这两个用具,还加入了末端用具、图像生成用具和 API 调发愤能,使 ChatGPT Agent 粗略履行更日常的任务。举例,末端用具不错运行号令进行计较,图像生成用具不错为幻灯片添加视觉元素,API 调用不错生成 PowerPoint 演示文稿。

孙之清:这种团结权贵增强了 ChatGPT Agent 的才略。举例,它不错用文本浏览器高效搜索信息,然后切换到视觉浏览器稽查图片或交互元素,以致在末端中运行代码生成恶果物。所有用具分享气象,使 ChatGPT Agent 粗略像东谈主类一样无缝操作不同应用标准。

咱们的团队成员埃里克(Eric)分析了用户在 Operator 上的领导,发现很多任务波及 Deep Research 类型的需求,举例"说合旅行然后预订",这进一步考据了团结的必要性。

多场景任务才略

主捏东谈主:ChatGPT Agent 的具体应用场景有哪些?用户如何使用它?

富尔福德:咱们挑升联想了一个绽开式的智能体,定名为" ChatGPT Agent ",饱读吹用户探索后来劲。咱们进修它处理 Deep Research 任务,举例生成详备证明;进修它完成 Operator 任务,举例预订航班或在线购物;以及数据分析任务,举例创建电子表格或幻灯片。其天真性让咱们期待用户会发现更多未尝预思的用途。

举例,Deep Research 用户不测发现了代码搜索功能。咱们但愿 ChatGPT Agent 在消费者和企业场景中齐能确认作用,举例匡助专科用户生成详备证明,或为个东谈主用户筹划四肢。不管是消费者恭候 30 分钟得回详备证明,照旧企业用户在责任中使用,它齐能胜任。

凯西 · 楚:我个东谈主用它处理 Google Docs 中的数据,生成展示数据的幻灯片。另一个趣味的案例是,我用它说合古 DNA 领域的新进展。由于该领域信息散播且穷乏概述参考而已,ChatGPT Agent 粗略从相聚上采集信息,概述成证明或幻灯片,极地面简化了我的责任。

孙之清:我用它进行在线购物,尤其是需要视觉浏览的场景,举例通过搜索过滤器稽查商品图片或选用名目。它在筹划四肢方面也相称有用,举例安名次程或四肢。我最心爱的购物任务是购买衣着,因为很多网站需要视觉浏览器来处理搜索过滤器或稽查商品外不雅。

主捏东谈主:你们之前还展示了一个很酷的案例,能否分享一下?

富尔福德:天然!咱们的共事让 ChatGPT Agent 基于相聚信息估算 OpenAI 的估值,生成财务模子,包括电子表格、回归分析和展示收尾的幻灯片。这个任务耗时 28 分钟,展示出它处理万古刻任务的才略。ChatGPT Agent 的预测十分果敢,并且幻灯片的质料令东谈主印象深远!

凯西 · 楚:这个案例开启了一种新范式:用户提议任务后不错离开,ChatGPT Agent 在一段时刻后复返详备证明。跟着 ChatGPT Agent 变得更具自主性,任务时刻可能更长,这是一个很好的例证。

主捏东谈主:28 分钟还是很长了!你们有更万古刻的任务吗?如何确保 ChatGPT Agent 万古刻运行不偏离轨谈?

孙之清:我最近运行了一个长达一小时的任务,可能是咱们见过的最万古刻任务。为了确保安靖性,咱们诞生了用具膨胀 ChatGPT Agent 的落魄文长度,使其纪录任务进展,冉冉完成复杂任务。

此外,咱们联想了天的确东谈主机交互机制,用户不错随时创新 ChatGPT Agent、提供特等指示或条件气象更新。举例,用户不错条件它回归现时进展,或补充指示,举例"我只思要蓝色通顺鞋"。

富尔福德:这种配合形状效法了东谈主们通过 Slack 交流的神志。ChatGPT Agent 会在需要时筹商权限或澄莹问题,举例在履行碎裂性操作或需要登录时征求用户愉快。

咱们的界面还允许用户及时监控 ChatGPT Agent 的操作,以致在职务完成后收受编造计较机环境,举例登录账户或输入信用卡信息。这种"不雅察共事操作并随时接办"的体验相称直不雅,增强了用户对 ChatGPT Agent 的适度感。

进修与打破主捏东谈主:从技能角度看,ChatGPT Agent 是如何进修的?

凯西 · 楚:咱们领受了强化学习(RL)技能,在编造机环境中为它提供文本浏览器、GUI 浏览器、末端和图像生成用具等。

咱们联想了复杂任务,让 ChatGPT Agent 通过考验发现最好用具使用计谋,并把柄任务完成的质料和效率赐与奖励。举例,ChatGPT Agent 可能先用文本浏览器搜索餐厅信息,再用 GUI 浏览器稽查菜品图片和预订可用性,或从网站下载数据后在末端中处理。这种分享气象的用具联想使 ChatGPT Agent 粗略无缝切换用具,完成种种化任务。

富尔福德:与以往的用具使用不同,所有用具分享气象,访佛于东谈主类在计较机上使用多个应用标准。这种联想使 ChatGPT Agent 能高效处理互联网、文献系统和代码等交互任务。咱们莫得事先指定用具使用法例,而是让模子通过强化学习自行发现最好计谋,效果近乎神奇。强化学习的数据需求远小于预进修,咱们通过全心筛选的高质料数据集西宾模子生人段。

孙之清:强化学习相称数据高效,咱们只需极少高质料数据集就能西宾生人段。举例,咱们创建了种种化的任务集,包括查找小众信息、撰写长篇证明等。只消能评估输出质料,强化学习就能有用升迁性能。为了让 Operator 功能阐扬致密,咱们在昔时两三年里参加无数时刻,使模子粗略解析视觉元素和页面交互,为现时的 ChatGPT Agent 奠定了基础。

主捏东谈主:这种强化学习方法是 OpenAI 进修 AI 智能体的圭臬方法吗?

富尔福德:咱们以为这种方法后劲渊博。此次发布是咱们团队合作后的最简可行家具(Minimum Viable Product,MVP),但已展现刚劲才略。举例,幻灯片生见效用已相称出色,感谢繁多团队成员的努力。咱们肯定通过相同的技能不错进一步升迁,但可能还需引入其他技能。

凯西 · 楚:这种方法相称神奇,相同的强化学习算法适用于 Deep Research、Operator 以及当今的计较机使用 ChatGPT Agent。咱们在短时刻内取得了这些恶果,改日还有很大升迁空间。

主捏东谈主:强化学习在交互性方面有什么极端的进修方法吗?

孙之清:咱们主要关怀端到端性能,从用户领导到任务完成。ChatGPT Agent 在与用户交互方面阐扬致密,部分原因是咱们在进修中纳入了种种化的任务轨迹。用户可随时骚动,提供澄莹或改变,它也能把柄反馈调换行动。

主捏东谈主:早期的 World of Bits 项目(OpenAI 诞生的通用 AI 进修平台)尝试用强化学习适度鼠标旅途,但问题过于复杂。当今有什么变化使这个问题变得可解?

孙之清:ChatGPT Agent 的诞生可回首到 2017 年的 World of Bits 项目,咱们戏称其为" World of Bits 2 "。最大的变化是进修鸿沟的升迁,不管是预进修照旧强化学习,计较量可能加多了数十万倍。数据鸿沟和计较才略的升迁使咱们的方针得以竣事。

如何驻守"失控" 主捏东谈主:ChatGPT Agent 在履行外部操作时,如何确保安全性和可靠性?

富尔福德:由于 ChatGPT Agent 粗略与外部宇宙交互,举例走访网站或调用 API,安全是中枢关怀点。

比拟 Deep Research 的只读形状,ChatGPT Agent 可能激发更大风险,举例在完成任务时履行不测的碎裂性操作,如购买 100 个不同选项以确保用户舒畅。为此,咱们实施了多档次安全要领,包括里面和外部红队测试、及时监控系统(访佛于防病毒软件)以及快速反馈新要挟的契约。咱们极端关怀生物风险等严重问题,举例驻守 ChatGPT Agent 被用于创建生物火器。

凯西 · 楚:互联网充满风险,存在垂纶膺惩、诓骗等要挟。咱们的模子经过安全进修,能识别部分风险,但无意可能过于急于完成任务而被糊弄。咱们诞生了一个及时监控系统,查抄 ChatGPT Agent 的行动,若发现可疑操作(如走访额外网站),会立即暂停任务。

此外,咱们有契约快速反馈新要挟,访佛于更新防病毒软件。感谢公司生物风险团队的缓解责任,咱们进行了数周的红队测试,确保模子不会被用于无益用途。

富尔福德:安全进修是一个跨团队努力,波及安全、治理、法律、说合和工程团队。咱们在每个层面实施了防护要领,并将不时迭代以搪塞新要挟。举例,咱们确保 ChatGPT Agent 在履行敏锐操作(如登录银行账户)前会征求用户许可。

背后的团队配合东捏东谈主:诞生团队是如何配合的?鸿沟如何?

富尔福德:咱们的团队由 Deep Research 和 Operator 的说合与应用团队合并而成,总东谈主数并未几。Deep Research 团队当先只好 3-4 东谈主,Operator 团队约 6-8 东谈主,加上由亚什・库马尔(Yash kumar)指示的优秀工程和家具联想团队。说合与应用团队致密合作,从界说家具功能到模子进修均以用户场景为导向。这种小团队配合使咱们在短时刻内取得了权贵恶果。

凯西 · 楚:说合与应用团队的界限并不严格。应用工程师参与模子进修,说合东谈主员也参与模子部署。这种跨职能合作使项目充满活力,团队氛围相称好。富尔福德和我是老一又友,这种默契也促进了团队合作。

孙之清:小团队能成立大事。咱们在几个月内完成了这个项目,说合与应用团队从一初始就共同界说家具功能,确保以用户需求为导向。诚然 ChatGPT Agent 尚未十足竣事所有方针,但这种框架使咱们粗略快速迭代。

主捏东谈主:进修流程中最大的挑战是什么?

孙之清:进修的安靖性是一个渊博挑战。Deep Research 只波及文本浏览和 Python,而 ChatGPT Agent 需同期处理多种新用具,如 GUI 浏览器、末端、图像生成用具和 API 调用,所有这些齐在并吞编造机环境中运行。咱们需要同期运行千千万万的编造机走访相聚,频繁碰到网站宕机、API 限制或相聚容量不及等问题。

举例,某些网站可能因流量过载而暂时不行用,或者 API 调用因速度限制而失败,这条件咱们在进修中加入鲁棒性机制,确保 ChatGPT Agent 能处理这些额外情况。尽管面对这些挑战,咱们通过优化编造机环境和改进进修算法,最终见效进修了模子,使其在种种化任务中阐扬出色。

富尔福德:改日,咱们但愿进一步升迁 ChatGPT Agent 的多轮对话才略、个性化和缅想功能。目下,所有任务齐由用户发起,但咱们设思 ChatGPT Agent 改日粗略自主识别用户需求并主动履行任务。举例,它可能把柄用户历史行动预测需求,自动生成证明或筹划四肢。

咱们也在探索新的用户界面和交互形状,举例更直不雅的非聊天式交互神志、语音指示或图形化界面等,以升迁用户体验。此外,咱们商酌优化 ChatGPT Agent 的落魄文料理,使其在万古刻任务中更好地保捏任务连贯性,同期减少对计较资源的依赖。

凯西 · 楚:从编码角度看,我发现 ChatGPT Agent 在代码搜索和微型代码裁剪方面阐扬优异,因为它能准确读取文档并减少幻觉。举例,它不错通过 API 走访 GitHub,搜索特定代码库并索要相干代码片断。我用它处理访佛 o3 的交互式编码任务,而 Codex 更合乎处理明确界说的问题。用户会发现更多新用例,如 Deep Research 用户发现的代码搜索功能。

改日,咱们但愿 ChatGPT Agent 在编程任务中进一步升迁,比如撑捏更复杂的代码调试或自动化生成完整应用标准。此外,咱们正在说合如何让 ChatGPT Agent 更好地解析用户意图,举例在代码裁剪中自动猜度用户思要的功能,而无需详备指示。

打造通用超等智能体主捏东谈主:你们会诞生专门的子智能体,举例财务分析智能体或四肢规划智能体,照旧坚捏单一超等智能体的愿景?

富尔福德: 咱们倾向于打造一个通用的超等智能体。要是一个智能体能把柄需求天真调用所有用具,就像一位万能的首席幕僚,这将是浅薄高效的处理决议。

咱们的进修数据走漏,不同任务之间存在正向移动,举例在购物任务中学习到的视觉交互手段可应用于说合任务中的网页导航。因此,单一智能体模子在膨胀性和通用性上更具后劲。咱们但愿通过捏续优化,让 ChatGPT Agent 粗略无缝处理摧毁单查询到复杂责任流的各式任务,减少用户对多个专用模子的依赖。

凯西 · 楚:诚然在家具发布时,定制化模子可能有市集价值,但从进修角度看,通用智能体能更好地附近手段的可移动特色。举例,ChatGPT Agent 在购物任务中可能使用末端进行预合计较,无需专门的财务分析用具。咱们也在探索如何通过强化学习进一步提高它的泛化才略,举例让它在碰到全新任务时快速得当,而无需无数特等进修数据。改日,ChatGPT Agent 可能通过学惯用户反馈,动态调换其行动形状,进一步升迁任务完成的精确度。

孙之清:咱们的方针是让 ChatGPT Agent 处理东谈主类在计较机上履行的确凿所有任务。用户以致不错条件它‘尝试在网上赢利’,尽管目下履行尚不竣工。咱们将通过迭代部署提高任务完成的质料和准确性。举例,咱们商酌优化 ChatGPT Agent 在复杂任务中的决策流程,减少诞妄操作的可能性,同期提高其在动态环境中的得当才略。此外,咱们但愿通过用户反馈和本体使用数据,捏续改进 ChatGPT Agent 的性能,使其在处理跨领域任务时愈加智能和高效。

主捏东谈主:预测改日,你们对 ChatGPT Agent 的愿景是什么?

富尔福德:咱们为 ChatGPT Agent 提供了涵盖东谈主类在计较机上所能完成大部分任务的用具集。咱们将勤奋于升迁模子在种种化任务上的阐扬,优化用户交互体验,探索新的交互形状,举例更个性化的缅想功能或自主任务发起。

咱们但愿 ChatGPT Agent 改日粗略自主感知并反馈用户需求。举例,ChatGPT Agent 可能把柄用户日程自动筹划会议,或把柄历史偏好保举个性化处理决议。

凯西 · 楚:咱们对改进用户界面和体验感到得意。现时基于聊天的交互仅是起原,改日可能有更多创新友互神志,举例基于手势或多模态输入的界面。

咱们但愿用户发现 ChatGPT Agent 的新才略,如 Deep Research 用户发现的代码搜索功能。举例,ChatGPT Agent 在数据科学任务中已卓绝东谈主类基准,感谢共事约翰 · 布莱克曼(John Blackman)在电子表格和数据分析方面的努力。改日,咱们商酌让 ChatGPT Agent 在数据处理和可视化方面进一步升迁,举例自动生成交互式仪容板。

孙之清:自 1 月发布 Operator 以来,咱们权贵提高了点击和表单填写的准确性,尽管日历选用等任务仍有改进空间。咱们为 ChatGPT Agent 提供了通用用具集,涵盖东谈主类在计较机上的大部分任务。改日的挑战是确保模子在所有任务上阐扬出色,并诞生新的交互范式,举例更天然的语音交互或及时配合用具。咱们期待用户与 ChatGPT Agent 酿成更天然的配合关系,开启 AI 智能体的新时间。

主捏东谈主:相称感谢你们的分享!道贺新家具发布欧洲杯投注入口,期待看到它的更多精彩阐扬!(文 I 腾讯科技特约编译 无忌 裁剪 I 海伦)



相关资讯
热点资讯
  • 友情链接:

Powered by 2024欧洲杯官网- 欢迎您& @2013-2022 RSS地图 HTML地图