首页
智能设备
数据安全
绿色科技
栏目分类

数据安全

你的位置:未来探索网 > 数据安全 > 开源版SearchGPT来了,两张3090就可复现,卓绝Perplexity付费版

开源版SearchGPT来了,两张3090就可复现,卓绝Perplexity付费版

发布日期:2024-12-09 16:25    点击次数:68

开源版SearchGPT来了,两张3090就可复现,卓绝Perplexity付费版

VSA团队 投稿

量子位 | 公众号 QbitAI

OpenAI推出SearchGPT没几天,开源版块也来了。

港汉文MMLab、上海AI Lab、腾讯团队简单竣事了Vision Search Assistant,模子诡计马虎,惟有两张RTX3090就可复现。

Vision Search Assistant(VSA)以视觉言语模子(VLM)为基础,难懂地将Web搜索才气融入其中,让VLM里面的学问得到及时更新,使其愈加纯真和智能。

现在,VSA如故针对通用图像进行了实验,可视化和量化效果邃密。但不同类别的图像各具特质,还不错针对不同种类的图像(比如表格、医学等)构建出更为特定的VSA应用。

更令东谈主立志的是,VSA的后劲并不仅限于图像处理。还有更远大的可探索空间,比如视频、3D模子和声息等范围,期待能将多模态磋商推向新的高度。

让VLM处理未见过的图像和新成见

大型言语模子(LLM)的出现让东谈主类不错期骗模子的强盛零样本问答才气来获取生分学问。

在此基础上,检索增强生成(RAG)等时候进一步提高了LLM在学问密集型、绽放域问答任务中的发扬。但是,VLM在濒临未见过的图像和新成见时,它们经常不可期骗好来自互联网的最新多模态学问。

现存的 Web Agent主要依赖于对用户问题的检索,并归来检索复返的HTML文本推行,因此它们在处理触及图像或其他视觉推行的任务时存在昭彰的局限性,即视觉信息被惨酷或处理不充分。

为了照应这一问题,团队提倡了Vision Search Assistant。Vision Search Assistant以VLM模子为基础,约略回答磋磨未见过的图像或新成见的问题,其举止近似东谈主类在互联网上进行搜索并照应问题的过程,包括:

意会查询决定应该温顺图像中的哪些对象并意料对象之间的干系性逐对象生成查询文本根据查询文本和意料出的干系性分析搜索引擎复返的推行判断获取的视觉和文本信息是否足以生成谜底,或者它应该迭代和改变上述过程贯串检索效果,回答用户的问题

视觉推行刻画

视觉推行刻画模块被用来索求图像中对象级的刻画和对象之间的干系性,其经由如下图所示。

起始期骗绽放域的检测模子来获取值得温顺的图像区域。紧接着对每一个检测到的区域,使用VLM获取对象级的文本刻画。

临了,为了更全面地抒发视觉推行,期骗VLM进一步关联不同的视觉区域以获取不同对象的更精准刻画。

具体地,令用户输入图片为,用户的问题为。可通过一个绽放域的检测模子获取个感酷好酷好的区域:

然后期骗预磨真金不怕火的VLM模子分袂刻画这个区域的视觉推行:

为了让不同区域的信息关联起来,提高刻画的精度,可将区域与其它区域的刻画拼接,让VLM对区域的刻画进行矫正:

至此,从用户输入获取了与之高度干系的个视觉区域的精准刻画。

Web学问搜索:“搜索链”

Web学问搜索的中枢是名为“搜索链”的迭代算法,旨在获取干系视觉刻画的轮廓性的Web学问,其经由如下图所示。

在Vision Search Assistant中期骗LLM来生成与谜底干系的子问题,这一LLM被称为“Planing Agent”。搜索引擎复返的页面会被相似的LLM分析、采选和归来,被称为“Searching Agent”。通过这种表情,不错获取与视觉推行干系的Web学问。

具体地,由于搜索是对每个区域的视觉推行刻画分袂进行的,因此以区域为例,并不祥这个上标,即。该模块中使用团结个LLM模子构建决议智能体(Planning Agent)和搜索智能体(Searching Agent)。决议智能体罢休整个这个词搜索链的经由,搜索智能体与搜索引擎交互,筛选、归来网页信息。

以第一轮迭代为例,决议智能体将问题拆分红个搜索子问题并交由搜索智能体处理。搜索智能体会将每一个录用搜索引擎,得到页面聚积。搜索引擎会阅读页面节录并采选与问题最干系的页面聚积(下标集为),具体身手如下:

关于这些被选中的页面,搜索智能体会着重阅读其推行,并进行归来:

最终,整个个子问题的归来运送给决议智能体,决议智能体归来得到第一轮迭代后的Web学问:

重迭进行上述迭代过程次,或是决议智能体觉得刻下的Web学问已足矣恢复原问题时,搜索链住手,得到最终的Web学问。

协同生成

最终基于原始图像、视觉刻画、Web学问,期骗VLM回答用户的问题,其经由如下图所示。具体而言,最终的回答为:

实验效果绽放集问答可视化对比

下图中比较了新事件(前两行)和新图像(后两行)的绽放集问答效果。

将Vision Search Assistant和Qwen2-VL-72B以及InternVL2-76B进行了比较,不难发现,Vision Search Assistant 擅永生成更新、更准确、更着重的效果。

举例,在第一个样例中,Vision Search Assistant对2024年Tesla公司的情况进行了归来,而Qwen2-VL局限于2023年的信息,InternVL2明确示意无法提供该公司的及时情况。

绽放集问答评估

在绽放集问答评估中,悉数通过10位东谈主类内行进行了比较评估,评估推行触及7月15日至9月25日历间从头闻中汇集的100个图文对,涵盖新颖图像和事件的整个范围。

东谈主类内行从真确性、干系性和撑握性三个缺欠维度进行了评估。

如下图所示,与Perplexity.ai Pro和GPT-4-Web比拟,Vision Search Assistant在整个三个维度上齐发扬出色。

事实性:Vision Search Assistant得分为68%,优于Perplexity.ai Pro(14%)和 GPT-4-Web(18%)。这一显赫当先标明,Vision Search Assistant 长久提供更准确、更基于事实的谜底。干系性:Vision Search Assistant 的干系性得分为80%,在提供高度干系的谜底方面发扬出显赫上风。比拟之下,Perplexity.ai Pro和GPT-4-Web分袂达到11%和9%,表露出在保握汇集搜索时效性方面存在显赫差距。撑握性:Vision Search Assistant在为其反应提供充分把柄和情理方面也优于其他模子,撑握性得分为63%。Perplexity.ai Pro和GPT-4-Web分袂以19%和24%的得分逾期。这些效果突显了Vision Search Assistant 在绽放集任务中的不凡发扬,极端是在提供全面、干系且得到邃密撑握的谜底方面,使其成为处理新图像和事件的有用身手。禁闭集问答评估

在LLaVA W基准进行闭集评估,其中包含60个问题,触及VLM在原野的对话、细节和推理才气。

使用GPT-4o(0806)模子进行评估,使用LLaVA-1.6-7B看成基线模子,该模子在两种形态下进行了评估:圭臬形态和使用马虎Google图片搜索组件的“朴素搜索”形态。

此外还评估了LLaVA-1.6-7B的增强版块,该版块配备搜索链模块。

如下表所示,Vision Search Assistant在整个类别中均发扬出最强的性能。具体而言,它在对话类别中获取了73.3%的得分,与LLaVA模子比拟略有进步,进步幅度为+0.4%。在细节类别中,Vision Search Assistant以79.3%的得分脱颖而出,比发扬最好的LLaVA变体越过 +2.8%。

在推理方面,VSA身手比发扬最好的LLaVA模子越过+10.8%。这标明Vision Search Assistant对视觉和文本搜索的高档集成极地面增强了其推理才气。

Vision Search Assistant的举座性能为84.9%,比基线模子提高+6.4%。这标明Vision Search Assistant在对话和推理任务中齐发扬出色,使其在原野问答才气方面具有昭彰上风。

论文:https://arxiv.org/abs/2410.21220

主页:https://cnzzx.github.io/VSA/

代码:https://github.com/cnzzx/VSA

— 完 —

量子位 QbitAI · 头条号签约

温顺咱们,第一时辰获知前沿科技动态