AI权衡论文能不可中,8B超70B大模子,港大发布图文会通多智能体
GraphAgent团队 投稿
量子位 | 公众号 QbitAI
论文能不可中?不错用AI提前权衡~
港大黄超教授团队提倡多智能体自动化框架GraphAgent,能自动构建妥协析常识图谱中的复杂语义聚积,应答各类权衡和生成任务。

GraphAgent通过图生成、任务策画和任求实施三大中枢智能体的协同运作,会通谎话语模子与图话语模子的上风,得手联接了结构化图数据与非结构化文本数据,在文本回顾与关系建模方面终显然较着晋升。
实验中,在权衡性任务(如节点分类)和生成性任务(如文本生成)上,GraphAgent均得回凸起后果,仅以8B参数畛域便达到了与GPT-4、Gemini等大畛域封锁源模子相等的性能水平。
独特在零样本学习和跨域泛化等场景中,GraphAgent展现出显耀上风。
特意旨真理的是,团队将GraphAgent应用到了学术论文评审场景。
在本体投稿过程中,作家每每需要凭据评审意见准备Rebuttal薪金,而GraphAgent仅基于论文评审意见(Reviews)就能匡助作家更好地评估论文的及第可能。

GraphAgent长啥样?
实践寰球的数据呈现双重秉性:一方面是结构化的图联接数据,另一方面黑白结构化的文本与视觉信息。
这些数据中蕴含的关系聚积也分为两类:显式的联接关系(如酬酢聚积互动),以及隐式的语义依赖(常见于常识图谱)。
这种复杂性带来了三大中枢挑战:
异构数据会通:系统需要整合多种款式的信息。以学术聚积为例,论文间的援用组成了图结构关系,而标题、摘抄等文本则承载着丰富的语义信息。有用整合这些异构信息可扶直常识回顾、科学问答等应用。多脉络关系融会:本体场景中每每存在多维度的关联。举例电商平台中,用户-商品交互组成举止图谱,家具商量则形谚语义聚积。深刻融会这些多层关系有助于晋升用户-商品交互权衡的准确性。任务多元化:应用场景条件系统具备世俗的处理能力。权衡类任务包括节点分类、纠合预计等图分析;生成类任务触及图增强文本生成、常识图谱问答等。这需要系统大要活泼相宜不同任务秉性,并充分利用数据中的结构化与语义信息。
为应答上述挑战,扣问团队提倡多智能体自动化框架GraphAgent。
该框架通过三大中枢智能体的协同合营,终显然图结构与语义信息的深度会通,可同期扶直权衡型(图分析、节点分类)和生成型(文本创作)等千般化任务。
其中枢架构包括:
图生成智能体(Graph Generator Agent)任务策画智能体(Task Planning Agent)任求实施智能体(Task Execution Agent)三大智能体通过协同机制紧密合营,会通谎话语模子与图话语模子的上风,有用挖掘数据中的关系聚积与语义依赖。
底下详尽先容各个智能体的中枢功能:

图生成智能体
图生成智能体认真构建语义常识图谱(Semantic Knowledge Graph, SKG),通过革新的双阶段迭代机制终了深层语义信息的索要与整合。
该智能体的责任过程分为两个中枢阶段:
1)常识节点索要阶段
该阶段摄取自相宜的分层战术,从非结构化文本中识别多维度的常识实体:
通过定制化的系统教导,调用谎话语模子(LLM)处理输入文本利用迭代式识别技艺,同期拿获宏不雅领域办法(如”Machine Learning”)和微不雅技艺细节(如”Self-Supervised Learning”)基于多轮迭代构建脉络化常识结构,确保常识体系的完满性与连贯性2)常识形貌增强阶段
这一阶段老成晋升常识示意的丰富度与准确性:
为每个识别的节点生成详尽的语义形貌整合干系高下文信息,构建完满的常识规划摄取动态迭代更新机制:i) 将每轮形貌四肢下轮优化的基础;ii) 不绝深化和拓展常识内容;iii) 通过多轮迭代会通,最终形谚语义完备的常识图谱任务策画智能体任务策画智能体四肢框架的决策中枢,通过精密的三阶段处理机制完成复杂任务的策画与解析。
其责任过程包括:
1)意图识别与任务制定
该阶段专注于准确融会用户需求并敬佩处理战术:
深度解析用户查询,索要核情意图将任务分类为三大类型:预界说图权衡(Predictive_predefined),处理已知结构的图分析;洞开图权衡(Predictive_wild),应答未知结构的图推理;开脱生成任务(Open_generation),实施活泼的创作需求。2)图结构范例化处理
此阶段终了不同类型图数据的并吞抒发:
利用专科图构建器具(GBW_Tool)进行结构逶迤同步处理显式关系图(G_exp)与语义常识图(G_skg)设备范例化的异构图示意体系,确保处理一致性3)图文特征会通
这一阶段老成终了信息的深度整合:
结合预考试文本编码器与图神经聚积,构建双层编码体系生成文本语义与图结构的合股示意为下贱任务提供丰富的特征扶直,奠定实施基础图动作智能体图动作智能体是框架的中枢实施单位,通过革新的三维处理架构,终显然任务的精果真施与性能优化。
其责任机制包括:
1)智能化任务处理机制
针对不同类型任务摄取各别化处理战术:
权衡类任务:遐想专属系统教导,诱导模子进行精确权衡生成类任务:会通语义常识图谱,晋升文本生成的质地与干系性自相宜优化:凭据任务秉性动态调养处理过程,确保实施遵循2)深度图指示对皆技艺
革新性地终显然多脉络的模态对皆:
同类型图结构对皆:增强模子对特定图模式的融会能力跨类型常识会通:晋升处理异构图关系的准确性双向增强机制:显耀晋升模子在千般化场景下的泛化发扬3)渐进式学习战术
摄取先进的课程学习循序:
基于难度梯度的任务编排:从基础到进阶的平滑过渡密致化的考试序列遐想:确保常识蓄积的一语气性全场合性能调优:在各类任务中保持厚实的高水平发扬实验数据集建立实验评估摄取了六个各具特色的基准数据集,涵盖了不同场景和任务类型。
如Table 1所示,这些全心选拔的数据集在畛域、结构和应用领域等方面展现出显耀各别,为全面考证框架性能提供了理念念的测试基础。

为全面评估GraphAgent的通用性能,本扣问精选了六个具有代表性的基准数据集开展系统实验。这些数据集按照任务特征可分裂为三大类:
结构化图数据集: 摄取了两个经典的节点分类数据集IMDB和ACM。其中IMDB数据集包含11,616个节点,ACM数据集涵盖10,942个节点,这两个数据集都具有表示的图结构特征,为评估模子在结构化数据处理方面的能力提供了可靠基准。
文本处理数据集: 选拔了Arxiv-Papers和ICLR-Peer Reviews两个具有代表性的数据集。Arxiv-Papers构建了包含153,555个SKG节点的语义常识图,用于评估文档分类性能;ICLR-Peer Reviews则包含161,592个SKG节点,专门用于论文托福权衡任务,这些数据集体现了模子处理复短文本及语义关系的能力。
智能生成数据集: 引入了Related Work Generation和GovReport回顾两个具有挑战性的数据集。Related Work Generation基于多篇论文构建,包含875,921个SKG节点,用于考证模子的干系责任生成能力;GovReport包含15,621个SKG节点,针对长文档摘抄生成任务,这两个数据集都对模子的生成能力提倡了较高条件。
实验效果分析结构化数据权衡性能分析
为深刻评估GraphAgent在结构化图任务中的零样本学习能力,扣问团队遐想了一组的对比实验。
实验摄取IMDB数据集进行模子考试,分别在1-shot和40-shot两种低资源场景下考证模子性能,并在ACM数据集的1,000个未见节点上开展搬动测试,以评估模子的泛化能力。
实验法例标明:GraphAgent在所联系键主张上都显耀优于刻下首先进的图话语模子HiGPT,平均性能晋升向上28%。模子在40-shot建立下得回了显耀性能晋升:Micro-F1和Macro-F1均达74.98%(晋升48.5%/63.5%),AUC达80.90%(晋升27.2%)。

GraphAgent的超卓性能主要源于三项中枢技艺革新:
动身点,智能图生成机制通过自动构建语义常识图谱(SKG)为模子注入丰富的补充信息,显耀增强了复杂语义关系的融会能力;
其次,精确的任务策画机制使模子大要准确融会和解析用户意图,并为不同应用场景制定最优实施战术;
终末,革新性的双重优化战术结合了图文对皆和任务微调机制,不仅晋升了模子的基础性能,还增强了搬动学习能力,使模子即使在1-shot等低资源场景下仍能保持厚实的高性能发扬。
语义融会能力分析
为深刻评估GraphAgent在复杂语义关系处理方面的性能,扣问团队基于两个典型数据集开展了系统实验:利用Arxiv-Papers数据集进行论文分类考证,并通过ICLR-Peer Reviews数据集测试论文托福权衡能力。
通过严格的实验评估,GraphAgent在处理隐式语义依赖关系时展现出如下凸起上风:

实验法例突显了GraphAgent的三大中枢上风:
在参数畛域优化方面,仅有8B参数的GraphAgent凭借其特有的语义常识图谱架构,得手终显然对复杂语义依赖关系的精确把抓,通过多脉络语义信息的局部与全局整合,在各项评估主张上显耀超过了Llama3-70b和Qwen2-72b等大畛域模子,平均性能晋升达31.9%。
在泛化能力发扬上,GraphAgent展现出超卓的跨任务学习后劲。其多任务版块GraphAgent-General在Arxiv-Papers数据集的发扬甚而优于专门优化的单任务版块。
独特值得瞩主张是,8B畛域的GraphAgent在零样本场景下也能达到Deepseek-Chat-V2等大型闭源模子的性能水平。
在架构遵循方面,GraphAgent通过革新性地整合语义常识图谱和结构化常识示意,比拟传统的监督微调循序和GraphRAG系统,不仅显耀晋升了模子性能,还有用裁汰了输入支出,同期得手缓解了谎话语模子常见的幻觉问题。
文本生成任务
GraphAgent在图增强文本生成任务中展现出超卓发扬,通过性能评估、模子对比和架构分析三个维度的系统实验,充分考证了其凸起上风。

基于Llama3-70b和Qwen2-72b的双重对比考证标明,GraphAgent在困惑度(PPL)等中枢主张上显耀优于基线模子。不同于传统的监督微调(SFT)和GraphRAG循序,GraphAgent通过智能构建语义常识图谱,从根柢上晋升了模子的推理融会能力,有用科罚了成例微长入常识注入循序在处理复杂推理模式时的固有局限。
在架构革新和性能对标方面,GraphAgent展现出凸起上风。
以GPT-4为评判基准的实验自满,GraphAgent比拟Llama3-8b和Llama3-70b分别终显然114%和45%的性能晋升,在67%的测试案例中动身点同等畛域模子,58%的情况下超过主流开源决议。
尤为显耀的是,GraphAgent仅以8B的参数畛域和极低的计较支出便达成这些超卓后果,充分考证了基于语义常识图谱的架构遐想在增强文本生成能力方面的显耀效果。
消融实验通过系统化的消融实验(Ablation Study),扣问团队深刻评估了GraphAgent架构中三个中枢组件的性能孝顺,扣问法例揭示了以下要道发现:

语义常识图谱(SKG)的基础相沿作用:移除SKG组件导致模子性能显耀裁汰15.2%,充分阐发了自动构建的语义常识图谱在提供要道补充信息方面的不可替代性。这一发现强调了结构化常识示意对模子举座性能的决定性影响。
图文对皆机制的遑急性:实验标明,缺失图文对皆机制变成了最显耀的性能失掉,困惑度(PPL)增多达11.282。这凸起标明深脉络的图文融会能力关于需要复杂推理的生成任务至关遑急,是保险模子高质地输出的要道循序。
课程学习战术的优化效果:固然相较其他组件影响相对较小(权衡任务裁汰4.0%,生成任务PPL增多0.503),但课程学习战术的缺失仍对双任务性能产生较着负面影响。这考证了渐进式学习旅途在优化模子考试效果方面的积极作用。
终末扣问团队表露了他们的往时扣问标的,包括:
多模态能力拓展:筹画将刻下框架的处理能力推广至视觉信息领域,设备扶直关系型数据、文本内容和视觉元素的概述处理机制。这一拓展不仅包括多模态信息的融会与会通,还将重心设备跨模态常识示意和生成能力,从而终了更丰富的智能交互场景。独特暖和视觉-文本-关系的协同建模,为多模态智能系统开辟新的扣问标的。
模子性能优化:艰巨于晋升模子在复杂实践场景中的泛化发扬,重心扣问如安在保持或晋升性能的同期终了模子压缩。这触及革新的模子架构遐想、高效的参数分享机制以及先进的常识蒸馏技艺。同期,将探索计较资源优化战术,提高模子在本体部署环境中的遵循,为大畛域应用奠定基础。
应用场景推广:积极探索框架在多个本体领域的落地应用,重心暖和科学扣问辅助和买卖智能分析等高价值场景。在科研领域,将设备专门的文件分析和常识发现器具;在买卖领域,老成构建面向决策扶直的智能分析系统。同期,密切暖和新兴技艺趋势,探索在医疗健康、金融科技等领域的应用场景。
样貌地址:https://github.com/HKUDS/GraphAgent论文纠合:https://arxiv.org/abs/2412.17029实验室主页: https://sites.google.com/view/chaoh
— 完 —
量子位 QbitAI · 头条号签约
暖和咱们,第一时刻获知前沿科技动态