• 首页
  • 关于我们
  • 新闻中心
  • 工程案例
  • 荣誉资质
  • 诚聘精英
  • 联系我们
  • 新闻中心你的位置:开云彩票官方网站 登录入口 > 新闻中心 > 开云体育(中国)官方网站论文探索怎么使用奖励模子来进行测试时考证-开云彩票官方网站 登录入口

    开云体育(中国)官方网站论文探索怎么使用奖励模子来进行测试时考证-开云彩票官方网站 登录入口

    发布日期:2025-07-31 05:43    点击次数:59

    开云体育(中国)官方网站论文探索怎么使用奖励模子来进行测试时考证-开云彩票官方网站 登录入口

    图像生成模子开云体育(中国)官方网站,也用上念念维链(CoT)了!

    来自港汉文、北大和上海 AI Lab 的谈判团队,将 CoT 与生成模子集结到了一说念。

    实验成果标明,他们的这种次第能灵验提高自追溯图像生成的质料,以至杰出扩散模子。

    此外,作家还淡薄了两种专诚针对该任务的新式奖励模子——后劲评估奖励模子(Potential Assessment Reward Model,PARM)额外增强版块PARM++。

    其中 PARM++ 引入了反念念机制(Reflection Mechanism),进一步优化了图像生成质料。

    谈判团队不雅察到,自追溯图像生成与 LLM/LMM 具有雷同的推理架构,即:

    零乱化的 Token 暗示:不管是谈话照旧图像数据,自追溯模子都将其量化为零乱 Token,并通过沉稳测度的面目进行生成。

    沉稳解码(Step-by-Step Decoding):雷同于 CoT 在数知识题上的沉稳推理,自追溯图像生成也不错沉稳生成中间图像,并在生成经由中进行考证与优化。

    于是,类比用 CoT 推融合决数学题的决议,谈判团队贪图了用 CoT 推理进行文生图的新次第。

    具体来说,作家以"文生图"为任务场景,并使用了 Show-o 来行为 baseline 模子,谈判主要分为测试时考证(Test-time Verification)、径直偏好优化(DPO)对皆以及二者的集结 3 个部分。

    测试时考证

    最初,论文探索怎么使用奖励模子来进行测试时考证,达成了成果奖励模子(ORM)和经由奖励模子(PRM)决议。

    在两者的基础上,作家又淡薄了两种全新的针关于图像生成任务的后劲评估奖励模子(PARM)和 PARM++。

    针对成果奖励模子,论文淡薄了零样本和微调 2 种决议,均使用 Best-of-N 的面目进行考证,即进行屡次完好旅途的生成,并从中弃取出质料最高的最终图片。

    零样本 ORM 基于 LLaVA-OneVision 的 7B 版块,通过底下的 prompt 来引发其行为文生图质料评估的时刻:

    同期作家也构建了大限制的图文奖励数据来赢得微调 ORM,数据体式如下图所示:

    而关于经由奖励模子,作家使用了雷同 ORM 的决议,相通尝试了零样本和微调两种面目,并对每个设施进行 Best-of-N 的决议,即沉稳弃取出质料最高的中间阶段的生成图片。

    可是,作家发现这种 PRM 无法对图像生成有权臣的擢升。

    通过可视化,作家发现:PRM 在早期生成阶段由于图像暗昧而难以评估,而在后期生成阶段不同旅途的图片趋于相似,导致分离时刻受限。

    为了同期集结 ORM 的神圣和灵验性,以及 PRM 细粒度逐一设施考证的念念想,作家淡薄了 PARM。

    PARM 通过以下三步擢升图像生成质料:

    明晰度判断(Clarity Judgment):识别哪些中间设施的图像还是饱胀明晰,可用于后续评估。

    后劲性评估(Potential Assessment):分析刻下设施是否有后劲生成高质料的最终图像。

    最好弃取(Best-of-N ’ Selection):在高后劲旅途中弃取最好的最终图像。

    在 PARM 的基础上,作家进一步淡薄了 PARM++,使模子大概在生成缝隙时进行自我修正。

    具体来说,基于 PARM 选出的最终图片,作家最初使用 PARM++ 评估生成图片是否合适文本描绘。

    若图片不合适条目,会条目 RM 提供注意的缝隙描绘,并阐明该描绘,条目生成模子进行自我修正(Self-correction),即模子接纳反应,并参考缝隙信息从头生成成果。

    成果标明,PARM++ 进一步将 GenEval 得益擢升了 10%,生成成果在物体数目、神采、空间关系等方面愈加准确。

    径直偏好优化对皆

    作家进一步了引入 DPO 偏好对皆,即使用大限制名次数据试验模子,使其生成成果更合适东说念主类偏好。

    谈判团队构建了 288K 条图文名次数据用于试验。

    具体来说,试验经由是遴荐最大似然优化,转念模子输出,使其更偏向东说念主类偏好。

    同期,论文也进一步使用迭代 DPO,在模子优化后从头生成新数据进行再次试验。

    成果标明,首次 DPO 试验使模子在 GenEval 性能擢升 9%,而迭代 DPO 的擢升比例不错达到 12%,杰出微调 ORM。

    测试时考证与 DPO 集结

    在前述两种次第的基础上,作家探索了将测试时考证与 DPO 对皆相集结的计策,以达成端到端的优化。

    在 DPO 试验的模子基础上,作家进一步哄骗测试时考证进行筛选,使生成图像质料更高,文本一致性更强。

    实验成果标明,集结 DPO 和测试时考证后,模子在 GenEval 策划上的合座擢升达 27%,杰出了单独使用 DPO 或测试时考证的决议。

    合座上看,比拟于现存的扩散模子和自追溯模子,使用 CoT 推理灵验擢升了文本生成图像任务质料。

    论文地址:

    https://arxiv.org/abs/2501.13926

    名目地址:

    https://github.com/ZiyuGuo99/Image-Generation-CoT

    —  完  —

    投稿请使命日发邮件到:

    ai@qbitai.com

    标题注明【投稿】,告诉咱们:

    你是谁,从哪来,投稿实践‍

    附上论文 / 名目主页不绝,以及联系面目哦

    咱们会(尽量)实时复兴你

    一键温雅 � � 点亮星标

    科技前沿理会逐日见

    一键三连「点赞」「转发」「小心心」

    迎接在驳倒区留住你的主义!开云体育(中国)官方网站



    Powered by 开云彩票官方网站 登录入口 @2013-2022 RSS地图 HTML地图

    Powered by365站群