- 空姐 偷拍 福彩3D第2025101期关公胆码杀号图
- 人体艺术照 以产业向新助力经济向好(驳斥员不雅察)
- 肛交 哭 一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还
- 人体艺术照 2025年4月26日世界主要批发市集白蒜6.0公分价钱行情
- 女生 自慰 祥瑞控股醇氢科技:解码绿色能源新旅途
人体艺术照 CVPR‘25跨模态因果对皆,让机器更懂视觉把柄
跨模态因果对皆人体艺术照,让机器更懂视觉把柄! 来自中山大学、新加坡南洋理工大学等团队建议跨模态因果对皆框架(CRA),通过因果侵犯和跨模态对皆,权臣普实时空定位的准确性与可解释性。 关联论文已被 CVPR 2025 接纳,代码已开源。 事情是这么的—— 连年来跟着多模态大模子的发展,视频问答(VideoQA)任务——要求模子根据视频骨子回答天然道话问题——性能权臣普及。 但是,现存模子时常依赖测验数据中的统计偏差(如道话要道词与谜底的虚假关联),而非真实的因果视觉把柄,导致回答清寒可解释性。 举个栗子~ 举例下图中,当视频中出现"婴儿"和"女性"时,模子可能仅因二者高频共现而给出谜底,却忽略真实因果事件(如"女性抱起婴儿")。 也等于说,天然收尾答对了,但过程中模子继承的是虚假的视觉依据。 针对访佛情况,为提供可靠的视觉把柄撑握,视频问答定位(VideoQG)任务应时而生,要求模子同期输出谜底相等对应视频片断的时刻区间。 但现存才调濒临两大挑战: 多模态偏差:视频与道话中的沾污身分(如高频要道词、短时视觉特征)导致模子学习虚假关联; 弱监督支配:标刺目频片断资本漂后,现存模子依赖视频问答(VideoQA)的弱监督信号,难以精确定位。 以上等于 CRA 框架降生的配景。 此外,中山大学 HCP-Lab 团队已将要道的因果模块集成到开源因果框架 CausalVLR 中。 该框架是一个基于 PyTorch 的 python 开源器具包,用于因果议论发现,因果推理,为多样视觉道话推理任求收场首先进的因果学习算法。 三模块驱动因果推理 现存才调常因依赖于测验数据中的统计偏差,导致模子无法准确识别与问题关联的因果视觉场景,进而产生不准确的时空定位收尾。 为克服这一问题,CRA 框架通过三个中枢模块收场了从噪声按捺、特征对皆到因果议论建模的全过程优化。 该框架在 NextGQA 和 STAR 数据集上的施行收尾标明,CRA 大约权臣普及模子的时空定位才协调因果推理的准确性,为视频问答定位任务提供了更可靠的时期经管有策画。 三个中枢模块具体张开如下: GSG:按捺噪声,聚焦要道帧 第一个,高斯平滑定位模块(GSG)。 GSG 模块通过自适合高斯滤波去噪,精确算计视频片断的时刻绝交。 它的中枢功能,是基于跨模态驻扎力算计时刻区间,通过自适合高斯滤波去噪,生成鲁棒的视频片断特征。 时期亮点主要有仨: 1、跨模态驻扎力狡计:哄骗 CLIP 视频特征与 RoBERTa 道话特征的交互,生成驱动时刻驻扎力权重; 2、自适合高斯滤波:引入可学习参数的高斯核,按捺时序上的不雄厚噪声(如无关配景帧),杰出要道事件区域(下图); 3、动态阈值分割:根据平滑后的驻扎力散布,动态截取高反馈区间,普及定位精度。 消融施行清楚,移除高斯滤波(GSG w/o GS)会导致 IoU@0.5 着落 2.2%(下表),诠释其对噪声按捺的要道作用。 △GSG 消融施行,其中 SGG w/o GS †默示 GSG 在测验过程中具有高斯平滑,但在推理过程中莫得高斯平滑 CMA:弱监督下的双向对皆 第二个,交叉模态对皆模块(CMA)。 CMA 模块哄骗双向对比学习,增强视频与问答特征的对皆遵循。 它的中枢功能,是通过双向对比学习,对皆视频片断特征与问答特征,增强跨模态一致性。 时期亮点有二: 双向 InfoNCE 失掉:从解除批次中采样正 / 负样本,区别对皆视觉→道话和道话→视觉特征(公式 1-2); 动态难样本挖掘:优先选拔语义相反大的负样本,迫使模子眷注细粒度因果关联。 移除 CMA 模块后,Acc@GQA 着落 2%,IoP@0.5 着落 2.2%(下表),突显其对弱监督测验的首要性。 ECI:堵截虚假因果链 第三个,显式因果侵犯模块(ECI)。 ECI 模块则通过前门和后门侵犯,排斥多模态偏差,普及因果一致性。 它的中枢功能,是针对视觉和道话模态区别想象前门侵犯与后门侵犯,排斥多模态沾污身分。 道话后门侵犯:理会问答语义结构图(如主谓宾议论),阻断要道词与谜底的虚假旅途; 视觉前门侵犯:以视频片断为中介变量,通过特征聚类模拟搀杂因子散布,重构因果链(公式 3-4)。 施行收尾清楚,在 NextGQA 数据集上,去除了 Causal 模块后相干于 CRA 在 Acc@GQA 变成了 1.2% 的性能失掉。 性生活施行收尾:多维度性能跳跃 在 NextGQA 数据麇集,CRA 以 18.2% 杰出 Temp [ CLIP ] (NG+)2.2%,且在使用 FrozenBiLM 大模子时仍保握上风。 此外,IoP@0.5 达 28.5%,权臣优于基于 LLM 伪标注的 TimeCraft(27.8%),诠释其无需迥殊数据的高效性。 在 STAR 数据麇集,CRA 区别以 26.8% 与 27.5% 的 Acc@GQA 分数在 Temp [ CLIP ] 和 FrozenBiLM 的 Backbone 下跳跃 NG+。 而通过统计弱监督视频定位的散布情况,议论团队不错不雅察到 NG+ 局限于小区间的算计,而 CRA 所算计的区间与真实散布情况更合适。 综上,CRA 框架通过跨模态因果对皆,初次在弱监督条目下收场了视频问答定位的高精度与可解释性。 现在,CRA 框架代码已开源。 议论团队默示,CRA 为视频默契提供了新的因果推理范式,或将激动自动驾驶、智能监控等范畴的果真 AI 应用。 论文地址: https://arxiv.org/abs/2503.07635 CRA-GQA 仓库: https://github.com/WissingChen/CRA-GQA 因果框架仓库: https://github.com/HCPLab-SYSU/CausalVLR — 完 — 学术投稿请于使命日发邮件到: ai@qbitai.com 标题注明【投稿】,告诉咱们: 你是谁,从哪来,投稿骨子 附上论文 / 格式主页贯穿,以及议论形貌哦 咱们会(尽量)实时恢复你 一键眷注 � � 点亮星标 科技前沿阐述逐日见 一键三连「点赞」「转发」「戒备心」 接待在指摘区留住你的思法!人体艺术照 |