AP今日文章 | 2025-01-15

1. Dataset Distillation via Committee Voting

作者:Jiacheng Cui, Zhaoyi Li, Xiaochen Ma, Xinyue Bi, Yaxin Luo, Zhiqiang Shen
介绍:数据集蒸馏旨在合成一个较小且具有代表性的数据集,以保留原始数据的基本特性,从而实现高效的模型训练,减少计算资源的消耗。先前的研究主要集中在改善原始数据与合成数据之间的对齐或匹配过程,或在提高大型数据集蒸馏效率方面。在本项工作中,我们提出了一种新的正交方法——委员会投票数据集蒸馏(CV-DD),该方法利用多个模型或专家的集体智慧来创建高质量的蒸馏数据集。我们首先展示如何建立一个强大的基线,该基线通过利用最近的进展和对模型设计及优化过程的深思熟虑的调整,已经达到了当前最先进的准确率。通过在生成高质量软标签的同时整合来自多个模型的分布和预测,我们的方法能够捕捉更广泛的数据特征,降低模型特有的偏差及分布变化带来的负面影响,从而显著提高模型的泛化能力。这种基于投票的策略不仅促进了蒸馏数据集的多样性和鲁棒性,还显著减少了过拟合,从而提升了后评估任务的表现。我们在多个数据集和每类图像数量(IPC)上进行了广泛实验,结果表明,与单一或多模型蒸馏方法相比,委员会投票能生成更可靠且适应性强的蒸馏数据,展示了其在高效且准确的数据集蒸馏中的潜力。代码可在以下网址获取:https://github.com/Jiacheng8/CV-DD。
关键词:数据集蒸馏, 委员会投票, 代表性数据集, 模型训练, 计算资源, 合作模型, 高质量软标签, 数据特征, 模型偏差, 过拟合, 泛化能力, 实验结果, 数据集精炼, 代码实现, 计算机视觉, 人工智能
发布时间:2025年01月14日 AM02:59 (北京时间)
更新时间:2025年01月14日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


2. UnCommon Objects in 3D

作者:Xingchen Liu, Piyush Tayal, Jianyuan Wang, Jesus Zarzar, Tom Monnier, Konstantinos Tertikas, Jiali Duan, Antoine Toisoul, Jason Y. Zhang, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny
介绍:我们推出了不寻常物体3D(uCO3D),这是一种用于3D深度学习和3D生成AI的新型以物体为中心的数据集。uCO3D是最大的公开可用高分辨率物体视频集合,具有全面的360°注释覆盖。与MVImgNet和CO3Dv2相比,uCO3D在多样性上显著更胜一筹,覆盖了超过1000个物体类别。由于对收集的视频和3D注释进行了广泛的质量检查,uCO3D的质量也更高。与类似数据集类似,uCO3D包含了3D相机姿势、深度图和稀疏点云的注释。此外,每个物体都配有说明文字和3D高斯样条重建。我们在MVImgNet、CO3Dv2和uCO3D上训练了多个大型3D模型,结果显示uCO3D的表现优于其他数据集,证明了uCO3D在学习应用中的优势。
关键词:根据论文内容,以下是生成的中文关键词:

深度学习,3D重建,3D生成AI,3D数据集,3D对象识别,3D图像处理,3D视觉,3D场景理解,新颖对象识别
发布时间:2025年01月14日 AM02:59 (北京时间)
更新时间:2025年01月14日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


3. WebWalker: Benchmarking LLMs in Web Traversal

作者:Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
介绍:检索增强生成(RAG)在开放领域问答任务中显示出卓越的性能。然而,传统的搜索引擎可能会检索到肤浅的内容,限制了大规模语言模型(LLMs)处理复杂多层信息的能力。为了解决这一问题,我们提出了WebWalkerQA,这是一个评估LLMs进行网页遍历能力的基准测试。该基准测试评估LLMs系统性地遍历网站子页面以提取高质量数据的能力。我们还提出了WebWalker,这是一种多代理框架,通过探索-批评范式模拟类人网页导航。大量实验结果表明,WebWalkerQA具有挑战性,并展示了RAG与WebWalker结合的有效性,通过在实际场景中的横向和纵向集成验证了这一点。
关键词:基于提供的论文信息生成的适合的中文关键词:

web浏览器, 问答, 问答系统, 问答算法, 语言模型, 语言生成模型, 信息检索, 网页浏览, 网页检索, 多层次信息处理, 自动化web浏览, 问答评估, 语言理解, 自然语言处理

或简化为:

web浏览, 问答, 语言模型, 信息检索, 自然语言处理
发布时间:2025年01月14日 AM02:58 (北京时间)
更新时间:2025年01月14日 AM02:58 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


4. Few-Shot Task Learning through Inverse Generative Modeling

作者:Aviv Netanyahu, Yilun Du, Antonia Bronars, Jyothish Pari, Joshua Tenenbaum, Tianmin Shu, Pulkit Agrawal
介绍:学习代理的意图,定义为其目标或运动风格,通常仅通过少量示例就非常具有挑战性。我们将这一问题称为任务概念学习,并提出了我们的方法:通过反向生成建模的少样本任务学习(FTL-IGM)。该方法通过利用可逆神经生成模型来学习新的任务概念。其核心思想是先在一组基本概念及其示例上进行生成模型的预训练。然后,在获得新的概念(如新的目标或动作)的一些示例后,我们的方法通过反向传播学习其潜在概念,而无需更新模型权重,这得益于生成模型的可逆性。我们在五个领域评估了我们的方法——物体重排列、目标导向导航、人体动作的运动捕捉、自动驾驶以及真实世界的桌面操作。实验结果表明,通过预训练的生成模型,我们成功地学习了新概念,能够在(1)未见过的环境中和(2)与训练概念组合的情况下,生成与这些概念对应的代理计划或运动。
关键词:以下是根据提供的内容生成的中文关键词:, 人工智能,任务学习,逆向生成模型,神经网络,概念学习,少样本学习,环境适应,运动规划,目标导航,自主驾驶,机器人学
发布时间:2024年11月08日 AM02:55 (北京时间)
更新时间:2025年01月14日 AM02:24 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


5. Evaluating Agent-based Program Repair at Google

作者:Pat Rondon, Renyao Wei, José Cambronero, Jürgen Cito, Aaron Sun, Siddhant Sanyam, Michele Tufano, Satish Chandra
介绍:基于Agent的程序修复技术通过结合现代大型语言模型(LLMs)的规划、工具使用和代码生成能力,提供了从头到尾自动解决复杂漏洞的方案。最近的研究探索了在流行的开源软件工程基准测试集SWE-Bench上使用基于Agent的修复方法,该基准集包含来自高度评价的GitHub Python项目的漏洞。此外,还提出了多种代理方法,如SWE-Agent,用以解决该基准集中的漏洞。本文探讨了在企业环境中使用基于Agent的方法来处理漏洞的可行性。为此,我们从Google的缺陷跟踪系统中整理了一个包含178个漏洞的评估集。该数据集包括人类报告的漏洞(78个)和机器报告的漏洞(100个)。

为了在该基准上建立修复性能的基础线,我们实现了Passerine,一个与SWE-Agent精神相似的代理,能够在Google的开发环境中有效工作。我们展示了在20个轨迹样本和Gemini 1.5 Pro的帮助下,Passerine能够为评估集中的73%的机器报告漏洞和25.6%的人工报告漏洞生成一个通过漏洞测试(即,合理的)补丁。经过人工检查,我们发现43%的机器报告漏洞和17.9%的人工报告漏洞至少有一个语义上等同于真实补丁的补丁。

这些结果在一个工业相关的基准上建立了一条基础线。正如我们所示,该基准包含的漏洞在语言多样性、规模及变化范围等方面与流行的SWE-Bench数据集中存在不同的分布特征。
关键词:这里是生成的中文关键词:, 程序修复;人工智能;软件工程;代理技术;自然语言处理;软件缺陷修复;机器学习
发布时间:2025年01月14日 AM02:09 (北京时间)
更新时间:2025年01月14日 AM02:09 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


6. Dataset Distillation via Committee Voting

作者:Jiacheng Cui, Zhaoyi Li, Xiaochen Ma, Xinyue Bi, Yaxin Luo, Zhiqiang Shen
介绍:数据集蒸发的目标是合成一个相比原始数据更小却更具代表性的数据集,进而在减少计算资源的前提下实现高效模型训练。之前的研究工作多数关注的是在原始和合成数据之间改进对齐或匹配过程或者优化大规模数据集的蒸发效率。在本研究中,我们提出一种名为${\bf C}$ommittee ${\bf V}$oting for ${\bf D}$ataset ${\bf D}$istillation (CV-DD)的新颖方法,这种方法通过集多模型或专家的智慧来创建高质量的蒸发数据集。我们的工作从展示如何通过在模型设计和优化过程中采用最新的方法和精心调整来实现一个强大的基准(baseline)开始。在此方法中,我们将多个模型的分布和预测融合到一起生成高质量的软标记,能够捕捉到更为广泛的数据特征,降低模型特有的偏见和分布变化的不良影响,从而取得显著的泛化能力提高。通过投票策略,我们不仅可以促进分蒸数据集的多样性和容错率,同时也显著降低了过度拟合的问题,提高了在后续评估任务中的表现。我们的方法在各种数据集和IPC(每个类别图像数)上的横领域实验表明,CV-DD能够产生相比单个模型或多个模型蒸发法更为可靠和适应性的蒸发数据集,有望实现高效和准确的数据集蒸发。这一工作的源码可以在以下位置找到:https://github.com/Jiacheng8/CV-DD。
关键词:数据集蒸馏, 委员会投票, 代表性数据集, 模型训练, 计算资源, 合成数据, 数据对齐, 效率提升, 高质量软标签, 数据特征, 模型偏差, 分布变化, 泛化能力, 多模型集体智慧, 过拟合, 性能提升, 实验结果,
发布时间:2025年01月14日 AM02:59 (北京时间)
更新时间:2025年01月14日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


7. UnCommon Objects in 3D

作者:Xingchen Liu, Piyush Tayal, Jianyuan Wang, Jesus Zarzar, Tom Monnier, Konstantinos Tertikas, Jiali Duan, Antoine Toisoul, Jason Y. Zhang, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny
介绍:我们介绍了一种新的以对象为中心的数据集——不常见物体3D(uCO3D),旨在用于3D深度学习和3D生成AI。uCO3D是目前最大的公开可用高分辨率物体视频集合,具有完整的360°注释。与MVImgNet和CO3Dv2相比,uCO3D显著更具多样性,覆盖超过1000个物体类别。由于对收集的视频和3D注释进行了广泛的质量检查,uCO3D的质量亦更高。与类似数据集相似,uCO3D包含3D相机姿态、深度图和稀疏点云的注释。此外,每个物体都附有描述和3D高斯点云重构。我们在MVImgNet、CO3Dv2和uCO3D上训练了多个大型3D模型,发现使用uCO3D的结果明显优于前两者,表明uCO3D更适合于学习应用。
关键词:3D深度学习, 3D生成AI, uCO3D, 对象中心数据集, 高分辨率视频, 3D注释, 物体类别, 质量检测, 3D相机姿态, 深度图, 稀疏点云, 3D高斯点云重建, 学习应用, 数据集对比
发布时间:2025年01月14日 AM02:59 (北京时间)
更新时间:2025年01月14日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


8. Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss

作者:Xinyu Zhang, Zicheng Duan, Dong Gong, Lingqiao Liu
介绍:在本文中,我们解决了生成具有运动引导的时间一致性视频的挑战。尽管许多现有方法依赖于额外的控制模块或推理期间的微调,但最近的研究表明,实有效的运动引导可以在不改变模型架构或额外训练的情况下实现。这类方法与各种视频生成基础模型具有良好的兼容性。然而,现有的无训练方法常常难以在各帧之间保持一致的时间连贯性或准确追随引导运动。在本工作中,我们提出了一种简单而有效的解决方案,结合了一种基于初始噪声的方法和一种新颖的运动一致性损失,后者是我们的关键创新。具体而言,我们捕捉了视频扩散模型中间特征的帧间特征相关模式,以表示参考视频的运动模式。然后,我们设计了一种运动一致性损失,以在生成视频中维持相似的特征相关模式,并使用该损失在潜空间中的梯度引导生成过程,实现精确的运动控制。这种方法在各种运动控制任务中提高了时间一致性,同时保留了无训练设置的优势。大量实验表明,我们的方法为高效、时间一致的视频生成设定了新的标准。
关键词:无训练视频生成, 运动指导, 时间一致性, 运动一致性损失, 视频扩散模型, 特征关联模式, 生成视频, 动作控制, 训练自由方法, 视频生成基础模型
发布时间:2025年01月14日 AM02:53 (北京时间)
更新时间:2025年01月14日 AM02:53 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


9. MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

作者:Xingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou
介绍:图像匹配技术,旨在识别图像之间对应的像素位置,是众多科学领域中的关键技术,用于图像注册、融合和分析。在近年来,依赖深度学习的图像匹配算法迅速超过了人类在迅速准确识别大量对应性上的性能。但是,在处理不同成像模式的图像时,如果由于缺乏标注的交叉模态训练数据而导致算法的性能下降。在多种领域中,依赖多种图像模态获取补充信息的应用受到这种限制的影响。为了解决这一挑战,我们提出了一个广泛的预训练框架,利用合成的交叉模态训练信号,包含多个来源的多样化数据,训练模型来识别和匹配图像中的基本结构。这种能力可以在现实中的未知交叉模态图像匹配任务中被转移。我们的关键发现是,使用我们的框架训练的匹配模型可以在八个以上未见的交叉模态注册任务中实现出色的泛化性,使用相同的网络权重,远远超过现有的方法,是否是通用设计或针对特定任务。这一突破显著增强了图像匹配技术在众多科学领域的可用性,为人工智能和人工智能分析中多模态分析开启了新方向。
关键词:图像匹配,跨模态图像匹配,深度学习,预训练,图像分析,计算机视觉,跨模态-registration,图像分割,匹配算法,神经网络,多模态图像, 或者:, 图像匹配,计算机视觉,跨模态,深度学习,预训练,匹配算法,神经网络,多模
发布时间:2025年01月14日 AM02:37 (北京时间)
更新时间:2025年01月14日 AM02:37 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


10. SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing

作者:Varun Biyyala, Bharat Chanderprakash Kathuria, Jialu Li, Youshan Zhang
介绍:视频编辑模型的发展已取得显著进展,但其性能评估仍然面临挑战。传统评估指标,如CLIP文本和图像分数,常常无法有效反映视频编辑质量:文本分数受到训练数据不足和层次依赖的限制,而图像分数则无法评估时间一致性。我们提出了一种新颖的评估框架SST-EM(语义、空间和时间评估指标),该框架利用现代视觉-语言模型(VLM)、目标检测和时间一致性检查。SST-EM由四个主要组成部分构成:(1)利用VLM从帧中提取语义;(2)通过目标检测进行主要对象跟踪;(3)通过大型语言模型(LLM)代理进行聚焦对象优化;(4)使用视觉变换器(ViT)评估时间一致性。这些组成部分被整合为一个统一的指标,其权重来自人类评估和回归分析。SST-EM的名称反映了其在视频评估中对语义、空间和时间方面的关注。SST-EM全面评估了视频编辑中的语义保真度和时间平滑性。源代码可在\textbf{\href{https://github.com/custommetrics-sst/SST_CustomEvaluationMetrics.git}{GitHub
仓库}}中获取。
关键词:视频编辑, 评估指标, 语义提取, 空间一致性, 时间一致性, 视觉语言模型, 物体检测, LLM代理, 视觉变换器, SST-EM, 语义流畅性, 传统评估, 统一指标, 回归分析, 人类评估
发布时间:2025年01月14日 AM02:37 (北京时间)
更新时间:2025年01月14日 AM02:37 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


11. Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

作者:Chengzu Li, Wenshan Wu, Huanyu Zhang, Yan Xia, Shaoguang Mao, Li Dong, Ivan Vulić, Furu Wei
介绍:链式思维(CoT)提示在提升大型语言模型(LLMs)和多模态大型语言模型(MLLMs)中的复杂推理能力方面表现出色。然而,它在复杂的空间推理任务中面临挑战。人类的认知能力不仅限于语言,还能够在言语与图像之间灵活切换,这为我们提供了非凡的思维能力。受到这一机制的启发,我们提出了一种新的推理范式——多模态思维可视化(MVoT)。MVoT通过生成推理轨迹的图像可视化,使多模态大型语言模型能够实现视觉思维。为确保高质量的可视化,我们将Token不一致损失引入自回归多模态大型语言模型中。这一创新显著提升了视觉的一致性和真实性。我们通过若干动态空间推理任务验证了该方法。实验结果表明,MVoT在各项任务中均展现出具有竞争力的表现。此外,在CoT失效的最具挑战性的场景中,MVoT展现出稳健可靠的改进。最终,MVoT为复杂推理任务开辟了新的可能性,使得视觉思维能够有效地补充语言推理。
关键词:多模态, 可视化思维, 空间推理, 大型语言模型, 多模态大型语言模型, 视觉思维, 生成图像, 质量可视化, 自回归模型, 复杂推理, 现实世界场景, 视觉一致性, 可靠性, 任务性能, 联合思维, 关键词推理
发布时间:2025年01月14日 AM02:23 (北京时间)
更新时间:2025年01月14日 AM02:23 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


12. The Sound of Water: Inferring Physical Properties from Pouring Liquids

作者:Piyush Bagad, Makarand Tapaswi, Cees G. M. Snoek, Andrew Zisserman
介绍:我们研究了音频-视觉观测与一种寻常而引人入胜的日常活动——倒液体之间的联系。我们的目标是仅凭液体倒入容器时发出的声音,自动推断出如液体水平、容器的形状和大小、倒液速率及充满所需时间等物理属性。为此,我们: (i) 理论上证明这些属性可以通过基频(音高)来确定; (ii) 使用模拟数据和具有物理学启发目标的视觉数据对音高检测模型进行监督式训练; (iii) 引入一个新的大型真实倒液视频数据集,以进行系统研究; (iv) 验证经过训练的模型确实能够推断真实数据的这些物理属性; (v) 展示了该模型在各种容器形状、其他数据集以及自然环境下的YouTube视频中的强大泛化能力。我们的工作展现了对一个狭而丰富的问题在声学、物理和学习交叉领域的深刻理解,为提升机器人倒液的多感知能力打开了新的应用前景。
关键词:液体倾倒, 声音分析, 物理性质推断, 容器形状, 液体水平, 倾倒速率, 频率检测, 多感官感知, 机器人倾倒, 数据集构建, 音频视觉观察, 机器学习, 物理学应用, 声学研究, 计算机视觉
发布时间:2024年11月18日 AM09:19 (北京时间)
更新时间:2025年01月14日 AM02:20 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


13. Robot Synesthesia: A Sound and Emotion Guided AI Painter

作者:Vihaan Misra, Peter Schaldenbrand, Jean Oh
介绍:如果说一幅图可以传达千言万语,那么声音则可以表达百感交集。尽管近期在将文本输入转化为图像的机器人绘画和图像合成方法上取得了一定进展,但将声音转换为图像的研究仍然相对缺乏。一般而言,基于声音的接口和声学交互有潜力拓展用户的可及性和控制能力,同时提供了一种表达复杂情感与现实世界动态特征的方式。在本文中,我们提出了一种利用声音和语言引导机器人绘画过程的方法,称之为机器人联觉(robot synesthesia)。对于一般声音,我们将模拟画作和输入声音编码到相同的潜在空间中;对于语言,我们将语音解耦为其转录文本与语调。我们利用文本控制内容,而通过语调估计情感,以引导绘画的氛围。我们的方法已与FRIDA这一机器人绘画框架完全集成,增加了声音和语言输入模式,与现有的文本和风格输入相结合。在两项调查中,参与者对用以生成特定绘画的情感或自然声音进行了判断,正确率超过了随机猜测的两倍以上。对于我们的声音引导图像操作和音乐引导绘画,我们将对结果进行定性讨论。
关键词:机器人联觉, 声音与情感, 人工智能画家, 声音到图像转换, 机器人绘画, 声音接口, 情感表达, 自然声音, FRIDA框架, 图像合成, 情绪识别, 语音解耦, 用户控制, 动态表现
发布时间:2023年02月10日 AM02:53 (北京时间)
更新时间:2025年01月14日 AM02:18 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


14. Quilt-1M: One Million Image-Text Pairs for Histopathology

作者:Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo, Dylan Stefan Chan Geva, Fatwir Sheikh Mohammed, Pavan Kumar Anand, Ranjay Krishna, Linda Shapiro
介绍:最近,多模态应用的加速发展得益于在线可获得的大量图像和文本数据。然而,在医学领域,特别是组织病理学中,类似数据的稀缺性减缓了相应的进展。为了实现组织病理学的相似表征学习,我们转向YouTube这一尚未被充分利用的视频资源,提供了来自专业临床医生的高清免费教育组织病理学视频,总时长达到1,087小时。我们从YouTube中精心整理出QUILT:一个大型视觉-语言数据集,包含802,144对图像和文本。QUILT的整理是通过结合多种模型实现的,包括大型语言模型、自定义算法、人类知识数据库和自动语音识别。相比之下,目前为止,针对组织病理学整理的最全面数据集仅收集了约200K个样本。我们将QUILT与其他来源的数据集相结合,包括Twitter、科研论文以及互联网,创建了一个更大规模的数据集:QUILT-1M,包含1M对图像-文本样本,使其成为迄今为止最大的视觉-语言组织病理学数据集。我们通过对预训练的CLIP模型进行微调,展示了QUILT-1M的价值。我们的模型在零-shot和线性探测任务中,在对13个不同亚病理的8个多样化图像补丁数据集进行新组织病理图像分类及跨模态检索任务的表现上均超越了现有的最先进模型。
关键词:根据论文内容和关键词描述生成的适合的中文关键词如下:

计算机视觉, 自动图像分类, 医疗影像处理, 文本图像匹配, 医学图像识别, 自动语义分割, 医学影像学习, 人体组织识别, 医学图像处理, 医学信息抽取, 医疗知识库构建
发布时间:2023年06月20日 AM08:14 (北京时间)
更新时间:2025年01月14日 AM02:16 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


15. Confident Pseudo-labeled Diffusion Augmentation for Canine Cardiomegaly Detection

作者:Shiman Zhang, Lakshmikar Reddy Polamreddy, Youshan Zhang
介绍:犬心扩张是一种因心脏异常增大而导致的严重健康风险,若未及时诊断,将会给犬只带来不必要的痛苦。目前的识别模型往往依赖于小规模、质量低下且缺乏标注的数据集,难以适应多样化的成像条件,极大限制了其在实际应用中的可用性。为此,我们提议使用Confident Pseudo-labeled Diffusion Augmentation(CDA)模型来识别犬心扩张。我们的方案解决了质量有限的高质数据集的挑战,通过采用扩散模型生成虚拟X光成像,并为Vertebral Heart Score关键点进行注解,从而扩大数据集。我们也采用了伪标签策略与蒙特卡洛丢弃法,选取高置信度标签,以精炼虚拟数据集并提高准确度。迭代性地将这些伪标签整合进模型,能够克服现有方法的局限。实验结果表明,CDA模型远超传统方法,实现顶级的准确性,在犬心扩张识别方面取得了领先的成绩,具体可见于https://github.com/Shira7z/CDA。
关键词:犬心脏病, 心脏扩张, 诊断方法, 数据集扩展, 合成X射线图像, 伪标签策略, 蒙特卡罗Dropout, 模型性能, 实验结果, 先进准确率
发布时间:2025年01月14日 AM02:10 (北京时间)
更新时间:2025年01月14日 AM02:10 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


16. IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion

作者:Tharun Anand, Aryan Garg, Kaushik Mitra
介绍:面部视频编辑已成为内容创作者的重要工具,允许他们对面部表情和特征进行操作。然而,现有模型面临着低质量的编辑、较高的计算成本和在各种编辑中保留面部身份的困难。另外,这些模型往往局限于编辑预定义的面部特征,这限制了对多种编辑提示的适应性。为了解决这些挑战,我们建议使用前训练好的文本到图像(T2I)扩散模型的极具创新的面部视频编辑框架,并对其进行面部视频编辑任务的微调。我们的方法引入了一种目标调节方案,使其能够提供高质量、局部化的、以文本为驱动的编辑,同时确保在视频帧之间维持身份的保留。使用预训练的T2I模型在推理阶段,我们的方法显著减少了编辑时间(大约80%),并且保持了整个视频序列的时间一致性。通过对广泛的挑战场景进行大量测试,包括变异的头部姿势、复杂的动作序列和多样化的面部表情, 我们评估了我们的方法的有效性。我们的方法一致地超越了现有的技术, 在多个指标和基准上表现出优越的性能。
关键词:IP-FaceDiff, 身份保留, 面部视频编辑, 扩散模型, 文本到图像, 精细调优, 高质量编辑, 面部属性, 计算成本, 视频帧一致性, 编辑时间缩短, 挑战场景, 头部姿势, 动作序列, 面部表情, 性能评估
发布时间:2025年01月14日 AM02:08 (北京时间)
更新时间:2025年01月14日 AM02:08 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


17. Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures

作者:Anirudh Prabhakaran, YeKun Xiao, Ching-Yu Cheng, Dianbo Liu
介绍:眼科疾病,如糖尿病视网膜病和青光眼,由于其高发病率及导致视力障碍的潜在风险,构成了一个重大的公共卫生挑战。早期和准确的诊断对有效的治疗和管理至关重要。近年来,深度学习模型已成为分析医学影像(如视网膜图像)的强大工具。然而,模型的可靠性和不确定性估计仍然存在挑战,这对临床决策至关重要。本研究利用生成流网络(Generative Flow Networks, GFlowNets)的概率框架,通过学习潜在离散掉落掩膜的后验分布,进行眼科疾病的分类和分析,所用数据为眼底图像。我们开发了一种稳健且可泛化的方法,整合GFlowOut与ResNet18和ViT模型作为骨干,识别各种眼科疾病。研究采用了一组独特的掉落掩膜——无掉落、随机掉落、自下而上和自上而下,以提升模型在分析眼底图像时的性能。我们的结果表明,学习得来的概率潜变量显著提高了准确性,超越了传统的掉落方法。我们还有利用梯度映射计算方法(Grad-CAM)评估模型可解释性,观察到模型能够准确集中在预测所需的关键图像区域。GFlowOut在神经网络中的整合为眼科疾病的自动诊断提供了有希望的进展,对改善临床工作流程和患者治疗结果具有积极意义。
关键词:下面是根据论文内容生成的适宜中文关键词,以英文逗号分隔开:, 深度学习、机器学习架构、可学习的概率离散潜在变量、眼部疾病检测、机器视觉、生成流网络(GFlowNets)、后处理输出(GFlowOut)、分割掩码、残差网络(ResNet18)、视觉, transformer(ViT)模型、眼底图像分析、糖尿病性视网膜病变、青光眼诊断、模型可靠性、不确定性估计、模型解释性、预测区域关注、临床决策支持系统、自动化病理诊断、临床流程优化、患者结果改善。
发布时间:2024年01月21日 PM12:14 (北京时间)
更新时间:2025年01月14日 AM02:06 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


18. E2ESlack: An End-to-End Graph-Based Framework for Pre-Routing Slack Prediction

作者:Saurabh Bodhe, Zhanguang Zhang, Atia Hamidizadeh, Shixiong Kai, Yingxue Zhang, Mingxuan Yuan
介绍:预布线松弛预测仍然是电子设计自动化(EDA)领域中的一个关键研究方向。尽管针对这一任务已有多种基于机器学习的方法,工程师仍缺乏一个真正的端到端框架,能够在布局阶段从原始电路数据中获取总负时延(TNS)和最小负时延(WNS)指标。目前的研究工作虽然在到达时间(AT)预测方面表现出色,但缺乏对所需到达时间(RAT)预测的机制,而RAT是松弛预测及获取TNS/WNS指标所必需的。在本研究中,我们提出了E2ESlack,一个基于图的端到端预布线松弛预测框架。该框架包括一个支持DEF、SDF和LIB文件进行特征提取和图构建的时序解析器(TimingParser)、一个到达时间预测模型以及一个快速RAT估计模块。根据我们的了解,这是首个能够在预布线阶段进行路径级松弛预测的工作。我们进行了广泛的实验,结果表明我们提出的RAT估计方法优于当前最先进的基于机器学习的预测方法和预布线静态时序分析(STA)工具。此外,E2ESlack框架所获得的TNS/WNS值与后布线STA结果相当,同时运行时间节省可达23倍。
关键词:E2ESlack, 预路由, Slack预测, 图形化框架, 电子设计自动化, 到达时间预测, 所需到达时间预测, TNS, WNS, 特征提取, 图构建, DEF文件, SDF文件, LIB文件, 实验, 机器学习, 运行时间优化
发布时间:2025年01月14日 AM02:53 (北京时间)
更新时间:2025年01月14日 AM02:53 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


19. SecAlign: Defending Against Prompt Injection with Preference Optimization

作者:Sizhe Chen, Arman Zharmagambetov, Saeed Mahloujifar, Kamalika Chaudhuri, David Wagner, Chuan Guo
介绍:大语言模型(LLMs)在现代软件系统中变得愈发普遍,作为用户与互联网之间的接口,协助完成需要高级语言理解的任务。为了实现这些任务,LLM常常利用外部数据源,例如用户文档、网络检索、API调用结果等。这为攻击者通过提示注入(prompt injection)操控LLM打开了新途径。对外部数据源注入对抗性提示可以覆盖系统的原定指令,而执行恶意指令。

为了减轻这一脆弱性,我们提出了一种名为SecAlign的新防御方法,该方法基于偏好优化技术。我们的防御首先构建一个包含注入提示输入、可靠输出(响应合法指令的输出)和不安全输出(响应注入的输出)的偏好数据集。随后,我们对该数据集进行偏好优化,旨在教会LLM优先选择可靠输出,而非不安全输出。这一方法成功降低了各种提示注入的成功率至接近0%,即便面对的攻击比训练中所见的要复杂得多。这表明我们的防御在面对未知和未来攻击时具有良好的泛化能力。此外,我们经过防御训练后的模型仍具备与训练前相似的实用性。我们的代码可在https://github.com/facebookresearch/SecAlign获取。
关键词:大语言模型, 提示注入, 安全防御, 偏好优化, 对抗性提示, 外部数据源, 系统指令, 恶意指令, 偏好数据集, 安全输出, 不安全输出, 防御训练, 实用性, 代码分享
发布时间:2024年10月08日 AM03:34 (北京时间)
更新时间:2025年01月14日 AM02:45 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


20. Dynamic Prototype Rehearsal for Continual Learning in ECG Arrhythmia Detection

作者:Sana Rahmani, Reetam Chatterjee, Ali Etemad, Javad Hashemi
介绍:持续学习(Continual Learning, CL)方法旨在从一系列任务中学习,同时避免遗忘先前知识的挑战。我们提出了DREAM-CL,一种用于心电图(ECG)心律失常检测的新型CL方法,引入了动态原型重演记忆。DREAM-CL通过对每次训练会话中学习行为的聚类选择代表性原型。在每个聚类内,我们应用平滑排序操作,根据训练难度对样本进行排名,压缩极端值并去除离群值。随后,选择更具挑战性的样本作为重演记忆的原型,从而确保跨会话的有效知识保留。我们使用两个广泛应用的心电图心律失常数据集——Chapman和PTB-XL,在时间增量、类别增量和导联增量场景下评估了我们的方法。结果表明,DREAM-CL在心电图心律失常检测的持续学习领域超越了当前的最先进技术。我们还进行了详细的消融研究和敏感性分析,以验证我们方法不同设计选择的有效性。
关键词:动态原型复习, 持续学习, ECG心律失常检测, DREAM-CL, 动态原型, 记忆, 数据聚类, 训练会话, 样本排序, 知识保留, 时间增量, 类增量, 导联增量, ECG数据集, 实验评估, 性能比较, 消融研究, 敏感性分析
发布时间:2025年01月14日 AM02:37 (北京时间)
更新时间:2025年01月14日 AM02:37 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


21. Few-Shot Task Learning through Inverse Generative Modeling

作者:Aviv Netanyahu, Yilun Du, Antonia Bronars, Jyothish Pari, Joshua Tenenbaum, Tianmin Shu, Pulkit Agrawal
介绍:学习一个代理的意图,即其目标或运动风格,是通常由极少数示例就能解决的问题。我们将这种问题称为任务概念学习并提出了一种方法,即通过逆向生成模型(Inverse Generative Modeling)进行极少量任务学习(Few-Shot Task Learning, FTL-IGM),该方法利用可逆的神经生成模型来学习新任务概念。核心思想是先在基本概念及其演示中预先训练一个生成模型,然后在给定新概念(如新目标或新行动)的几何示例中学习我们的方法通过反向传播学习背后的概念,而不更新模型权重,这得益于生成模型的可逆性。我们在五个领域进行了评估——物体重组、目标导航、人类动作的运动字幕、无人驾驶和真实世界桌面操作。我们的实验结果表明,通过预先训练的生成模型,我们成功地学习了新概念并生成了对应这些概念的代理计划或运动(1)在未见过的环境中和(2)与训练概念的组合中。
关键词:少样本任务学习, 逆向生成模型, 任务概念学习, 生成模型, 反向传播, 对象重排, 目标导向导航, 动作捕捉, 自主驾驶, 现实世界桌面操作, 预训练模型, 新概念学习, 运动规划
发布时间:2024年11月08日 AM02:55 (北京时间)
更新时间:2025年01月14日 AM02:24 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


22. Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

作者:Chengzu Li, Wenshan Wu, Huanyu Zhang, Yan Xia, Shaoguang Mao, Li Dong, Ivan Vulić, Furu Wei
介绍:链式思维(CoT)提示已经证明在提升大型语言模型(LLMs)和多模态大型语言模型(MLLMs)中的复杂推理能力方面效果显著。然而,它在复杂空间推理任务中的表现却不尽如人意。尽管如此,人类的认知不仅限于语言,这使得人类具备以文字和图像进行思考的卓越能力。受到这一机制的启发,我们提出了一种新的推理范式——多模态思维可视化(MVoT)。该范式通过生成推理轨迹的图像可视化,促进了在多模态大型语言模型中的视觉思维。为了确保高质量的可视化,我们在自回归的多模态大型语言模型中引入了标记差异损失。这一创新显著提高了视觉的一致性和可信度。我们通过多个动态空间推理任务验证了这种方法。实验结果表明,MVoT在各类任务中表现出竞争力。此外,在CoT失败的最具挑战性的场景中,它还展现出稳健和可靠的改进。最终,MVoT为复杂推理任务开辟了新可能,使得视觉思维能够有效补充语言推理。
关键词:多模态推理, 视觉思维, 空间推理, 大型语言模型, 多模态大型语言模型, 链式思维提示, 视觉一致性, 视觉保真度, 自回归模型, 复杂推理任务, 动态空间推理, 实验结果, 认知机制
发布时间:2025年01月14日 AM02:23 (北京时间)
更新时间:2025年01月14日 AM02:23 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


23. Improving the Performance of Echo State Networks Through State Feedback

作者:Peter J. Ehlers, Hendra I. Nurdin, Daniel Soh
介绍:储层计算利用非线性动态系统,为处理序列数据、时间序列建模以及系统识别等复杂任务提供了一种经济有效的替代方案,尤其是在神经网络的应用中。其中,回声状态网络(ESN)作为一种储层计算模型,虽然其结构类似于神经网络,但简化了训练过程。ESN通过对内部状态施加固定的随机线性变换,随后进行非线性变化。该过程受输入信号和线性回归的指导,使系统能够调节以匹配目标特性,进而降低计算需求。然而,ESN的一个潜在缺陷是固定的储层可能无法满足某些特定问题所需的复杂性。虽然直接修改(训练)内部分层会重新引入计算负担,但可以通过将部分输出重新作为输入进行间接修改。这种反馈机制能够影响内部储层的状态,从而使ESN具备更高的复杂性,适应更广泛的挑战。在本文中,我们展示了通过将储层状态的某些组成部分通过输入反馈到网络中,能够显著提高给定ESN的性能。我们严格证明,对于任何给定的ESN,反馈几乎总是会提高输出的准确性。针对三项各具不同问题类别的任务,我们发现引入反馈后,平均误差量度降低了30%-60%。值得注意的是,反馈机制至少能够提供与将初始计算节点数量翻倍相当的性能提升,而后者不仅计算资源消耗大且在技术上具有挑战性。这些结果展示了该反馈机制的广泛适用性和显著的实用价值。
关键词:回声状态网络, 状态反馈, 资源计算, 非线性动态系统, 时序建模, 系统识别, 计算节约, 内部状态, 线性回归, 输出反馈, 性能提升, 准确性, 算法改进, 计算节点, 任务分类, 误差测量
发布时间:2023年12月23日 AM10:34 (北京时间)
更新时间:2025年01月14日 AM02:21 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


24. Quilt-1M: One Million Image-Text Pairs for Histopathology

作者:Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo, Dylan Stefan Chan Geva, Fatwir Sheikh Mohammed, Pavan Kumar Anand, Ranjay Krishna, Linda Shapiro
介绍:最近,随着在线图像和文本数据的丰富多样,多模态应用的加速发展得以实现。然而,在医学领域,尤其是组织病理学中,类似数据的稀缺性却减缓了相应的进展。为了实现组织病理学的类似表征学习,我们将目光转向了YouTube这一尚未充分利用的资源,那里提供了来自专业临床医生的$1,087$小时宝贵的教育性组织病理学视频。我们从YouTube中策划了QUILT,这是一个大规模的视觉-语言数据集,包含$802,144$对图像和文本。QUILT是通过多种模型的混合自动策划而成的,包括大型语言模型、手工算法、人类知识数据库以及自动语音识别。相比之下,为组织病理学策划的最全面的数据集仅收集了约$200$K个样本。我们将QUILT与来自其他来源的数据集相结合,包括Twitter、研究论文和互联网,创造了一个更大的数据集QUILT-1M,包含$1$M配对的图像-文本样本,使其成为迄今为止最大的视觉-语言组织病理学数据集。我们通过对预训练的CLIP模型进行微调,展示了QUILT-1M的价值。我们的模型在零-shot和线性探测任务中超越了现有的先进模型,在$8$种不同亚病理学的$13$个多样化切片级数据集中对新组织病理图像进行分类,以及跨模态检索任务上均表现优越。
关键词:QUILT-1M, 图像-文本对, 组织病理学, 多模态应用, 大规模数据集, 语言模型, 自动化策划, 视频资源, 医学数据, 深度学习, 预训练模型, CLIP模型, 跨模态检索, patch-level 数据集, 子病理学
发布时间:2023年06月20日 AM08:14 (北京时间)
更新时间:2025年01月14日 AM02:16 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


25. ML Mule: Mobile-Driven Context-Aware Collaborative Learning

作者:Haoxiang Yu, Javier Berrocal, Christine Julien
介绍:人工智能已融入日常生活的几乎每一个方面,推动了从计算机视觉中的物体检测到用于撰写电子邮件的大型语言模型以及智能家居中的紧凑模型等应用的发展。这些机器学习模型主要服务于个体用户,但通常与用户之间存在一定的脱节,因为它们通常存储和处理于集中式数据中心。这种集中化的方式引发了隐私担忧,造成了高昂的基础设施成本,并在个性化方面面临挑战。为了解决这些问题,提出了联邦学习和完全去中心化学习方法,但这些方法仍然依赖于集中式服务器,或者由于通信限制而面临收敛缓慢的问题。

为克服这些挑战,我们提出了ML Mule,这是一种利用个体移动设备作为“驴子”来训练和传输模型快照的方法。这些设备在物理空间中移动时,能够与它们所处的物理“空间”共享这些模型。该方法在与共享特定空间的用户相关联的设备之间隐性形成了亲和群体,促进了协作模型的演变,并保护了用户的隐私。我们的方法有效应对了传统、联邦以及完全去中心化学习系统的多项主要不足。所提出的框架代表了一类新的机器学习方法,具有更强的鲁棒性、分布性和个性化特征,推动该领域更接近实现智能、自适应和真正具有上下文感知能力的智能环境的初衷。

研究结果表明,与其他现有方法相比,ML Mule能够更快地收敛,并取得更高的模型准确性。
关键词:ML Mule, 移动驱动, 上下文感知, 协作学习, 人工智能, 机器学习, 联邦学习, 去中心化学习, 隐私保护, 模型演化, 智能环境, 性能优化, 设备协作, 个人化, 模型精度, 计算机视觉, 大语言模型, 数据中心, 亲和力群体
发布时间:2025年01月14日 AM02:16 (北京时间)
更新时间:2025年01月14日 AM02:16 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


26. Investigating Map-Based Path Loss Models: A Study of Feature Representations in Convolutional Neural Networks

作者:Ryan G. Dempsey, Jonathan Ethier, Halim Yanikomeroglu
介绍:路径损耗预测是有效利用无线电频谱的重要工具。基于之前高分辨率地图路径损耗模型的研究,本文更深入地研究了卷积神经网络输入表示。我们探讨了在卷积神经网络中表示标量特征的不同方法。具体而言,我们比较了将频率和距离作为输入通道送入卷积层或作为标量输入送入回归层的效果。通过三种不同的特征配置评估模型性能,研究发现将标量特征表示为图像通道能够实现最佳的泛化效果。
关键词:路径损失预测, 地图基础模型, 卷积神经网络, 特征表示, 高频率输入, 距离输入, 图像通道, 回归层, 模型性能, 特征配置, 一般化能力
发布时间:2025年01月14日 AM02:15 (北京时间)
更新时间:2025年01月14日 AM02:15 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


27. Higher-Order Topological Directionality and Directed Simplicial Neural Networks

作者:Manuel Lecha, Andrea Cavallo, Francesca Dominici, Elvin Isufi, Claudio Battiloro
介绍:顶致学(TDL)已经成为处理和学习基于更高阶组合拓扑空间信号的范式。这些拓扑空间包括简单体或单元复合体。尽管许多复杂系统具有不对称的关系结构,但最多的顶致学模型都强行将这些关系简化为对称的形式。本篇文章首先提出基于此的更高阶方向性概念,接着基于此概念设计了带向导的简单体神经网络(带向导-简单体神经网络,Dir-SNN)。带向导-简单体神经网络是一类消息传递网络,它可以在带向导的简单体复合体上工作,从而能够利用简单体之间的向导且可能不对称的相互作用。我们对此知之甚深,这是第一款基于更高阶方向性概念的顶致学模型。通过理论和经验分析,我们证明了带向导-简单体神经网络比其带向导图的对应模型更多地表达了区分同构带向导图的能力。我们在一个合成的源位置识别任务中进行了实验,结果表明带向导-简单体神经网络在复合体具有方向性的情况下优于未带向导的简单体神经网络,而在复合体不具有方向性的情况下表现类似于未带向导的简单体神经网络。
关键词:高阶拓扑,方向性,定向单纯神经网络,拓扑深度学习,复杂系统,非对称关系,信息传播网络,单纯复形,图同构,合成源定位任务,定向图,实验验证
发布时间:2024年09月13日 AM04:37 (北京时间)
更新时间:2025年01月14日 AM02:14 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


28. Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures

作者:Anirudh Prabhakaran, YeKun Xiao, Ching-Yu Cheng, Dianbo Liu
介绍:眼科疾病,如糖尿病视网膜病变和青光眼,由于其高发病率及对视力损害的潜在威胁,构成了重大的公共卫生挑战。早期且准确的诊断对于有效的治疗和管理至关重要。近年来,深度学习模型已成为分析医学影像(例如视网膜成像)的强大工具。然而,在模型可靠性和不确定性估计方面仍然存在挑战,这对于临床决策至关重要。本研究利用生成流网络(GFlowNets)的概率框架,学习潜在离散丢弃掩模的后验分布,以利用眼底图像进行眼科疾病的分类和分析。我们开发了一种稳健且具有普适性的模型,其背后采用了集成ResNet18和ViT模型的GFlowOut,以识别各种眼科状况。研究中采用了独特的丢弃掩模集,包括无、随机、从下到上、从上到下,旨在提升模型在分析眼底图像时的性能。结果表明,我们可学习的概率潜变量显著提高了准确性,优于传统的丢弃方法。我们还采用了梯度图计算方法Grad-CAM来评估模型的可解释性,观察到模型能够准确聚焦于关键图像区域进行预测。GFlowOut在神经网络中的集成为眼科疾病的自动诊断提供了前景广阔的进展,对改善临床工作流程和患者预后具有重要意义。
关键词:眼病检测, 机器学习架构, 深度学习模型, 视网膜成像, 糖尿病视网膜病变, 青光眼, 医疗图像分析, 生成流网络, 后验分布, 离散掉落掩膜, Fundus图像, 模型可信性, 不确定性估计, 模型性能, Grad-CAM, 自动诊断, 临床工作流程, 患
发布时间:2024年01月21日 PM12:14 (北京时间)
更新时间:2025年01月14日 AM02:06 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


29. Path Loss Prediction Using Deep Learning

作者:Ryan G. Dempsey, Jonathan Ethier, Halim Yanikomeroglu
介绍:无线电部署和频谱规划受益于路径损耗预测。通信链路中的障碍物通常是通过推导指标,如代表性杂物高度或总障碍深度,隐式考虑的。本文我们提出了一种路径特定路径损耗预测方法,采用卷积神经网络自动从高分辨率障碍物高度图中提取特征。我们的方法在多种环境中都能实现低预测误差,而无需依赖推导指标。
关键词:路径损失预测, 深度学习, 无线通信, 卫星连接, 特征提取, 卷积神经网络, 高分辨率, 障碍物高度图, 预测误差, 光谱规划
发布时间:2024年11月26日 AM12:20 (北京时间)
更新时间:2025年01月14日 AM02:03 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


❤️ 转载文章请注明出处,谢谢!❤️