AP今日文章 | 2025-01-17
1. How Do Generative Models Draw a Software Engineer? A Case Study on Stable Diffusion Bias
作者:Tosin Fadahunsi, Giordano d'Aloisio, Antinisca Di Marco, Federica Sarro
介绍:生成模型如今被广泛用于生成多种用途的图形内容,例如网页、艺术和广告等。然而,有研究表明,这些模型生成的图像可能会强化特定情境中已经存在的社会偏见。本文聚焦于探讨在生成与软件工程任务相关的图像时,是否存在这一情况。事实上,软件工程(SE)领域并未免于性别和种族差异,且使用这些模型可能会加剧这种差异。因此,如果在没有意识的情况下使用,人工生成的图像可能会在SE领域中进一步强化这些偏见。
具体而言,我们对三种版本的稳定扩散(SD)模型(即一种非常流行的开源文本到图像模型)——SD 2、SD XL和SD 3——在SE任务中所暴露的性别和种族偏见进行了广泛的实证评估。我们通过向每个模型输入两组描述不同软件相关任务的提示,获得了6720张图像:一组提示包含“软件工程师”关键词,另一组没有对执行任务的人进行任何说明。接下来,我们评估了生成图像中性别和种族的差异。
结果显示,当表示软件工程师时,所有模型在性别表现上显著偏向于男性。相反,虽然SD 2和SD XL强烈偏向于白人形象,但SD 3对亚洲人形象的偏向略微明显。然而,无论提示的风格如何,所有模型在黑人人物和阿拉伯人人物的表现上都显著不足。我们的分析结果强调了采用这些模型生成SE任务内容的严重问题,并为未来在此背景下的偏见缓解研究开辟了新的领域。
关键词:生成模型, 软件工程, 偏见, 稳定扩散, 性别差异, 种族差异, 人工智能, 图像生成, 实证评估, 男性主导, 女性缺失, 少数族裔, 内容生成, 社会偏见, 偏见缓解, 未来研究
发布时间:2025年01月16日 AM02:57 (北京时间)
更新时间:2025年01月16日 AM02:57 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
2. Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
作者:Ruixiang Jiang, Changwen Chen
介绍:我们首次研究了如何引导多模态大语言模型(MLLMs)的推理能力,以评估艺术作品的美学。为促进这一研究,我们构建了MM-StyleBench,一个用于艺术风格化基准测试的新型高质量数据集。接着,我们开发了一种系统化的人类偏好建模方法,并对MLLMs的响应与人类偏好之间进行系统的相关性分析。实验结果揭示了MLLMs在艺术评估中存在的内在幻觉问题,这一问题与响应的主观性有关。我们提出了ArtCoT,表明艺术特定任务的分解及具体语言的使用能够提升MLLMs在美学评估中的推理能力。我们的研究结果为多模态大语言模型在艺术领域的应用提供了宝贵的见解,并可惠及一系列下游应用,例如风格迁移和艺术图像生成。代码发布在 https://github.com/songrise/MLLM4Art。
关键词:多模态LLM, 美学, 艺术作品评估, MM-StyleBench, 数据集, 人类偏好建模, 相关性分析, 幻觉问题, 响应主观性, ArtCoT, 任务分解, 具体语言, 风格迁移, 艺术图像生成, 计算机视觉, 人工智能, 自然语言处理, 多模态
发布时间:2025年01月16日 AM02:56 (北京时间)
更新时间:2025年01月16日 AM02:56 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
3. AI-RAN: Transforming RAN with AI-driven Computing Infrastructure
作者:Lopamudra Kundu, Xingqin Lin, Rajesh Gadiyar, Jean-Francois Lacasse, Shuvo Chowdhury
介绍:无线接入网(RAN)的格局正在经历一场变革,从传统的以通信为中心的基础设施向融合计算和通信的平台转变。本文介绍了AI-RAN,它在同一基础设施上整合了RAN和人工智能(AI)工作负载。通过这种方式,AI-RAN不仅满足了未来网络的性能需求,还提高了资产的利用效率。我们首先探讨了RAN如何超越移动宽带演变为AI-RAN,并将AI-RAN的表现形式界定为三种:AI-for-RAN、AI-on-RAN和AI-and-RAN。接下来,我们识别了AI-RAN中通信与计算融合的关键要求和推动因素。随后,我们提供了一种参考架构,以推进AI-RAN从概念走向实践。为了展示AI-RAN的实际潜力,我们呈现了一个原型示例,该示例利用NVIDIA Grace-Hopper GH200服务器同时处理RAN和AI工作负载。最后,我们总结了本文,并概述了未来的研究方向,以指导AI-RAN的进一步发展。
关键词:AI-RAN, 无线接入网, 人工智能, 计算基础设施, 计算与通信融合, 性能需求, 资产利用, 移动宽带, AI工作负载, 参考架构, 实践应用, NVIDIA Grace-Hopper, 概念验证, 未来工作方向
发布时间:2025年01月16日 AM02:47 (北京时间)
更新时间:2025年01月16日 AM02:47 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
4. Reward Machines for Deep RL in Noisy and Uncertain Environments
作者:Andrew C. Li, Zizhao Chen, Toryn Q. Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A. McIlraith
介绍:奖励机器提供了一种受自动机启发的结构,用于指定指令、安全约束以及其他时序扩展的奖励行为。通过揭示奖励函数的基本结构,它们使得强化学习任务的分解成为可能,从而在样本效率上取得显著提升。尽管奖励机器及类似的形式化规范在序列决策问题中的应用历史悠久,但它们严重依赖于对构成奖励函数的领域特定词汇的真实解释。然而,这种真实解释在实际应用中往往难以获得,部分原因是由于部分可观测性和噪声感知的影响。在本研究中,我们探索了在噪声和不确定环境中应用奖励机器进行深度强化学习。我们将这一问题表征为部分可观测马尔可夫决策过程(POMDP),并提出了一套强化学习算法,以利用在领域特定词汇不确定解释下的任务结构。通过理论分析和实验,我们揭示了在处理这一问题时简单方法的陷阱,同时展示了如何在词汇的噪声解释下成功利用任务结构。
关键词:奖励机器, 深度强化学习, 嘈杂环境, 不确定环境, 自动机, 强化学习任务, 样本效率, 部分可观测马尔可夫决策过程, RL算法, 任务结构, 领域特定词汇, 理论与实验, 误解问题, 语义结构
发布时间:2024年06月01日 AM02:22 (北京时间)
更新时间:2025年01月16日 AM02:30 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
5. Consistency of Responses and Continuations Generated by Large Language Models on Social Media
作者:Wenlu Fan, Yuqi Zhu, Chenyang Wang, Bin Wang, Wentao Xu
介绍:大型语言模型(LLMs)在文本生成方面展现出卓越的能力,但在社交媒体环境中,它们的情感一致性和语义连贯性仍然不足以被充分理解。本研究探讨了LLMs如何处理情感内容以及在续写和响应任务中维持语义关系,使用了两个开源模型:Gemma和Llama。通过分析Twitter和Reddit上的气候变化讨论,我们考察了在人工撰写内容和LLM生成内容之间的情感转变、强度模式以及语义相似性。研究结果表明,尽管这两个模型都保持较高的语义连贯性,但它们的情感模式存在显著差异:Gemma倾向于放大负面情绪,尤其是愤怒,同时保持某些积极情绪如乐观。而Llama在更广泛的情感范围内展现出更出色的情感保留能力。与人工撰写内容相比,这两个模型系统性地生成的响应具有较低的情感强度,并在响应任务中表现出对积极情绪的偏好。此外,尽管在续写和响应任务中的表现存在差异,这两个模型与原始文本之间仍保持了较强的语义相似性。这些发现为LLMs在情感和语义处理能力上的理解提供了重要见解,并对其在社交媒体环境及人机交互设计中的应用具备一定的启示。
关键词:大型语言模型, 情感一致性, 语义连贯性, 社交媒体, Gemma, Llama, 情感内容, 语义关系, 气候变化, Twitter, Reddit, 情感转变, 强度模式, 语义相似性, 人类创作, 负面情绪, 积极情绪, 情感保留, 情感处理, 人机交互设计, 开源模型
发布时间:2025年01月14日 PM09:19 (北京时间)
更新时间:2025年01月16日 AM02:10 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
6. Personality Modeling for Persuasion of Misinformation using AI Agent
作者:Qianmin Lou, Wentao Xu
介绍:社交媒体平台上虚假信息的泛滥凸显了了解个体人格特征如何影响虚假信息的易感性和传播的必要性。本研究采用了一种创新的基于代理的建模方法来研究人格特征与虚假信息动态之间的关系。我们使用六个人工智能代理,这些代理体现了五大人格特征(外向性、适宜性和神经质)的不同维度,模拟了六个不同虚假信息话题的交互。通过AgentScope框架和GLM-4-Flash模型实施的实验产生了90种独特的交互,揭示了人格特征组合如何影响说服和抵制虚假信息的复杂模式。我们的研究结果表明,分析性和批判性人格特征能够提高基于证据的讨论的有效性,而非攻击性说服策略在虚假信息纠正中表现出意外的成功。值得注意的是,具有批判性特征的代理在有关HIV的虚假信息讨论中取得了59.4%的成功率,而采取非攻击性方法的代理在不同人格组合中保持了40%以上的说服率。本研究还揭示了一种非传递性模式的说服有效性,挑战了传统的人格影响假设。这些结果为在数字环境中开发人格感知干预措施提供了至关重要的见解,并表明有效的虚假信息对抗措施应优先考虑情感联系和建立信任而不是对抗性方法。研究结果为人格-虚假信息动态的理论理解和在社交媒体背景下打击虚假信息的实际策略做出了贡献。
关键词:个性建模, 信息误导, 人工智能代理, 大五人格特质, 社交媒体, 说服力, 非信息传播, 实证讨论, 情感连接, 信任建立, 数字环境, 信息对策, 代理基础建模, 复杂模式, 个性组合, HIV相关信息, 非对抗策略, 抵抗力, 传播动态, 心理特征影响
发布时间:2025年01月16日 AM02:04 (北京时间)
更新时间:2025年01月16日 AM02:04 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
7. Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
作者:Jingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
介绍:基于预训练文本到视频模型的先进先出(FIFO)视频扩散,最近被作为一种有效的无调优长视频生成方法广泛采用。这种技术维护了一队逐渐增加噪声的视频帧,持续在队列头部生成清晰帧,同时在队列尾部加入高斯噪声。然而,由于缺乏跨帧的对应建模,FIFO扩散在生成视频时往往难以保持长范围的时间一致性。在本文中,我们提出了Ouroboros-Diffusion,这是一种新颖的视频去噪框架,旨在增强结构和内容(主题)一致性,从而实现任意长度的一致性视频生成。具体而言,我们在队列尾部引入了一种新的潜在采样技术,以改善结构一致性,确保帧之间的感知平滑过渡。为了增强主题一致性,我们设计了一种主题感知跨帧注意机制(SACFA),该机制在短段落内对齐跨帧的主题,以实现更好的视觉连贯性。此外,我们引入了自递归引导技术。该技术利用队列前端所有先前清晰帧的信息来指导队列末端更嘈杂帧的去噪,促进丰富的上下文全局信息交互。在VBench基准上进行的长视频生成的广泛实验表明,我们的Ouroboros-Diffusion在主题一致性、运动平滑性和时间一致性方面具有显著优势。
关键词:Ouroboros-Diffusion, 视频扩散, 长视频生成, 结构一致性, 内容一致性, 无需调优, FIFO视频扩散, 时序一致性, 主题感知跨帧注意力, 自递归引导, 视频去噪框架, 实验评估, VBench基准, 高效
发布时间:2025年01月16日 AM02:59 (北京时间)
更新时间:2025年01月16日 AM02:59 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
8. T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
作者:Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
介绍:文本到视频(T2V)生成模型已经取得了显著进展,但其将不同对象、属性、动作和运动组合成视频的能力尚未得到充分探索。以往的文本到视频基准测试同样忽视了这种重要的评估能力。在本研究中,我们进行了一项关于组合文本到视频生成的首次系统性研究。我们提出了T2V-CompBench,这是第一个专为组合文本到视频生成设计的基准测试。
T2V-CompBench涵盖了组合性的多个方面,包括一致的属性绑定、动态属性绑定、空间关系、运动绑定、动作绑定、对象互动和生成的数量感知。我们还精心设计了基于多模态大型语言模型(MLLM)、检测和跟踪的评估指标,这些指标能够更好地反映1400个文本提示下七个提议类别的组合文本到视频生成质量。我们通过与人类评估的相关性验证了所提出指标的有效性。此外,我们还对多种文本到视频生成模型进行了基准测试,并对不同模型和各种组合类别进行了深入分析。我们发现,组合文本到视频生成对当前模型而言极具挑战性,我们希望我们的尝试能够为未来在这一方向的研究提供启示。
关键词:文本到视频生成, T2V-CompBench, 组合生成, 生成模型, 属性绑定, 空间关系, 动作绑定, 对象交互, 生成数值, 多模态大语言模型, 评估指标, 基准测试, 人工评估, 组合类别, 深度分析, 计算机视觉
发布时间:2024年07月20日 AM01:58 (北京时间)
更新时间:2025年01月16日 AM02:57 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
9. Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
作者:Ruixiang Jiang, Changwen Chen
介绍:我们提出了首个关于多模态大型语言模型(MLLMs)推理能力如何被引导以评估艺术作品美学的研究。为了促进这一研究,我们构建了MM-StyleBench,一个用于艺术风格化基准测试的新型高质量数据集。接着,我们开发了一种系统的人类偏好建模方法,并对MLLMs的反应与人类偏好之间进行系统的相关性分析。实验结果揭示了MLLMs在艺术评估中固有的幻觉问题,这与反应的主观性有关。我们提出了ArtCoT,证明了特定于艺术的任务分解及具体语言的使用显著提升了MLLMs在美学上的推理能力。我们的研究结果为MLLMs在艺术领域提供了宝贵的见解,并可为风格迁移和艺术图像生成等广泛的下游应用带来益处。代码可在 https://github.com/songrise/MLLM4Art 获取。
关键词:根据提供的信息生成的中国关键词如下:, 多模态语言模型、美学推理、零样本学习、艺术风格化、人机偏好建模、数据集、多模态风格化基准测评平台、艺术任务分解、语言具体化、艺术生成、风格转移、多模态语言理解、美学评估、计算机视觉、人工智能、计算机语言学、多媒体处理。
发布时间:2025年01月16日 AM02:56 (北京时间)
更新时间:2025年01月16日 AM02:56 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
10. SimGen: A Diffusion-Based Framework for Simultaneous Surgical Image and Segmentation Mask Generation
作者:Aditya Bhat, Rupak Bose, Chinedu Innocent Nwoye, Nicolas Padoy
介绍:获取和标注外科数据通常需要大量资源,同时受到伦理限制,并且需要显著的专家参与。尽管像图像生成类的生成式人工智能模型能够缓解数据短缺的问题,但在精确驱动的外科应用、模拟和教育中,结合空间注释(如分割掩码)至关重要。本研究提出了一项新任务和方法——SimGen,用于同时生成图像和掩码。SimGen是基于扩散模型的DDPM框架和残差U-Net,旨在共同生成高保真的外科图像及其相应的分割掩码。该模型利用交叉相关先验来捕捉连续图像和离散掩码分布之间的依赖关系。此外,采用了标准Fibonacci格(CFL)来增强RGB空间中掩码的类可分性和均匀性。SimGen生成的高保真图像和准确的分割掩码在图像和语义发生距离指标上超越了六个公共数据集的基线评价。消融研究表明,CFL提升了掩码的质量和空间分离性。后续实验表明,若法规限制人类数据用于研究,则生成的图像-掩码对仍可用。本研究为生成配对的外科图像及复杂标签提供了一种具有成本效益的解决方案,通过减少对昂贵手动注释的需求,推动外科人工智能的发展。
关键词:SimGen, 扩散模型, 外科图像, 分割掩膜生成, 生成式AI, 数据匮乏, 空间注释, 高保真图像, 语义分割, 交叉相关先验, 经典斐波那契格子, 图像和掩膜对, 人工智能, 手术教育, 资源节约, 数据注释, 下游实验, 成本效益解决方案, 自动化标签生成, 深
发布时间:2025年01月16日 AM02:48 (北京时间)
更新时间:2025年01月16日 AM02:48 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
11. DeblurDiNAT: A Compact Model with Exceptional Generalization and Visual Fidelity on Unseen Domains
作者:Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu
介绍:近年来的去模糊网络有效地从模糊的图像中恢复清晰图像。但是,它们往往难以在未知域推广。此外,这些模型通常注重像PSNR和SSIM这样的失真度指标,而忽视了与人类感知相吻合的关键方面。为了解决这些局限性,我们提出了DeblurDiNAT,基于稀疏邻居关注的转换器去模糊网络。首先,DeblurDiNAT采用交替加权倍增因子策略来抓住局部和全局模糊模式,增强推广能力和感知清晰度。其次,局部交叉通道学习者协助转换器块理解相邻通道的短程关系。此外,我们呈现了一个简单而有效的线性前馈网络。最后,我们引入了一个双级特征融合模块作为现有方法的替代方案,高效处理多尺度视觉信息跨网元级别。相比于当前最佳模型,我们的紧凑型DeblurDiNAT展示出优异的推广能力,并在感知度指标上取得了优异的表现,同时保持了有利的模型大小。
关键词:图像去模糊, 膨胀邻域注意力, 变换器模型, 感知清晰度, 一般化能力, 多尺度特征融合, 视觉信息处理, 人类感知度量, 清晰图像恢复, 模型压缩, 视觉保真度
发布时间:2024年03月20日 AM05:31 (北京时间)
更新时间:2025年01月16日 AM02:45 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
12. Vision Foundation Models for Computed Tomography
作者:Suraj Pai, Ibrahim Hadzic, Dennis Bontempi, Keno Bressem, Benjamin H. Kann, Andriy Fedorov, Raymond H. Mak, Hugo J. W. L. Aerts
介绍:基础模型(FMs)在放射学领域展现出了变革性潜力,能够在不同的影像学模式下执行多样且复杂的任务。本文开发了一种名为CT-FM的大规模三维影像预训练模型,专门针对多种放射学任务进行设计。CT-FM的预训练使用了来自影像数据共享平台的148,000个计算机断层扫描(CT)图像,采用无标签对比学习方法进行。我们在四类任务中评估了CT-FM的表现,这些任务包括全身及肿瘤分割、头部CT筛查、医学影像检索以及语义理解,结果显示其性能优于现有的先进模型。除了定量评估的成功,CT-FM还表现出对解剖区域的聚类能力,能够识别扫描中相似的解剖和结构概念。此外,它在重复测试设置中保持了良好的稳健性,并显示出与其嵌入相关的合理显著区域。此研究展示了大规模医学影像基础模型的价值,并通过开源模型权重、代码和数据,旨在支持放射学领域更具适应性、可靠性和可解释性的人工智能解决方案。
关键词:医学影像, 计算机断层扫描, 基础模型, 预训练模型, 3D图像, 肿瘤分割, 全身分割, 头部CT, 医学图像检索, 语义理解, 对比学习, 解剖区域聚类, 结构概念识别, 测试重测, 医学影像AI, 开源模型
发布时间:2025年01月16日 AM02:30 (北京时间)
更新时间:2025年01月16日 AM02:30 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
13. Click-Calib: A Robust Extrinsic Calibration Method for Surround-View Systems
作者:Lihao Wang
介绍:Surround-View系统(SVS)是高级驾驶辅助系统(ADAS)的基本组成部分,对其准确校正至关重要。然而,传统的离线外部校正方法繁琐且耗时,其依赖于物理模式,因此难以获得满意的准确性。这些方法主要关注车辆周围的短距离区域,因此在更远的区域的校正质量较差。在解决这些限制的基础上,我们提出Click-Calib,一个不依赖模式的离线SVS外部校正方法。用户不需要特殊设置,只需要点击几点在自然环境中,点击的位置将作为关键点,Click-Calib通过最小化关键点的投影误差来优化相机位姿,能够在短距离和远距离范围内获得准确的校正。相比其他离线校正方法,Click-Calib支持单帧和多帧模式,后者能够提供更好的效果。利用我们的内部数据集和公开数据集(WoodScape)进行评估表明,其准确性和鲁棒性在所有baseline方法中更出色。相关代码可在以下地址找到:https://github.com/lwangvaleo/click_calib。
关键词:周视系统,外部校准,先进驾驶辅助系统,Click-Calib,图像处理,标定方法,无模式校准,精确校准,摄像机姿态,重投影误差,单帧模式,多帧模式,准确性,鲁棒性,数据集,计算机视觉
发布时间:2025年01月03日 AM06:24 (北京时间)
更新时间:2025年01月16日 AM02:29 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
14. A General Framework for Inference-time Scaling and Steering of Diffusion Models
作者:Raghav Singhal, Zachary Horvitz, Ryan Teehan, Mengye Ren, Zhou Yu, Kathleen McKeown, Rajesh Ranganath
介绍:在模态范围从图像和视频到蛋白质设计和文本,扩散模型的表现令人印象深刻。然而,生成满足用户指定特性的样本仍然是一个挑战。近期研究提出通过优化能量函数来对扩散模型进行微调,捕捉所需属性,然而,这些方法需要昂贵的训练并容易发生模式收缩。在本研究中,我们提出Feynman Kac(FK)控制方法,这是一个用于在推理阶段调整扩散模型的框架,能够根据reward函数调整扩散模型。FK控制方法通过采样多个彼此相互作用的扩散过程,称为粒子,来工作,并在中间步骤根据潜势函数计算的得分来重新采样粒子。潜势函数是根据中间状态的奖励定义的,并且选择潜势函数的方式是,高值得分表示粒子将产生高奖励样本。我们探索不同的潜势函数、中间奖励和采样器选择。我们评估FK控制方法在文本到图像和文本扩散模型上。对于使用人类偏好奖励对文本到图像模型的控制,我们发现FK控制方法能够让一个0.8B参数模型超越一个2.6B参数微调模型,在提示的忠诚度方面取得了更好的结果,速度更快,且无需培训。在文本扩散模型上使用对于文本质量和特定文本属性的奖励,我们发现FK控制方法能够生成更低的困惑度,更有语言接受性的输出并且能够以无梯度的方式控制属性如毒害性。我们的结果证明了,仅仅依赖推理阶段的扩散模型的比例和控制,可以获得重要的样本质量提高及其控制性益处。我们的代码可以在https://github.com/zacharyhorvitz/Fk-Diffusion-Steering中找到。
关键词:扩散模型, 推理时间, 调整框架, Feynman Kac, 奖励函数, 采样, 中间奖励, 文本到图像, 文本扩散模型, 模型调优, 样本质量, 控制属性, 生成样本, 计算机视觉, 自然语言处理, 基于奖励的调整
发布时间:2025年01月12日 PM11:34 (北京时间)
更新时间:2025年01月16日 AM02:28 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
15. RepVideo: Rethinking Cross-Layer Representation for Video Generation
作者:Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
介绍:视频生成在扩散模型的引入下取得了显著进展,这些模型显著提高了生成视频的质量。然而,近期的研究主要集中在模型训练的规模扩展上,对于表示在视频生成过程中的直接影响提供的见解较为有限。本文首先研究了中间层特征的特性,发现不同层之间的注意力图存在显著差异。这些差异导致了不稳定的语义表示,并导致特征之间的累积差异,从而最终降低了相邻帧之间的相似性,并对时间一致性产生负面影响。为了解决这一问题,我们提出了RepVideo,一种增强的文本到视频扩散模型表示框架。通过从相邻层累积特征以形成丰富的表示,这种方法捕获了更稳定的语义信息。这些增强的表示随后作为输入用于注意力机制,从而在确保相邻帧之间特征一致性的同时,提高语义表达能力。大量实验证明,我们的RepVideo不仅显著增强了生成准确空间外观的能力,例如捕捉多个物体之间复杂的空间关系,而且改善了视频生成中的时间一致性。
关键词:根据提供的信息,以下是生成的中文关键词:
计算机视觉, 视频生成, Diffusion 模型, 表示学习, 多层表示, 注意力机制, 时空一致性, spatial关系, 表示积累
如果您希望简化这些关键词,可以将其合并为:
计算机视觉, 视频生成, 表示学习, 多层表示, 注意力机制, 时空一致性
发布时间:2025年01月16日 AM02:20 (北京时间)
更新时间:2025年01月16日 AM02:20 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
16. SA-MLP: A Low-Power Multiplication-Free Deep Network for 3D Point Cloud Classification in Resource-Constrained Environments
作者:Qiang Zheng, Chao Zhang, Jian Sun
介绍:点云分类在处理和分析来自3D传感器(如LiDAR)的数据中发挥着至关重要的作用,这些传感器广泛应用于自动驾驶汽车、机器人技术和环境监测等领域。然而,传统的神经网络由于过度依赖乘法运算,通常在计算成本和能耗方面面临挑战。本研究提出了一种新颖的高效多层感知器(MLP)架构系列,旨在提高传感器系统中点云分类任务的计算效率。基线模型Mul-MLP采用传统的乘法运算,而Add-MLP和Shift-MLP分别用加法和移位运算替代乘法。这些替代运算利用了更加适合传感器的操作,能够显著减少计算开销,特别适合资源受限的传感器平台。为了进一步提升性能,我们提出了SA-MLP,这是一种混合架构,通过在移位层和加法器层之间交替,保留了网络的深度,同时优化了计算效率。与此前的方法ShiftAddNet不同,后者通过冻结移位权重来增加层数并限制表征能力,SA-MLP充分利用了移位层和加法器层的互补优势,采用不同的学习率和优化器。实验结果表明,Add-MLP和Shift-MLP相比Mul-MLP能够实现具有竞争力的性能,而SA-MLP则超越了基线模型,在分类准确性和计算效率方面的表现与最先进的MLP模型可相媲美。本研究为需要实时点云分类的传感器驱动应用提供了一种有前景的、节能的解决方案,尤其适用于计算资源有限的环境。
关键词:SA-MLP, 低功耗, 无乘法, 深度网络, 3D点云分类, 资源受限环境, 点云分类, 计算效率, LiDAR, 自主车辆, 机器人学, 环境监测, Mul-MLP, Add-MLP, Shift-MLP, 混合架构, 计算优化, 能源消耗, 实时分类, 传感器驱动应用
发布时间:2024年09月03日 PM11:43 (北京时间)
更新时间:2025年01月16日 AM02:07 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
17. Lightweight Security for Ambient-Powered Programmable Reflections with Reconfigurable Intelligent Surfaces
作者:Andreas Kunz, Sheeba Backia Mary Baskaran, George C. Alexandropoulos
介绍:环境物联网(AIoT)形成了一种新兴技术类别,承诺为以前未连接的设备和产品提供普遍的无线连接,帮助依赖于此的行业(例如,供应链、服装、远程监控、气候监测和传感器)获得细粒度的实时服务可视化。这些超低复杂度和功耗的设备,无论是无电池的还是具有限能量存储能力的,都能够提供关于被监测对象(例如环境或物品)状态的数据流,使得任何应用服务器能够进行主动或被动的控制。尽管涉及AIoT设备的数据安全对任何依赖的操作系统的关键决策至关重要,但由于设备的能量和计算限制,实现资源密集型的密码算法及其他安全机制几乎变得不可行或非常具有挑战性。本研究提出了一种轻量级安全解决方案,能够在包括AIoT的无线链路中实现保密性、完整性和隐私保护。我们以一种环境供能的可重构智能表面(RIS)为案例,该表面从其入射的无线电波中收集能量,以实现可编程的反射波束成形,从而支持基站(BS)与终端用户之间的通信。所提议的轻量级安全解决方案应用于基站与RIS控制器之间的控制通道,该控制器负责元表面的动态管理和相位配置优化。
关键词:轻量级安全, 环境物联网, 可重构智能表面, 无线连接, 数据隐私保护, 低功耗设备, 加密算法, 实时服务可视化, 反射波束成形, 基站, 终端通信, 控制通道, 信号完整性, 能量收集, 动态管理, 计算限制
发布时间:2025年01月16日 AM02:43 (北京时间)
更新时间:2025年01月16日 AM02:43 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
18. Towards Fast, Specialized Machine Learning Force Fields: Distilling Foundation Models via Energy Hessians
作者:Ishan Amin, Sanjeev Raja, Aditi Krishnapriyan
介绍:机器学习基础模型 (FM)范式正在转变化学机器学习 (MLCF)领域,由于其利用通用目的表示和可扩展训练来执行各种计算化学任务。虽然基于第一原理的方法相对于首要原理方法已经取得了准确性优势,但仍旧存在提高推理速度的强烈需求。此外,研究日益转向通用目的模型,这些模型可以在有机化学空间中转移,但现实中实践者通常研究的小子集的系统,导致了对特定下游应用的快速、专门化的MLCF需求,同时这些特化模型仍保留了测试时间物理合理性,并且保持了训练时间的可扩展性。
本工作中,我们提出了将通用目的表示从MLCF基础模型转移至较小、快速的MLCF模型的方法,这些模型专门用于特定的化学空间区域。我们将其方法定义为知识蒸馏过程,其中较小的"学生" MLCF模型训练来匹配"老师"基础模型的能量预测的Hessian矩阵。我们的特化MLCF可以达到原有基础模型20倍的速度,而保留其在某些情况下甚至超过原始基础模型的性能。此外,我们还证明了利用具有直接力参数化的教师模型训练在保守力场(即从潜力能计算出的导数)的学生模型成功地利用了来自大型教师的表示来提高准确度,同时保持了能量守恒在测试时间分子动力学模拟中。
更广泛来说,我们的工作表明了机器学习力场 (MLFF)开发新的范式,即将基础模型与用于公共化学子集的小型、专门化模拟引擎一起发布。
关键词:机器学习力场, 基础模型, 能量海森矩阵, 知识蒸馏, 专用模型, 计算化学, 预测准确性, 模拟引擎, 物理可靠性, 化学空间, 分子动力学, 能量守恒, 快速推理, 模型转移, 小型化模型
发布时间:2025年01月16日 AM02:50 (北京时间)
更新时间:2025年01月16日 AM02:50 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
19. Improving Stability Estimates in Adversarial Explainable AI through Alternate Search Methods
作者:Christopher Burger, Charles Walter
介绍:机器学习模型的有效性取得了重大进展,但其复杂性迅速增加,导致难以理解其功能本质。局部替代方法被用于近似这些复杂模型的工作原理,但最近的研究表明这些替代方法在面对恶意攻击时会产生不同的解释,同时复杂模型的输出内容和结构仍然相似。过去的研究主要关注这些弱点的存在,而不是其规模。我们在本研究中探索使用一个替代搜索方法的目标是找到最少的可行干扰,使原始内容与被修改文本的解释之间达到固定相似度。在直观的理解中,需要更少干扰来暴露给定程度的不稳定性的方法比需要更多干扰的方法更差,因此这种细微差别使得可比性的解释方法的稳定性的比较变得更为准确和有效。
关键词:对抗性可解释人工智能, 稳定性估计, 机器学习模型, 局部代理方法, 解释性, 攻击脆弱性, 最小可行扰动, 稳定性比较, 复杂模型, 解释生成
发布时间:2025年01月16日 AM02:45 (北京时间)
更新时间:2025年01月16日 AM02:45 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
20. Delay Sensitive Hierarchical Federated Learning with Stochastic Local Updates
作者:Abdulmoneam Ali, Ahmed Arafa
介绍:本研究探讨了局部平均对联邦学习(FL)系统性能的影响,特别是在客户端与参数服务器之间存在通信延迟的情况下。为尽量减少延迟的影响,客户端被分配到不同的组中,每组都有自身的局部参数服务器(LPS),用于聚合该组客户端的模型。这些组的模型随后在一个仅与LPS进行通信的全局参数服务器(GPS)上进行聚合。这种设置被称为层次化联邦学习(HFL)。与文献中的大多数研究不同,我们的研究随机确定了每组客户端在局部和全局通信回合中的数量,这些数量受各组客户端所经历的(不同的)延迟影响。具体来说,局部平均回合的数量与一个称为同步时间(S)的墙钟时间段相关,之后LPS通过与GPS共享模型来同步其模型。这样的同步时间(S)将被重复使用,直到全球墙钟时间耗尽。
首先,推导了每个LPS中更新后的模型与GPS中可用模型之间偏差的上界。这一结果随后被用作工具,以得到我们提出的延迟敏感HFL算法的收敛性分析,首先是在每个LPS中独立进行,然后在GPS中进行。我们的理论收敛界限展示了整个系统参数的影响,包括组的数量、每组的客户端数量以及(S)的值。我们的结果表明,(S)的值应该仔细选择,特别是在训练时间有限的情况下,因为它会隐含地影响延迟统计对HFL性能的影响。
关键词:延迟敏感, 层次联合学习, 随机本地更新, 通信延迟, 本地参数服务器, 全局参数服务器, 模型聚合, 收敛性分析, 系统参数, 同步时间, 性能影响, 训练时间限制, 联合学习系统
发布时间:2023年02月10日 AM02:54 (北京时间)
更新时间:2025年01月16日 AM02:45 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
21. Reward Machines for Deep RL in Noisy and Uncertain Environments
作者:Andrew C. Li, Zizhao Chen, Toryn Q. Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A. McIlraith
介绍:奖励机器提供了一种受自动机启发的结构,用于指定指令、安全约束及其他时间扩展的奖励行为。通过揭示奖励函数的基础结构,它们使得强化学习任务的分解成为可能,从而显著提高样本效率。尽管奖励机器及类似的形式化规范在序列决策问题上有着丰富的应用历史,但它们在很大程度上依赖于对构成奖励函数基本要素的领域特定词汇的准确理解。然而,在真实世界中,这种准确理解往往难以获得,部分原因是由于部分可观测性和传感器噪声。在本研究中,我们探讨了在噪声和不确定环境中使用奖励机器进行深度强化学习的方法。我们将该问题模型化为部分可观测马尔可夫决策过程(POMDP),并提出了一套强化学习算法,以利用在领域特定词汇不确定解释下的任务结构。通过理论分析和实验,我们揭示了对该问题的简单处理方法中的陷阱,同时演示了如何在对词汇的噪声解释中成功利用任务结构。
关键词:奖励机器, 深度强化学习, 噪声环境, 不确定性环境, POMDP, 任务结构, 强化学习算法, 样本效率, 部分可观察性, 领域特定词汇, 实验, 理论分析, 决策问题, 自动机结构, 安全约束
发布时间:2024年06月01日 AM02:22 (北京时间)
更新时间:2025年01月16日 AM02:30 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
22. A General Framework for Inference-time Scaling and Steering of Diffusion Models
作者:Raghav Singhal, Zachary Horvitz, Ryan Teehan, Mengye Ren, Zhou Yu, Kathleen McKeown, Rajesh Ranganath
介绍:扩散模型在图像、视频、蛋白质设计和文本等多种领域取得了令人瞩目的成果。然而,生成具有用户指定属性的样本仍然是一个挑战。最近的研究提出通过微调模型以最大化捕捉所需属性的奖励来解决这一问题,但这些方法需要昂贵的训练且容易出现模式崩溃。在本研究中,我们提出了一种名为费曼-卡克(Feynman Kac,简称FK)引导的推断时间框架,用于利用奖励函数引导扩散模型。FK引导通过对多个相互作用的扩散过程系统进行采样(称为粒子),并在中间步骤根据使用潜在函数计算的得分重新采样粒子进行工作。潜在函数是通过对中间状态的奖励定义的,并经过选择,以便高值指示粒子将生成高奖励的样本。我们探索了潜在函数、中间奖励和采样器的多种选择,并在文本到图像和文本扩散模型上评估FK引导。对于使用人类偏好奖励引导文本到图像模型的实验,我们发现FK引导的一个具有8亿参数的模型在提示保真度方面优于一个经过微调的26亿参数模型,同时实现了更快的采样且无需训练。对于使用文本质量和特定文本属性奖励引导文本扩散模型的实验,我们发现FK引导生成的输出具有更低的困惑度和更高的语言可接受性,并能够无梯度控制诸如毒性等属性。我们的结果表明,基于推断时间的扩散模型的扩展与引导,即使使用现成的奖励,也能显著提升样本质量和可控性。代码可在以下地址获取:https://github.com/zacharyhorvitz/Fk-Diffusion-Steering 。
关键词:扩散模型, 推理时间, 规模控制, 奖励函数, 多个相互作用的扩散过程, Feynman Kac, 样本生成, 文本到图像, 文本扩散模型, 人类偏好奖励, 高奖赏样本, 属性控制, 质量提升, 无梯度控制, 采样, 训练免疫, 属性可控性
发布时间:2025年01月12日 PM11:34 (北京时间)
更新时间:2025年01月16日 AM02:28 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
23. CrystalGRW: Generative Modeling of Crystal Structures with Targeted Properties via Geodesic Random Walks
作者:Krit Tangsongcharoen, Teerachote Pakornchote, Chayanon Atthapak, Natthaphon Choomphon-anomakhun, Annop Ektarawong, Björn Alling, Christopher Sutton, Thiti Bovornratanaraks, Thiparat Chotibut
介绍:确定候选晶体材料的热力学稳定性依赖于识别其真实的基态结构,这是计算材料科学中的一项核心挑战。我们提出了CrystalGRW,一种基于扩散的生成模型,定义在黎曼流形上,能够提出新颖的晶体构型,并通过密度泛函理论预测稳定的相。这些晶体性质,如分数坐标、原子类型和晶格矩阵,均在适当的黎曼流形上表示,从而确保通过扩散过程生成的新预测能够保持晶体结构的周期性。我们还引入了等变图神经网络,以在生成过程中考虑旋转和位移对称性。CrystalGRW展现了生成接近基态的真实晶体结构的能力,其准确性可与现有模型相媲美,同时还能实现条件控制,比如指定期望的晶体学点群。这些特性有助于加速材料发现和逆设计,通过提供稳定且符合对称性的一系列晶体候选材料,为实验验证奠定基础。
关键词:这里生成的中文关键词如下:, 晶格随机漫步(CrystalGRW)、晶体结构生成、目标性质生成、几何随机漫步、晶格结构稳定性、计算材料科学、密度功能理论、晶格属性、equivariant图神经网络、高斯随机漫步、晶体结构模拟、晶体发现、晶体反向设计、几何流形、晶格相转换。
发布时间:2025年01月16日 AM02:26 (北京时间)
更新时间:2025年01月16日 AM02:26 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
24. VECT-GAN: A variationally encoded generative model for overcoming data scarcity in pharmaceutical science
作者:Youssef Abdalla, Marrisa Taub, Eleanor Hilton, Priya Akkaraju, Alexander Milanovic, Mine Orlu, Abdul W. Basit, Michael T Cook, Tapabrata Chakraborty, David Shorthouse
介绍:药物研究中的数据稀缺导致了对劳动密集型的试错方法的依赖,而非基于数据的方法。虽然机器学习提供了一种解决方案,但现有数据集通常较小且存在噪声,限制了其应用效用。为了解决这一问题,我们开发了一种变分编码条件表格生成对抗网络(VECT GAN),这是一种专门用于增强小型、噪声数据集的新型生成模型。我们提出了一种工作流程,在回归模型开发之前对数据进行增强,并展示了这一方法在性能上显著优于其他最先进的表格生成模型。我们将这一工作流程应用于六个药物数据集,并通过开发具有医用理想粘附性特性的创新聚合物,展示了其在现实世界中的适用性,这些聚合物经过实验验证了其特性。此外,我们将模型在药物相似分子数据库ChEMBL上进行了预训练,利用知识蒸馏方法提升其泛化能力,使其能够方便地应用于包含小分子的药物数据集,这一任务在药物开发中极为常见。我们展示了合成数据在规范小型表格数据集中的潜力,强调其在药物模型开发中成为标准实践的可能性,并提供了我们的方法,包括预训练于ChEMBL的VECT GAN,以pip包的形式供大家使用。
关键词:VECT-GAN, 生成模型, 药物科学, 数据稀缺, 变分编码, 条件对抗生成网络, 数据增强, 回归模型, 药物数据库, ChEMBL, 小分子, 辅助粘合特性, 合成数据, 药物研发, 机器学习
发布时间:2025年01月16日 AM02:23 (北京时间)
更新时间:2025年01月16日 AM02:23 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF
25. Optimal Federated Learning for Functional Mean Estimation under Heterogeneous Privacy Constraints
作者:Tony Cai, Abhinav Chakraborty, Lasse Vuursteen
介绍:联邦学习(FL)是一种分布式机器学习技术,旨在保护数据隐私和安全性,因其广泛的应用前景而变得尤为重要。本文探讨了在联邦设置中从离散采样数据中最优估计功能均值的问题。
我们考虑一种异质框架,其中个体数量、每个个体的测量次数以及隐私参数在一个或多个服务器之间是变化的,包括共同设计和独立设计两种情况。在共同设计中,每个个体测量相同的设计点,而在独立设计中,每个个体拥有各自随机选择的设计点。在此框架下,我们为基础均值函数的估计误差建立了最小最大上界和下界,强调了在分布式隐私约束下共同设计和独立设计之间的细微差别。
我们提出了实现隐私与准确性之间最优权衡的算法,并提供了量化多样化分布式设置中私有功能均值估计的基本限制的最优性结果。这些结果描绘了隐私的成本,并为在联邦环境中进行隐私保护的统计分析提供了实用的见解。
关键词:以下是根据论文内容生成的适合中文关键词:
联邦学习, 功能平均值估计, 隐私约束, 分布式机器学习, 敏感性分析, 统计估计理论, 混沌设计, 随机设计, 混沌学习, 混沌机器学习
或简化为:
联邦学习, 混沌设计, 隐私约束, 混沌学习, 统计估计理论
英文关键词:Federated learning, Chaotic design, Privacy constraints, Chaotic learning, Statistical estimation theory
发布时间:2024年12月26日 AM06:06 (北京时间)
更新时间:2025年01月16日 AM02:07 (北京时间)
文章地址: 立即访问
Arxiv Paper: View Online PDF