AP今日文章 | 2025-01-16

1. PokerBench: Training Large Language Models to become Professional Poker Players

作者:Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli
介绍:我们介绍了PokerBench——一个用于评估大型语言模型(LLMs)扑克游戏能力的基准。尽管LLMs在传统自然语言处理任务中表现出色,但将其应用于复杂的战略游戏如扑克,仍然带来了新的挑战。扑克作为一个不完全信息游戏,要求具备多种技能,包括数学、推理、规划、策略,以及对博弈论和人类心理的深刻理解。这使得扑克成为大型语言模型的理想新前沿。PokerBench包含了11,000个最重要的场景,涵盖了翻牌前和翻牌后的玩法,且开发过程中与受过训练的扑克玩家进行了合作。

我们评估了包括GPT-4、ChatGPT 3.5,以及多个Llama和Gemma系列模型在内的著名模型,发现所有先进的LLMs在进行优化扑克游戏时表现不佳。然而,经过微调后,这些模型显示出显著的改善。我们通过让不同得分的模型相互竞争来验证PokerBench,结果证明在PokerBench上的更高得分确实导致实际扑克游戏中的更高获胜率。通过与GPT-4的游戏对比,我们还识别出简单的监督微调在学习最佳游戏策略方面的局限性,这表明需要更加先进的方法来有效训练语言模型以在游戏中表现出色。因此,PokerBench不仅为快速可靠地评估LLMs的扑克游戏能力提供了独特基准,还为研究LLMs在复杂游戏场景中的进展提供了全面的基准。数据集和代码将发布在:\url{https://github.com/pokerllm/pokerbench}。
关键词:关键词:大型语言模型, 托管评估基准, 评估语言模型, 评估基准, 托管基准测试, 案例研究, 案例, poker, 诊断, 语言建模, 机器学习
发布时间:2025年01月15日 AM02:59 (北京时间)
更新时间:2025年01月15日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


2. ADAM-1: AI and Bioinformatics for Alzheimer's Detection and Microbiome-Clinical Data Integrations

作者:Ziyuan Huang, Vishaldeep Kaur Sekhon, Ouyang Guo, Mark Newman, Roozbeh Sadeghian, Maria L. Vaida, Cynthia Jo, Doyle Ward, Vanni Bucci, John P. Haran
介绍:一项名为Alzheimer's Disease Analysis Model Generation 1(ADAM)的多元代理式大型语言模型(LLM)框架旨在整合和分析多模态数据,包括微生物群体-profile、临床数据集和外部知识库,为痴呆症(AD)的理解和诊断提供支持。通过将检索增强生成(RAG)技术与其代理式架构结合起来,ADAM-1综合了来自各类数据源的见解,并利用文献驱动的证据来上下文化结果。与XGBoost进行了比较的评估结果表明,ADAM-1在平均F1得分方面表现类似,但具有显著的减少不确定性,展示了其抗干扰能力和可靠性,特别是在小型实验室数据集上。虽然目前专注于二元分类任务,今后的迭代版本计划在包括神经影像和生物标志物等多元数据的基础上来扩展其可扩展性和适用性,为痴呆症研究和诊断提供更广泛的应用。

注:此翻译内容保持了原文的学术风格和原意,旨在传达出ADAM模型的概念和优点。
关键词:阿尔茨海默病, 多模态数据, 微生物组, 临床数据, 人工智能, 生物信息学, 医学数据整合, 机器学习, 深度学习, 检测模型, 模型评估, XGBoost, 神经影像, 生物标志物, 二元分类, 数据可扩展性, 数据一致性
发布时间:2025年01月15日 AM02:56 (北京时间)
更新时间:2025年01月15日 AM02:56 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


3. Diffusion Adversarial Post-Training for One-Step Video Generation

作者:Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
介绍:在图像和视频生成领域,扩散模型(diffusion model)被广泛使用,但它们的迭代生成过程较慢且消耗资源大。虽然现有的压缩(distillation)方法已展示了一步生成的潜力,但仍然存在质量下降的问题。 本文提出了一种对抗性后训练(Adversarial Post-Training, APT)方法,结合扩散预训练和真实数据训练,用于一步视频生成。为了改进训练稳定性和质量,我们对模型架构和训练流程进行了改进,并引入了一个近似R1正则化目标函数。实验结果表明,我们的对抗性后训练模型Seaweed-APT可以在单步前向评估中生成2秒、1280x720、24fps的视频,并且能够生成1024px的图像,其质量与目前最先进的方法相当。
关键词:扩散模型, 对抗后训练, 单步视频生成, 生成质量, 训练稳定性, 模型架构, 近似R1正则化, 实时生成, 1280x720视频, 24fps, 1024px图像, 状态最先进的方法
发布时间:2025年01月15日 AM02:51 (北京时间)
更新时间:2025年01月15日 AM02:51 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


4. Polynomial Threshold Functions of Bounded Tree-Width: Some Explainability and Complexity Aspects

作者:Karine Chubarian, Johnny Joyce, Gyorgy Turan
介绍:多变量多项式的树宽是其对应的超图的树宽,其中超边与多项式的各项相对应。Makowsky 和 Meer 对具有有限树宽的多变量多项式进行了研究,提出了这一新的稀疏性条件,从而使一些在一般情况下不可解的问题实现多项式时间可解。我们探讨了这一主题在布尔变量上的变体。布尔函数的多项式符号表示称为多项式阈值表示。我们讨论了可以表示为有限树宽的多项式阈值函数的布尔函数,并介绍了两个在贝叶斯网络分类器中的应用,后者是一种概率图模型。这两个应用均属于可解释人工智能(XAI)领域,该领域研究许多近期机器学习模型的“黑箱”特性。同时,我们还给出了正多项式阈值函数与一般多项式阈值函数之间表示能力的分离结果。
关键词:多项式阈值函数, 有界树宽度, 可解释性, 复杂性, 布尔函数, 超图, 多元多项式, 贝叶斯网络分类器, 概率图模型, 可解释人工智能, 正多项式阈值函数, 一般多项式阈值函数
发布时间:2025年01月15日 AM02:28 (北京时间)
更新时间:2025年01月15日 AM02:28 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


5. HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

作者:Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
介绍:生成高质量和流畅的文本能力使得生成式大型语言模型(LLMs)在很多方面都表现出色。但是,它们也会产生幻觉,即与已知世界知识或提供的输入上下文不符的陈述。然而,衡量幻觉的难度很大,因为实时验证模型生成的内容,既昂贵又耗时。在本研究中,我们发布了HALoGEN,这是一个全面评估生成式模型幻觉的基准测试集,其中包括:

(1)涵盖程序设计、科学引用、摘要等九个领域的10,923个提示;

(2)针对每个应用场景提供高精度的自动验证工具,它们能够将LLM生成的内容分解为原子单元,并将每个单元与高质量的知识源进行验证。

我们使用这个框架评估了14种语言模型产生的约150,000个生成结果,发现即使是表现最好的模型也充满了幻觉(有时高达86%的产生的原子事实取决于领域)。我们进一步定义了基于以下三种错误类型来分类LLM幻觉:(A)错误回忆训练数据,(B)训练数据中的错误知识,(C)捏造。我们希望我们的框架为研究为什么生成式模型会产生幻觉提供了一个基础,并促进了可信赖的大型语言模型的发展。
关键词:生成式大型语言模型, HALoGEN, 幻觉, 质量评估, 知识对齐, 语言模型, 输入上下文, 自动验证, 故障分类, 训练数据, 科学引用, 编程, 总结, 基准测试, 信任模型
发布时间:2025年01月15日 AM02:13 (北京时间)
更新时间:2025年01月15日 AM02:13 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


6. A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps

作者:Ariel Larey, Eyal Rond, Omer Achrack
介绍:人脸识别技术在多个应用中的使用日益普及,但其易受到人脸欺诈攻击的威胁。这些欺诈攻击通常涉及独特的三维结构,如打印纸或移动设备屏幕。尽管立体深度摄像头能够有效检测此类攻击,但其高成本限制了广泛应用。相反,未进行外部标定的双传感器系统提供了一种经济有效的替代方案,但无法利用立体技术计算深度。在本研究中,我们提出了一种方法,利用面部特征推导视差信息,并估计相对深度,以实现防欺诈的目的,适用于未标定系统。我们引入了一种多模态防欺诈模型,称为视差模型(Disparity Model),该模型将创建的视差图作为第三种模态,与原有的两种传感器模态结合。我们利用从Intel RealSense ID Solution F455收集的综合数据集,验证了视差模型在抵御多种欺诈攻击中的有效性。我们的研究方法在文献中的现有方法基础上实现了更优的表现,在假阳性率(FPR)为1%时,等错误率(EER)仅为1.71%,假阴性率(FNR)为2.77%。这些误差比最佳对比方法分别降低了2.45%和7.94%。此外,我们还引入了一个模型集成,以应对三维欺诈攻击,在假阳性率为1%的情况下,实现了2.04%的等错误率和3.83%的假阴性率。总体而言,我们的研究为在缺乏深度信息的未标定系统中进行防欺诈这一具有挑战性的任务提供了先进的解决方案。
关键词:基于论文信息生成的中文关键词:

人脸反造攻击,非校准系统,多模态方法,视差图,非真实人脸检测,反造攻击识别,准确率,错误率。

关键词:人脸反造攻击, 人脸识别, 非校准系统, 多模态深度学习, 视差图, 非真实人脸检测, 反造攻击识别, 深度信息,准确率错误率等

关键词:人脸反造攻击, 非校准系统, 多模态方法, 视差图, 非真实人脸检测, 反造攻击识别
发布时间:2024年10月31日 PM11:29 (北京时间)
更新时间:2025年01月15日 AM02:03 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


7. DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models

作者:Hyeonwoo Kim, Sangwon Beak, Hanbyul Joo
介绍:理解人类使用物体的能力对人工智能改善日常生活至关重要。现有研究主要集中在静态情况下的人物与物体的模式(例如,接触、空间关系、定向),而对人-物体交互(HOI)模式随时间变化(即人和物体的移动)的学习探索相对较少。在本文中,我们引入了一种新的可供性类型,称为动态可供性。针对给定的输入三维物体网格,我们学习动态可供性,以建模在交互过程中(1)人类运动和(2)人类引导下的物体姿态的分布。作为核心思想,我们提出了一种方法,从合成生成的二维视频中学习三维动态可供性,利用预训练的视频扩散模型。具体而言,我们提出了一个流程,首先从三维物体生成二维HOI视频,然后将其提升为三维,生成四维HOI样本。一旦我们在各种目标物体上生成了多样的四维HOI样本,我们便训练我们的DAViD。其中,我们介绍了一种基于低秩适配(LoRA)模块的方法,用于预训练的人类运动扩散模型(MDM)和带有人体姿态指导的物体姿态扩散模型。我们的运动扩散模型扩展到了多物体交互,展示了我们流程使用LoRA结合物体使用概念的优势。通过广泛的实验,我们证明我们的DAViD在生成具有人-物体交互的运动方面优于基线模型。
关键词:动态赋形, 3D对象, 预训练视频扩散模型, 人机交互, 动态赋形建模, 2D视频生成, 4D HOI样本, 低秩适应, 多对象交互, 人物运动扩散模型, 对象姿态扩散模型, 人物引导, 实验验证, 计算
发布时间:2025年01月15日 AM02:59 (北京时间)
更新时间:2025年01月15日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


8. MangaNinja: Line Art Colorization with Precise Reference Following

作者:Zhiheng Liu, Ka Leong Cheng, Xi Chen, Jie Xiao, Hao Ouyang, Kai Zhu, Yu Liu, Yujun Shen, Qifeng Chen, Ping Luo
介绍:基于扩散模型,MangaNinjia致力于指导参考的线稿彩绘任务。我们采用了两种细致的设计,以确保准确的角色细节转录,包括:

  1. 一个切片混洗模块(patch shuffling module)来促进参考彩色图像和目标线稿之间的对应学习;

  2. 一个点驱动控制方案(point-driven control scheme)来实现细致的色彩匹配。

通过在自建基准(self-collected benchmark)上进行实验,我们证明了我们的模型在准确彩绘方面优于当前解决方案。我们还展现了提出相互作用点控制的潜力,在处理挑战性案例,跨角色彩绘,多参考调和等方面超过了现有的算法。
关键词:MangaNinja, 线条艺术上色, 参考引导, 细节转录, 补丁洗牌模块, 对应学习, 点驱动控制, 颜色匹配, 自收集基准, 模型优越性, 交互式点控制, 跨角色上色, 多参考协调, 算法性能
发布时间:2025年01月15日 AM02:59 (北京时间)
更新时间:2025年01月15日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


9. Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise

作者:Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
介绍:生成模型旨在将随机噪声转化为结构化的输出。在本研究中,我们通过结构化潜在噪声采样增强了视频扩散模型,以实现对运动的控制。这一方法仅需对数据进行改变:我们对训练视频进行预处理,从而产生结构化的噪声。因此,我们的方法对于扩散模型的设计是不可知的,无需对模型架构或训练流程进行任何修改。具体来说,我们提出了一种新颖的噪声扭曲算法,其运行速度足够快,能够实时执行,该算法通过替代随机时间高斯性,使用源自光流场的相关扭曲噪声,同时保持空间高斯性。我们的算法的高效性使得我们能够使用扭曲噪声对现代视频扩散基础模型进行微调,且仅需最小的开销,提供了一种便捷的解决方案,适用于多种用户友好的运动控制:局部物体运动控制、全局相机运动控制以及运动转移。我们扭曲噪声中的时间一致性与空间高斯性的统一,使得在保持逐帧像素质量的同时,实现了有效的运动控制。大量实验和用户研究证明了我们方法的优势,显示出它在视频扩散模型中控制运动的强大和可扩展性。视频结果可以在我们的网页找到:https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow/;源码和模型检查点可在GitHub上获取:https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow。
关键词:视频扩散模型, 运动控制, 结构化噪声, 噪声扭曲算法, 实时处理, 光流场, 时间一致性, 空间高斯性, 用户友好, 运动转移, 视频生成, 计算机视觉, 生成模型, 滤波技术, 实验研究
发布时间:2025年01月15日 AM02:59 (北京时间)
更新时间:2025年01月15日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


10. Predicting 4D Hand Trajectory from Monocular Videos

作者:Yufei Ye, Yao Feng, Omid Taheri, Haiwen Feng, Shubham Tulsiani, Michael J. Black
介绍:我们提出了HaPTIC,这是一种从单目视频中推断一致的四维手部轨迹的方法。当前基于视频的手势姿态重建方法主要集中在利用相邻帧来提高逐帧的三维姿态,而非研究空间中一致性的四维手部轨迹。尽管存在额外的时间线索,但由于标注视频数据的稀缺,它们通常相较于基于图像的方法表现不佳。为了解决这些问题,我们重新利用了一种最先进的基于图像的变换器,该变换器可以接收多个帧并直接预测一致的轨迹。我们引入了两种轻量级的注意力层:跨视角自注意力用于融合时间信息,全球交叉注意力则用于引入更大的空间背景。我们的方法推断出的四维手部轨迹与真实值相似,同时保持强大的二维重投影对齐。该方法适用于自我中心和他中心的视频。它在全局轨迹精度方面显著超越现有方法,同时在单图像姿态估计方面与最先进的方法相当。项目网站:https://judyye.github.io/haptic-www
关键词:基于提供的信息,以下是适合的中文关键词:, 人手轨迹预测、手部姿态识别、单相像处理、深度学习、4D轨迹、视觉处理、计算机视觉、自Attention机制、Transformer、跨视角自Attention、全局跨Attention
发布时间:2025年01月15日 AM02:59 (北京时间)
更新时间:2025年01月15日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


11. Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

作者:Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma
介绍:我们提出了Omni-RGPT,这是一种多模态大型语言模型,旨在促进对图像和视频的区域级理解。为了在时空维度上实现一致的区域表示,我们引入了Token Mark,一组突出目标区域的标记,这些标记在视觉特征空间中被直接嵌入到空间区域中(例如框或者掩码),并与文本提示同时结合,以明确指定目标,从而建立视觉标记与文本标记之间的直接联系。为了进一步支持稳健的视频理解而不依赖于轨迹,我们引入了一项辅助任务,该任务通过利用标记的一致性来指导Token Mark,使得对视频中区域的解读更加稳定。此外,我们还推出了一个大规模区域级视频指令数据集(RegVID-300k)。Omni-RGPT在基于图像和视频的常识推理基准测试中取得了最先进的结果,同时在字幕生成和指代表达理解任务中表现出色。
关键词:Omni-RGPT, 多模态大语言模型, 图像与视频理解, 区域级理解, Token Mark, 视觉特征空间, 区域提示, 文本提示, 视觉与文本标记连接, 视频理解, 辅助任务, 稳定区域解释, RegVID-300k, 常识推理基准, 图片标注, 指称表达理解
发布时间:2025年01月15日 AM02:58 (北京时间)
更新时间:2025年01月15日 AM02:58 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


12. GameFactory: Creating New Games with Generative Interactive Videos

作者:Jiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
介绍:生成式游戏引擎有潜力通过自主创造新内容和减少人工工作负担来彻底改变游戏开发。然而,现有的基于视频的游戏生成方法未能有效解决场景泛化的关键挑战,限制了其在固定风格和场景的现有游戏中的应用。本文提出了GameFactory,一个旨在探索游戏视频生成中场景泛化的框架。为了支持全新且多样化游戏的创建,我们利用了在开放域视频数据上训练的预训练视频扩散模型。为了解决开放域先验与小规模游戏数据集之间的领域差距,我们提出了一种多阶段训练策略,将游戏风格学习与动作控制解耦,既保持了开放域的泛化能力,又实现了动作的可控性。以Minecraft作为我们的数据源,我们发布了GF-Minecraft,一个高质量且多样化的带有动作标注的视频数据集供研究使用。此外,我们扩展了我们的框架,以实现自回归的动作可控游戏视频生成,允许生产无限长度的互动游戏视频。实验结果表明,GameFactory有效生成开放域、多样化且可控的游戏视频,标志着AI驱动游戏生成的重要进展。我们的数据集和项目页面已公开,访问地址为 \url{https://vvictoryuki.github.io/gamefactory/}。
关键词:生成游戏, 生成交互视频, 游戏引擎, 场景泛化, 视频生成, 游戏开发, 多阶段训练策略, 动作控制, 开放领域数据, Minecraft, 动作标注视频数据集, AI驱动游戏生成, 自动回归生成, 互动游戏视频
发布时间:2025年01月15日 AM02:57 (北京时间)
更新时间:2025年01月15日 AM02:57 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


13. Diffusion Adversarial Post-Training for One-Step Video Generation

作者:Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
介绍:扩散模型在图像和视频生成方面应用广泛,但其迭代生成过程较慢且耗费资源。目前的知识蒸馏方法已在图像领域展现了一步生成的潜能,但仍然遭殃于质量下降。 在本研究中,我们提出了一种在扩散前训练后的对抗式后训练(Adversarial Post-Training, APT)方案,使用真实数据跟随扩散前训练进行一步视频生成。 为了增强训练稳定性和视频质量,我们对模型架构和训练方法进行了一些改进,并且引入一个近似R1正则化目标函数。 通过实验,我们证明了我们的对抗式后训练模型,即Seaweed-APT,可以在单步前向评估步骤中实时生成2秒长度、1280x720分辨率、24fps的视频。此外,我们的模型可以在单步中生成1024px大小的图像,其质量高于当前顶级方法。

翻译后注:此文主要讲述了一个对视频生成模型的改进,通过对抗式后训练方法可以大幅提高生成视频的质量和速度,并且可以在短时间内生成高质量的图片。
关键词:基于论文信息,适合的中文关键词如下:, Diffusion, 训练、视频生成、一个步骤生成、生成模型、强化学习、对抗学习、数据蒸发、视频生成算法、生成, adversarial, 训练
发布时间:2025年01月15日 AM02:51 (北京时间)
更新时间:2025年01月15日 AM02:51 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


14. Rate-In: Information-Driven Adaptive Dropout Rates for Improved Inference-Time Uncertainty Estimation

作者:Tal Zeevi, Ravid Shwartz-Ziv, Yann LeCun, Lawrence H. Staib, John A. Onofrey
介绍:准确的不确定度估计对于风险敏感应用,例如医疗诊断的部署至关重要。使用dropout的蒙特卡洛法是一种广泛采用的技术来模拟预测的不确定度,通过在推理期间使用dropout执行随机前向传递。然而,使用所有层次和输入的静态dropout率会导致在单个输入和网络层次下适应性不佳的不确定度估计。现有的方法是在使用标记数据的情况下通过训练来优化dropout率,结果是固定推理时的参数,无法根据新数据分布进行适应,削弱了使用蒙特卡洛模拟的不确定度估计。

在本文中,我们提议的Rate-In算法能够根据dropout在每个层次的特征图上产生的信息损失度量来动态调整dropout率。通过将dropout视为控制噪音注入以及利用信息论原理,Rate-In能够在不需要真实标签的条件下适应每个层次和每个输入实例的dropout率。通过计算特征图上的功能信息损失,我们能够根据感知质量对dropout率进行适应性调节来保持不同医疗成像任务和架构配置下预期质量。我们在合成数据和真实世界医疗成像任务上的广泛实验表明,Rate-In可以通过相比于固定或经验dropout率而言提高校准度而且使不确定度估计更准确,同时保持预测性能不下降。Rate-In提供了一个实用的、无监督、推理时的方法来优化dropout,以更可靠地预测不确定度在关键应用中。
关键词:基于给出的论文内容,生成适合的中文关键词:, 信息驱动的适应性, Dropout, 率(Rate-In)、深度学习、神经网络、不确定性估计、预期时间、信息论原理、自适应训练、无监督学习、医用成像、模型不确定性、噪音注入、信息损失量化、深度学习不确定性、Dropout, 率动态调整等。, 因此,以下是用英文逗号分隔的中文关键词:, 信息驱动的适应性Dropout率、深度学习、神经网络、不确定性估计、预期时间、信息论原理、自适应训练、无监督学习、医用成像、模型不确定性、噪音注入、信息损失量化、深度学习不确定性、Dropout率动态调整
发布时间:2024年12月10日 PM12:03 (北京时间)
更新时间:2025年01月15日 AM02:51 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


15. MiniMax-01: Scaling Foundation Models with Lightning Attention

作者:MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu
介绍:我们推出了MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01,这两款模型在处理较长上下文时具有卓越性能,且与顶级模型相媲美。其核心技术在于闪电注意力及其高效扩展能力。为了最大化计算能力,我们将其与专家混合模型(Mixture of Experts, MoE)相结合,构建了一个拥有32个专家和总计4560亿参数的模型,其中每个token激活的参数为459亿。我们为MoE和闪电注意力开发了优化的并行策略和高效的计算-通信重叠技术。这一方法使我们能够在具有数千亿参数的模型上进行高效的训练和推理,处理上下文范围达数百万个token。MiniMax-Text-01在训练期间的上下文窗口可达到100万个token,在推理时拓展至400万个token,并且其成本仍然可承受。我们的视觉-语言模型MiniMax-VL-01则是在使用5120亿视觉-语言token进行持续训练后构建而成。在标准和内部基准测试中的实验结果表明,我们的模型在性能上与最先进的模型如GPT-4o和Claude-3.5-Sonnet相匹配,同时提供20到32倍的更长上下文窗口。我们已在https://github.com/MiniMax-AI上公开发布MiniMax-01。
关键词:MiniMax-01, 基础模型, 闪电注意力, 处理长上下文, 专家混合模型, MoE, 训练优化策略, 高效计算, 通信重叠技术, 5120亿视觉语言标记, 上下文窗口, GPT-4o, Claude-3.5-Sonnet, 长上下文窗口, 公共发布
发布时间:2025年01月15日 AM02:50 (北京时间)
更新时间:2025年01月15日 AM02:50 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


16. Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers

作者:Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
介绍:语义未来预测对在动态环境中导航的自主系统至关重要。本文介绍了一种名为FUTURIST的方法,旨在实现多模态未来语义预测,该方法采用统一高效的视觉序列变换器架构。我们的方法结合了多模态掩蔽视觉建模目标和一种新颖的掩蔽机制,以便于多模态训练。这使得模型能够有效整合来自不同模态的可见信息,从而提高预测的准确性。此外,我们提出了一种无变分自编码器(VAE)的分层标记化过程,这减少了计算复杂性,简化了训练流程,并使高分辨率多模态输入的端到端训练成为可能。我们在Cityscapes数据集上验证了FUTURIST,展示了在短期和中期预测的未来语义分割任务中达到的最先进性能。我们提供了实现代码,链接为 https://github.com/Sta8is/FUTURIST
关键词:语义未来预测, 多模态视觉序列, 变换器架构, FUTURIST, 多模态掩蔽视觉建模, 掩蔽机制, 预测准确性, VAE-free, 分层标记化, 计算复杂度, 训练管道, 高分辨率输入, Cityscapes数据集, 未来语义分割, 短期预测, 中期预测, 实现代码
发布时间:2025年01月15日 AM02:34 (北京时间)
更新时间:2025年01月15日 AM02:34 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


17. LayerAnimate: Layer-specific Control for Animation

作者:Yuxue Yang, Lue Fan, Zuzen Lin, Feng Wang, Zhaoxiang Zhang
介绍:动画视频将前景和背景元素分离为不同的层,包含草图、细化、上色和补间等独立的处理过程。现有的视频生成方法通常将动画视为一个整体数据领域,缺乏对个别层的细粒度控制。本文提出了LayerAnimate,这是一种新颖的架构方法,旨在增强视频扩散模型中对独立动画层的细粒度控制,使用户能够在不同的层次上独立操作前景和背景元素。为了解决层特定数据有限的问题,我们提出了一种数据管理管道,包括自动元素分割、运动状态层次合并和运动一致性细化。通过定量和定性比较以及用户研究,我们证明LayerAnimate在动画质量、控制精度和可用性方面优于现有方法,成为专业动画师和业余爱好者的理想工具。该框架为层特定的动画应用和创作灵活性开辟了新的可能性。我们的代码可以在 https://layeranimate.github.io 获取。
关键词:基于论文内容生成的中文关键词:视频合成、动画、图像分割、层次融合、动画控制、图像生成、diffusion模型、层特异性控制、视频分析。
发布时间:2025年01月15日 AM02:22 (北京时间)
更新时间:2025年01月15日 AM02:22 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


18. Gaussian Eigen Models for Human Heads

作者:Wojciech Zielonka, Timo Bolkart, Thabo Beeler, Justus Thies
介绍:当前个性化神经头像面临一个权衡:轻量级模型缺乏细节和真实性,而高质量可动画头像则需要大量计算资源,因此不适合商业设备。为了解决这一问题,我们提出了高斯特征模型(Gaussian Eigen Models,简称GEM),该模型能够提供高质量、轻便且易于控制的头像。GEM利用三维高斯原语来表示外观,并结合高斯喷溅技术进行渲染。在基于网格的三维可变形人脸模型(3DMM)成功的基础上,我们将GEM定义为一个线性特征基的集合,用于表示特定主体的头部外观。具体而言,我们构建线性基来表示三维高斯体的位置信息、比例、旋转和不透明度。这使我们能够通过基向量的线性组合高效生成特定头部形状的高斯原语,仅需一个包含相应系数的低维参数向量。

我们建议通过提炼高质量的、计算密集型的基于卷积神经网络(CNN)的高斯头像模型来构建这些线性基(GEM),这些模型能够生成依赖于表情变化的外观变化,例如皱纹。这些高质量模型是在特定主体的多视角视频上训练的,并通过一系列主成分分析进行提炼。一旦我们获得了表示特定人类可动画外观空间的基,我们学习一个回归模型,该模型以单个RGB图像作为输入,预测与所显示的面部表情相对应的低维参数向量。在一系列实验中,我们将GEM的自我重现与跨人物重现结果与最先进的三维头像方法进行对比,结果显示GEM在视觉质量和对新表情的泛化能力上具有更高的表现。
关键词:高斯特征模型, 人头表现, 个性化神经头像, 轻量级模型, 真实感, 计算资源, 3D高斯原语, 渲染, 3D可变形面部模型, 线性特征基, 头部外观, 线性组合, 低维参数向量, CNN模型, 表情相关外观变化, 主
发布时间:2024年07月05日 PM10:30 (北京时间)
更新时间:2025年01月15日 AM02:20 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


19. A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps

作者:Ariel Larey, Eyal Rond, Omer Achrack
介绍:人脸识别技术在各类应用中越来越普及,然而它们容易受到人脸伪造攻击的威胁。这些伪造攻击通常涉及独特的三维结构,如打印出的纸张或移动设备屏幕。尽管立体深度相机能够有效检测此类攻击,但其高昂的成本限制了其广泛应用。相反,缺乏外部校准的双传感器系统提供了一种经济高效的替代方案,但无法使用立体技术计算深度。为此,我们提出了一种方法,通过利用面部特征推导视差信息并估计相对深度,以实现反伪造目的,适用于未校准的系统。我们引入了一种多模态反伪造模型,称为视差模型,该模型在原有的两种传感器模态基础上,加入了创建的视差图作为第三种模态。我们通过从英特尔RealSense ID解决方案F455收集的综合数据集,展示了视差模型在抵御各种伪造攻击方面的有效性。我们的研究方法在文献中已有的方法中表现优异,在假阳性率(FPR)为1%时,获得了1.71%的等错误率(EER)和2.77%的假阴性率(FNR),相较于最佳对比方法的误差分别降低了2.45%和7.94%。此外,我们还引入了一种模型集成方法,以应对三维伪造攻击,在假阳性率为1%时,达到2.04%的等错误率和3.83%的假阴性率。总体而言,我们的工作为缺乏深度信息的未校准系统中的反伪造挑战提供了一种先进的解决方案。
关键词:人脸识别, 反欺骗技术, 非校准系统, 视差图, 深度估计, 多模态模型, 反欺骗模型, 3D欺骗攻击, 真实感ID解决方案, 错误率, 假阴性率, 假阳性率, 综合数据集, 成本效益,
发布时间:2024年10月31日 PM11:29 (北京时间)
更新时间:2025年01月15日 AM02:03 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


20. VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes

作者:Ke Wu, Zicheng Zhang, Muer Tie, Ziqing Ai, Zhongxue Gan, Wenchao Ding
介绍:VINGS-Mono是一种针对大场景设计的单目(惯性)高斯点云SLAM框架。该框架由四个主要组件组成:VIO前端、2D高斯地图、NVS回环闭合和动态去除器。在VIO前端,RGB帧通过密集束调整和不确定性估计进行处理,以提取场景几何及姿态。基于此输出,映射模块逐步构建和维护一张2D高斯地图。2D高斯地图的关键组成部分包括基于采样的光栅化器、评分管理器和姿态精化,它们共同提高了映射速度和定位精度。这使得SLAM系统能够处理多达5000万个高斯椭球体的大规模城市环境。为了确保大规模场景的全局一致性,我们设计了一个回环闭合模块,它创新性地利用高斯点云的Novel View Synthesis(NVS)能力进行回环检测和高斯地图的修正。此外,我们提出了一种动态去除器,以应对真实世界户外场景中动态物体的不可避免存在。在室内和户外环境中的广泛评估表明,我们的方法在定位性能上与视觉惯性里程计相当,并且超越了近期的高斯/神经辐射场SLAM方法。在映射和渲染质量方面,也显著优于现有的所有方法。此外,我们开发了一款移动应用,验证了我们的框架能够仅使用智能手机摄像头和低频IMU传感器实时生成高质量的高斯地图。根据我们的知识,VINGS-Mono是第一个能够在户外环境中运行并支持公里级大场景的单目高斯SLAM方法。
关键词:VINGS-Mono, 单目视觉惯性SLAM, 高斯点云, 大场景, VIO前端, 2D高斯地图, 循环闭合, 动态物体抹去, 视觉惯性测距, 城市环境, 显示性能, 实时处理, 智能手机相机, IMU传感器, 大规模场景, 地图构建, 定位精
发布时间:2025年01月15日 AM02:01 (北京时间)
更新时间:2025年01月15日 AM02:01 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


21. Can Bayesian Neural Networks Explicitly Model Input Uncertainty?

作者:Matias Valdenegro-Toro, Marco Zullich
介绍:机器学习模型的输入可能伴随噪声或不确定性,但这些因素往往被忽视且未被建模。目前尚不清楚贝叶斯神经网络及其近似方法是否能够考虑输入的不确定性。本文构建了一个双输入的贝叶斯神经网络(均值和标准差),并评估其在不同方法下对输入不确定性估计的能力,这些方法包括集成学习、MC-Dropout和Flipout。我们的研究结果表明,仅有部分近似贝叶斯神经网络的不确定性估计方法能够建模输入的不确定性,特别是集成学习和Flipout方法。
关键词:贝叶斯神经网络, 输入不确定性, 噪声建模, 不确定性估计, 集成方法, MC-Dropout, Flipout, 机器学习模型, 近似贝叶斯神经网络
发布时间:2025年01月15日 AM02:00 (北京时间)
更新时间:2025年01月15日 AM02:00 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


22. Gradient Equilibrium in Online Learning: Theory and Applications

作者:Anastasios N. Angelopoulos, Michael I. Jordan, Ryan J. Tibshirani
介绍:我们提出了一种关于在线学习的新视角,称之为梯度平衡:如果一系列迭代过程中损失的梯度平均值收敛于零,那么该序列就达到了梯度平衡。一般而言,该条件并不受次线性遗憾所暗示,也不意味着次线性遗憾的存在。实际上,梯度平衡可以通过标准的在线学习方法实现,例如使用常数步长的梯度下降和镜像下降(而不是通常所要求的衰减步长以避免遗憾)。此外,正如我们通过示例所展示的,梯度平衡在回归、分类、分位数估计等在线预测问题中转化为一种可解释且有意义的特性。值得注意的是,我们展示了梯度平衡框架可以用于在任意分布转移下开发黑箱预测的去偏方案,该方案基于简单的事后在线下降更新。我们还表明,事后梯度更新可以用于在分布转移下校准预测的分位数,并且该框架促成了成对偏好预测的无偏Elo评分。
关键词:在线学习, 梯度平衡, 理论, 应用, 学习算法, 梯度下降, 镜面下降, 无偏估计, 预测问题, 回归, 分类, 分位数估计, 分布漂移, 后处理更新, 不偏Elo评分
发布时间:2025年01月15日 AM02:59 (北京时间)
更新时间:2025年01月15日 AM02:59 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


23. A Similarity Measure Between Functions with Applications to Statistical Learning and Optimization

作者:Chengpiao Huang, Kaizheng Wang
介绍:在本文中,我们提出了一种新的函数相似性度量方法。该方法量化了两个函数之间次优间隙如何相互转换,并统一了几种现有的函数相似性概念。我们展示了该度量具有便捷的操作规则,并举例说明它在经验风险最小化和非平稳在线优化中的应用。
关键词:下面是适合的中文关键词,采用英文逗号分隔:, 函数相似度测度;概率统计学习;非参数最优化问题;非平稳在线优化;统计学习;非参数最优化;机器学习
发布时间:2025年01月15日 AM02:52 (北京时间)
更新时间:2025年01月15日 AM02:52 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


24. Diffusion Adversarial Post-Training for One-Step Video Generation

作者:Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
介绍:扩散模型广泛应用于图像和视频生成,但其迭代生成过程既缓慢又耗费资源。尽管现有的蒸馏方法在图像领域展示了单步生成的潜力,但仍存在显著的质量下降问题。在本研究中,我们提出了一种基于扩散预训练的对抗后训练(APT)方法,以实现一步视频生成,针对真实数据进行优化。为提高训练的稳定性和质量,我们对模型架构和训练过程进行了多项改进,并引入了近似R1正则化目标。实验证明,我们的对抗后训练模型Seaweed-APT能够实时生成2秒、1280x720、24fps的视频,并只需进行一次前向评估。此外,我们的模型还能够在单步中生成1024像素的图像,质量与当前最先进的方法相当。
关键词:扩散对抗后训练, 一步视频生成, 图像视频生成, 训练稳定性, 模型架构改进, 真实数据, 近似R1正则化, Seaweed-APT模型, 实时视频生成, 单步生成, 质量提升, 计算机视觉, 人工智能, 机器学习
发布时间:2025年01月15日 AM02:51 (北京时间)
更新时间:2025年01月15日 AM02:51 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


25. Rate-In: Information-Driven Adaptive Dropout Rates for Improved Inference-Time Uncertainty Estimation

作者:Tal Zeevi, Ravid Shwartz-Ziv, Yann LeCun, Lawrence H. Staib, John A. Onofrey
介绍:准确的不确定性估计对神经网络在风险敏感型应用(如医疗诊断)中的部署至关重要。蒙特卡罗丢弃(Monte Carlo Dropout)是一种广泛使用的技术,通过在推理过程中执行随机前向传递并应用丢弃策略来近似预测的不确定性。然而,在所有层和输入中使用静态丢弃率可能导致不理想的不确定性估计,因为它未能适应个别输入和网络层的不同特征。现有的方法在训练期间使用标记数据优化丢弃率,导致推理时固定的参数,无法适应新的数据分布,从而降低了蒙特卡罗仿真的不确定性估计。

在本文中,我们提出了一种名为Rate-In的算法,该算法通过量化每一层特征图中因丢弃所引发的信息损失,在推理过程中动态调整丢弃率。Rate-In将丢弃视为一种可控的噪声注入,并利用信息论原则,能够根据输入实例和每个层的特征动态调整丢弃率,而无需真实标签。通过量化特征图中的功能性信息损失,我们自适应地调节丢弃率,以在不同的医疗影像任务和架构配置中保持感知质量。我们在合成数据和真实世界医疗影像任务上的广泛实证研究表明,Rate-In在校准和不确定性估计方面优于固定或启发式的丢弃率,并且不影响预测性能。Rate-In为在关键应用中实现更可靠的预测不确定性估计提供了一种实用的无监督推理时优化丢弃率的方法。
关键词:信息驱动, 自适应失活率, 不确定性估计, 神经网络, 蒙特卡洛失活, 风险敏感应用, 医学诊断, 特征图, 控制噪声注入, 信息论原则, 医疗影像, 合成数据, 实际应用, 校准, 预测性能, 无监督
发布时间:2024年12月10日 PM12:03 (北京时间)
更新时间:2025年01月15日 AM02:51 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


26. Path Loss Prediction Using Machine Learning with Extended Features

作者:Jonathan Ethier, Mathieu Chateauvert, Ryan G. Dempsey, Alexis Bose
介绍:无线通信依赖于路径损耗模型,当模型包含传播环境的物理细节时,其效果最佳。历史上,获取这些数据一直具有挑战性,但随着地理信息系统数据的分辨率和准确性不断提高,这类数据变得越来越可获取。获得这些细节使得传播模型能够更准确地预测覆盖范围并最小化无线部署中的干扰。基于机器学习的建模可以显著支持这一努力,基于特征的方法使传播建模变得准确、高效且可扩展。在前期工作的基础上,我们引入了一套扩展的特征,以提高预测的准确性,同时最重要的是,保持模型在广泛环境中的泛化能力。
关键词:路径损耗预测, 机器学习, 特征扩展, 无线通信, 传播模型, 地理信息系统, 覆盖预测, 干扰最小化, 效率, 可扩展性, 模型泛化, 精确预测
发布时间:2025年01月15日 AM02:44 (北京时间)
更新时间:2025年01月15日 AM02:44 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


27. Benchmarking Graph Representations and Graph Neural Networks for Multivariate Time Series Classification

作者:Wennuo Yang, Shiling Wu, Yuzhi Zhou, Weicheng Xie, Linlin Shen, Siyang Song
介绍:多变量时间序列分类(MTSC)能够分析复杂的时间序列数据,从而使其在各种现实世界应用中扮演了重要角色,涵盖了医疗卫生和金融等领域。在MTS中,变量之间的关系通常包含关键信息,因此基于图的MTSC方法已经被提出,图的拓扑结构和边缘可以明确表示变量(通道)之间的关系,不仅包括各种多变量时间序列图的表示学习策略,而且包括不同的图神经网络(GNNs)。尽管已经取得进展,但对现有常用图表示学习策略和GNN分类器在多种不同的MTSC任务中的性能进行公平比较和研究的系统性研究尚未进行。在这篇论文中,我们首次提出了一种全面benchmark,系统地研究了三种常用结点特征定义策略,四种边特征学习策略和五种GNN架构的有效性,产生了60种基于图的MTSC变体。这些变体使用标准化的数据管道和训练/验证/测试策略在26种常用多变量时间序列MTSC数据集上开发和评估。实验结果表明,结点特征对MTSC性能有显著影响,而边特征的可视化表明了为什么可动态的边特征学习优于其他边特征学习方法。所提出的benchmark的代码可在https://github.com/CVI-yangwn/Benchmark-GNN-for-Multivariate-Time-Series-Classification发布。
关键词:多变量时间序列分类, 图表示, 图神经网络, 数据分析, 复杂临时数据, 图形拓扑, 按钮特征, 边特征, GNN架构, 性能评估, 基准测试, 医疗应用, 金融应用, 数据管道, 自适应边学习, 研究成果, 开源代码
发布时间:2025年01月15日 AM02:41 (北京时间)
更新时间:2025年01月15日 AM02:41 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


28. Polynomial Threshold Functions of Bounded Tree-Width: Some Explainability and Complexity Aspects

作者:Karine Chubarian, Johnny Joyce, Gyorgy Turan
介绍:多变量多项式的树宽是与其项对应的超边构成的超图的树宽。Makowsky和Meer研究了具有有限树宽的多变量多项式,这作为一种新的稀疏条件,使得一些在一般情况下难以处理的问题可以得到多项式的可解性。我们考虑这一主题在布尔变量下的变体。布尔函数作为多项式符号的表示称为多项式阈值表示。我们讨论了可以表示为有限树宽多项式阈值函数的布尔函数,并提出了两个应用于贝叶斯网络分类器的实例,后者是一种概率图模型。两个应用均属于可解释人工智能(XAI)领域,该领域研究许多近期机器学习模型的“黑箱”特性。我们还给出了正多项式阈值函数与一般多项式阈值函数在表征能力上的分离结果。
关键词:多项式阈值函数, 有界树宽, 布尔函数, 多变量多项式, 超图, 稀疏性条件, 多项式可解性, Bayesian网络分类器, 残差可解释性, 解释性人工智能, 机器学习模型, 表示能力, 正多项式, 一般多项式
发布时间:2025年01月15日 AM02:28 (北京时间)
更新时间:2025年01月15日 AM02:28 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


29. Avoiding subtraction and division of stochastic signals using normalizing flows: NFdeconvolve

作者:Pedro Pessoa, Max Schweiger, Lance W. Q. Xu, Tristan Manha, Ayush Saurabh, Julian Antolin Camarena, Steve Pressé
介绍:在科学领域,我们经常处理随机信号的减法或除法。在这里,我们考虑了一个通过将两个随机信号 $a$ 和 $b$ 相加或相乘形成的随机信号 $x$。具体来说,当 $x=a+b$ 时,$a$ 可以被认为是荧光背景,$b$ 为需要从测量值 $x$ 中学习统计信息的信号。同样,当写作 $x=ab$ 时,$a$ 可以被视为照明强度,$b$ 为需要关注的荧光分子密度。在执行减法或除法时,噪音会被放大,我们反而问这样的问题,即在给定 $a$ 的统计信息和测量 $x$ 的值的前提下,是否可以通过恢复 $b$ 的统计信息来避免减法或除法。在本文中,我们展示了一种使用正规流(Normalizing Flows)生成概率分布在 $b$ 上的约简方法,从而避免减法或除法。本方法在我们的 NFdeconvolve 软件包中实施,并可以在 GitHub 上找到,包括相关教程链接。
关键词:随机信号, 正则化流, 概率分布, 信号恢复, 统计学习, 软件包, NFdeconvolve, 噪声放大, 荧光背景, 荧光分子, 科学研究, 数据分析
发布时间:2025年01月15日 AM02:08 (北京时间)
更新时间:2025年01月15日 AM02:08 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


30. Can Bayesian Neural Networks Explicitly Model Input Uncertainty?

作者:Matias Valdenegro-Toro, Marco Zullich
介绍:机器学习模型的输入通常伴随噪声或不确定性,但这些因素往往被忽视且未被建模。目前尚不清楚贝叶斯神经网络及其近似是否能够考虑输入中的不确定性。本文构建了一个具有两个输入(均值和标准差)的贝叶斯神经网络,并评估了它在不同方法下对输入不确定性估计的能力,包括集成方法(Ensembles)、蒙特卡洛丢弃(MC-Dropout)和翻转法(Flipout)。我们的研究结果表明,只有部分近似贝叶斯神经网络的不确定性估计方法能够有效建模输入不确定性,特别是集成方法和翻转法。
关键词:贝叶斯神经网络, 输入不确定性, 噪声建模, 不确定性估计, 集成方法, MC-Dropout, Flipout, 近似贝叶斯, 机器学习, 评估方法
发布时间:2025年01月15日 AM02:00 (北京时间)
更新时间:2025年01月15日 AM02:00 (北京时间)

文章地址: 立即访问
Arxiv Paper: View Online PDF


❤️ 转载文章请注明出处,谢谢!❤️