AI论文速递 2026-03-07

🧠 大语言模型

1. Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups➡️ Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

👤 Leif Van Holland, Domenic Zingsheim, Mana Takhsha

📄 High-quality 3D streaming from multiple cameras is crucial for immersive experiences in many AR/VR applications. The limited number of views - often due to real-time constraints - leads to missing information and incomplete surfaces in the rendered images. Existing approaches typically rely on simple heuristics for the hole filling, which can result in inconsistencies or visual artifacts. We propose to complete the missing textures using a novel, application-targeted inpainting method independent of the underlying representation as an image-based post-processing step after the novel view rende...

📄 High-quality 3D streaming from multiple cameras is crucial for immersive experiences in many AR/VR applications. The limited number of views - often due to real-time constraints - leads to missing information and incomplete surfaces in the rendered 图像. Existing approaches typically rely on simple heuristics for the hole filling, which can 结果 in inconsistencies or visual artifacts. We 提出 to complete the missing textures 使用 a 新颖, 应用-targeted inpainting 方法 independent of the underlying 表示 as an 图像-based post-processing step after the 新颖 view rende...

📚 AI论文速递 2026-03-07

🧠 大语言模型

1. Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups➡️ Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

2. FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning➡️ FaceCam: Portrait 视频 Camera Control via 规模-Aware Conditioning

3. Accelerating Text-to-Video Generation with Calibrated Sparse Attention➡️ Accelerating 文本-to-视频 生成 with Calibrated Sparse 注意力机制

4. Universal quantum computation with group surface codes➡️ Universal 量子 computation with group surface codes

5. POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation➡️ POET-X: 记忆-高效的 大语言模型 训练 by 规模化 Orthogonal Transformation

6. The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks➡️ The Spike, the Sparse and the Sink: Anatomy of Massive Activations and 注意力机制 Sinks

7. Safe-SAGE: Social-Semantic Adaptive Guidance for Safe Engagement through Laplace-Modulated Poisson Safety Functions➡️ Safe-SAGE: Social-Semantic Adaptive Guidance for Safe Engagement through Laplace-Modulated Poisson Safety Functions

8. Mirror codes: High-threshold quantum LDPC codes beyond the CSS regime➡️ Mirror codes: High-threshold 量子 LDPC codes beyond the CSS regime

9. Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels➡️ Cheap Thrills: Effective Amortized 优化 使用 Inexpensive Labels

10. Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation➡️ Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

🖼️ 计算机视觉

1. Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups➡️ Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

2. FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning➡️ FaceCam: Portrait 视频 Camera Control via 规模-Aware Conditioning

3. RoboPocket: Improve Robot Policies Instantly with Your Phone➡️ RoboPocket: 改进 Robot Policies Instantly with Your Phone

4. Accelerating Text-to-Video Generation with Calibrated Sparse Attention➡️ Accelerating 文本-to-视频 生成 with Calibrated Sparse 注意力机制

5. Universal quantum computation with group surface codes➡️ Universal 量子 computation with group surface codes

6. POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation➡️ POET-X: 记忆-高效的 大语言模型 训练 by 规模化 Orthogonal Transformation

7. Calculating trace distances of bosonic states in Krylov subspace➡️ Calculating trace distances of bosonic states in Krylov subspace

8. The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks➡️ The Spike, the Sparse and the Sink: Anatomy of Massive Activations and 注意力机制 Sinks

9. Safe-SAGE: Social-Semantic Adaptive Guidance for Safe Engagement through Laplace-Modulated Poisson Safety Functions➡️ Safe-SAGE: Social-Semantic Adaptive Guidance for Safe Engagement through Laplace-Modulated Poisson Safety Functions

10. Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels➡️ Cheap Thrills: Effective Amortized 优化 使用 Inexpensive Labels

🎨 多模态学习

1. Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline➡️ Towards 多模态 Lifelong Understanding: A 数据集 and Agentic Baseline

2. HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token➡️ HALP: Detecting Hallucinations in 视觉语言 模型 without Generating a Single 词元

3. Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry➡️ Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

4. NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries➡️ NaiLIA: 多模态 Nail Design 检索 基于 Dense Intent Descriptions and Palette Queries

5. SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning➡️ SarcasmMiner: A Dual-Track Post-训练 框架 for 鲁棒 音频-Visual Sarcasm Reasoning

6. Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh➡️ Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

7. Visual-Informed Speech Enhancement Using Attention-Based Beamforming➡️ Visual-Informed 语音 Enhancement 使用 注意力机制-Based Beamforming

8. Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum➡️ Wiki-R1: Incentivizing 多模态 Reasoning for Knowledge-based VQA via 数据 and Sampling Curriculum

9. Mario: Multimodal Graph Reasoning with Large Language Models➡️ Mario: 多模态 Graph Reasoning with Large 语言 模型

10. Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series➡️ Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

📊 新数据集

1. FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning➡️ FaceCam: Portrait 视频 Camera Control via 规模-Aware Conditioning

2. cuRoboV2: Dynamics-Aware Motion Generation with Depth-Fused Distance Fields for High-DoF Robots➡️ cuRoboV2: Dynamics-Aware Motion 生成 with Depth-Fused Distance Fields for High-DoF Robots

3. NL2GDS: LLM-aided interface for Open Source Chip Design➡️ NL2GDS: 大语言模型-aided interface for Open Source Chip Design

4. Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline➡️ Towards 多模态 Lifelong Understanding: A 数据集 and Agentic Baseline

5. SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis➡️ SurvHTE-Bench: A 基准测试 for Heterogeneous Treatment Effect Estimation in Survival 分析

6. Quantum Simulation of Coupled Harmonic Oscillators: From Theory to Implementation➡️ 量子 Simulation of Coupled Harmonic Oscillators: From 理论 to Implementation

7. Spin-resolved microscopy of $^{87}$Sr SU($N$) Fermi-Hubbard systems➡️ Spin-resolved microscopy of $^{87}$Sr SU($N$) Fermi-Hubbard systems

8. Spatiotemporal Pauli processes: Quantum combs for modelling correlated noise in quantum error correction➡️ Spatiotemporal Pauli processes: 量子 combs for modelling correlated noise in 量子 错误 纠正

9. Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields➡️ Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral 图像 使用 Neural Radiance Fields

10. Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval➡️ Leveraging 大语言模型 Parametric Knowledge for Fact Checking without 检索

✂️ 模型压缩

1. Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups➡️ Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

2. FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning➡️ FaceCam: Portrait 视频 Camera Control via 规模-Aware Conditioning

3. Accelerating Text-to-Video Generation with Calibrated Sparse Attention➡️ Accelerating 文本-to-视频 生成 with Calibrated Sparse 注意力机制

4. Universal quantum computation with group surface codes➡️ Universal 量子 computation with group surface codes

5. POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation➡️ POET-X: 记忆-高效的 大语言模型 训练 by 规模化 Orthogonal Transformation

6. The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks➡️ The Spike, the Sparse and the Sink: Anatomy of Massive Activations and 注意力机制 Sinks

7. Safe-SAGE: Social-Semantic Adaptive Guidance for Safe Engagement through Laplace-Modulated Poisson Safety Functions➡️ Safe-SAGE: Social-Semantic Adaptive Guidance for Safe Engagement through Laplace-Modulated Poisson Safety Functions

8. Mirror codes: High-threshold quantum LDPC codes beyond the CSS regime➡️ Mirror codes: High-threshold 量子 LDPC codes beyond the CSS regime

9. Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels➡️ Cheap Thrills: Effective Amortized 优化 使用 Inexpensive Labels

10. Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation➡️ Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

📝 综述论文

1. A FAST Survey of H I Absorption in Low-power Radio Sources➡️ A FAST 综述 of H I Absorption in Low-power Radio Sources

2. Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields➡️ Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral 图像 使用 Neural Radiance Fields

3. Harnessing Synthetic Data from Generative AI for Statistical Inference➡️ Harnessing Synthetic 数据 from 生成式 AI for Statistical 推理

4. Nuclear Physics of X-ray Bursts➡️ Nuclear Physics of X-ray Bursts

5. Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR➡️ Exploring the potential and limitations of 模型 Merging for Multi-领域 Adaptation in ASR

6. GASTON-GP: Source catalogue and millimetre variability of massive protostellar objects➡️ GASTON-GP: Source catalogue and millimetre variability of massive protostellar objects

7. Scientific performance of on-board analyses for the SVOM X-ray telescope MXT➡️ Scientific 性能 of on-board analyses for the SVOM X-ray telescope MXT

8. ULTIMATE deblending I. A 50-band UV-to-MIR photometric catalog combining space- and ground-based data in the JWST/PRIMER survey➡️ ULTIMATE deblending I. A 50-band UV-to-MIR photometric catalog combining space- and ground-based 数据 in the JWST/PRIMER 综述

9. Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh➡️ Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

10. EMU/GAMA: A statistical perspective on active galactic nuclei diagnostics➡️ EMU/GAMA: A statistical perspective on active galactic nuclei diagnostics

🎮 强化学习

1. RoboPocket: Improve Robot Policies Instantly with Your Phone➡️ RoboPocket: 改进 Robot Policies Instantly with Your Phone

2. POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation➡️ POET-X: 记忆-高效的 大语言模型 训练 by 规模化 Orthogonal Transformation

3. Calculating trace distances of bosonic states in Krylov subspace➡️ Calculating trace distances of bosonic states in Krylov subspace

4. Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels➡️ Cheap Thrills: Effective Amortized 优化 使用 Inexpensive Labels

5. Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation➡️ Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

6. Ansatz-Free Learning of Lindbladian Dynamics In Situ➡️ Ansatz-Free 学习 of Lindbladian Dynamics In Situ

7. Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought➡️ Reasoning Theater: Disentangling 模型 Beliefs from Chain-of-Thought

8. Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline➡️ Towards 多模态 Lifelong Understanding: A 数据集 and Agentic Baseline

9. SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis➡️ SurvHTE-Bench: A 基准测试 for Heterogeneous Treatment Effect Estimation in Survival 分析

10. Thermodynamic Response Functions in Singular Bayesian Models➡️ Thermodynamic Response Functions in Singular Bayesian 模型

3. Accelerating Text-to-Video Generation with Calibrated Sparse Attention➡️ Accelerating 文本-to-视频生成 with Calibrated Sparse 注意力机制

5. POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation➡️ POET-X: 记忆-高效的大语言模型训练 by 规模化 Orthogonal Transformation

9. Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels➡️ Cheap Thrills: Effective Amortized 优化使用 Inexpensive Labels

4. Accelerating Text-to-Video Generation with Calibrated Sparse Attention➡️ Accelerating 文本-to-视频生成 with Calibrated Sparse 注意力机制

6. POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation➡️ POET-X: 记忆-高效的大语言模型训练 by 规模化 Orthogonal Transformation

10. Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels➡️ Cheap Thrills: Effective Amortized 优化使用 Inexpensive Labels

2. HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token➡️ HALP: Detecting Hallucinations in 视觉语言模型 without Generating a Single 词元

4. NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries➡️ NaiLIA: 多模态 Nail Design 检索基于 Dense Intent Descriptions and Palette Queries

5. SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning➡️ SarcasmMiner: A Dual-Track Post-训练框架 for 鲁棒音频-Visual Sarcasm Reasoning

7. Visual-Informed Speech Enhancement Using Attention-Based Beamforming➡️ Visual-Informed 语音 Enhancement 使用注意力机制-Based Beamforming

9. Mario: Multimodal Graph Reasoning with Large Language Models➡️ Mario: 多模态 Graph Reasoning with Large 语言模型

8. Spatiotemporal Pauli processes: Quantum combs for modelling correlated noise in quantum error correction➡️ Spatiotemporal Pauli processes: 量子 combs for modelling correlated noise in 量子错误纠正

9. Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields➡️ Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral 图像使用 Neural Radiance Fields

3. Accelerating Text-to-Video Generation with Calibrated Sparse Attention➡️ Accelerating 文本-to-视频生成 with Calibrated Sparse 注意力机制

5. POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation➡️ POET-X: 记忆-高效的大语言模型训练 by 规模化 Orthogonal Transformation

9. Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels➡️ Cheap Thrills: Effective Amortized 优化使用 Inexpensive Labels

2. Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields➡️ Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral 图像使用 Neural Radiance Fields

2. POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation➡️ POET-X: 记忆-高效的大语言模型训练 by 规模化 Orthogonal Transformation

4. Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels➡️ Cheap Thrills: Effective Amortized 优化使用 Inexpensive Labels