4步出图/4K画质/6倍提速,PiD用像素扩散统一解码与超分辨率输出;SA-3DAO:包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集
PiD 是 NVIDIA 发布的一种全新潜空间解码范式将传统的 VAE 解码过程重新定义为条件像素扩散生成把解码与超分辨率上采样统一到单一生成模块中。传统潜扩散模型通过 VAE 将潜变量还原为图像输出分辨率受限且重建导向的解码器难以补全高频细节、无法纠正潜变量中的伪影。PiD 引入轻量级噪声感知潜变量适配器sigma-aware adapter将含噪潜变量注入像素空间扩散骨干网络使模型既能处理完全去噪的潜变量也支持对部分去噪的潜变量提前终止扩散过程。借助 DMD2 蒸馏技术推理仅需 4 步去噪即可完成。目前HyperAI超神经官网已上线了「PiD4K 超分辨率图像生成与编辑」快来试试吧~在线使用PiD: 4K Super-Resolution Image Generation and Editing | Notebooks | HyperAI欢迎登录官网查看更多内容HyperAI6 月 19 日- 6 月 26 日hyper.ai 官网更新速览* 优质公共数据集7 个* 优质教程精选14 个* 社区文章解读4 篇* 热门百科词条5 条* 7 月截稿顶会5 个访问官网hyper.ai公共数据集精选1. SAM 3D Artist Objects 3D 物体重建数据集SAM 3D Artist Objects是由 Meta 于 2026 年 6 月发布的 3D 网格配对的数据集旨在评估真实场景下物体形状与布局的三维重建算法性能广泛用于图像转三维物体算法的性能测试、模型优化与计算机视觉领域的相关研究工作。该数据集包含 1,000 组真实图像与专业艺术家手工制作的三维网格配对数据。在线使用SAM 3D Artist Objects 3D Object Reconstruction Dataset | Datasets | HyperAI2. RHELM 长程记忆评估数据集RHELM 是由 Microsoft 于 2026 年发布的长程记忆能力评估数据集旨在提升大模型在复杂动态场景中的长期记忆、多跳推理与时序信息合成能力。该数据集广泛应用于大语言模型长时序记忆评测、 AI 助手长期交互能力验证、大模型多跳推理、时序信息融合与幻觉检测等研究场景。在线使用RHELM Long-Term Memory Assessment Dataset | Datasets | HyperAI3. MAKIEVAL 多语言文化知识评估数据集MAKIEVAL 是由慕尼黑大学 MaiNLP 研究实验室联合慕尼黑机器学习中心于 2026 年发布的多语言文化知识评估数据集旨在为大语言模型提供大规模多语言文化知识评估基准广泛应用于多语言知识表示与文化知识建模研究。该数据集包含 7 个大语言模型在 13 种语言、 19 个国家 / 地区、 6 个文化领域下生成的文本及其自动抽取的文化实体与 Wikidata 对齐结果。在线使用MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset | Datasets | HyperAI4. Verbatim Spans 查询条件证据提取数据集Verbatim Spans 是由 TU Wien 联合 KRLabs 于 2026 年 4 月发布的一个多领域查询条件证据提取数据集旨在构建一个通用的查询条件证据抽取模型训练基准广泛应用于检索增强生成RAG及抽取式问答任务。该数据集包含 174,383 行训练数据与 20,174 行验证数据覆盖自然语言处理论文、多领域问答以及代码与工具输出三大类型语料。在线使用Verbatim Spans Query Condition Evidence Extraction Dataset | Datasets | HyperAI5. Nemotron-SFT-Math-v4 数学推理 SFT 数据集Nemotron-SFT-Math-v4 是由 NVIDIA 于 2026 年 5 月发布的数学推理数据集旨在解决传统数学数据集质量参差不齐、推理轨迹不规范、准确率低、场景单一的问题有效提升模型结构化推理、多轨迹推理与答案校验能力。该数据集包含 545,431 条训练样本涵盖 285,516 条 COT 思维推理样本与 259,915 条 TIR 工具推理样本覆盖代数、几何、数论、组合数学等竞赛与高校科研级数学场景。在线使用Nemotron-SFT-Math-v4 Mathematical Inference SFT Dataset | Datasets | HyperAI6. AI Impact on Jobs and Layoff Risk AI 就业影响数据集AI Impact on Jobs and Layoff Risk 是一个关于人工智能对就业影响的合成结构化机器学习数据集旨在探索人工智能采用、工作自动化、岗位特征及劳动力技能对现代经济中就业结果的影响广泛应用于分类建模、劳动力分析、自动化影响研究与人力资源决策支持等任务。在线使用AI Impact on Jobs and Layoff Risk: AI Employment Impact Dataset | Datasets | HyperAI7. Global Climate Energy Transition 2000 – 2026 全球气候能源数据集Global Climate Energy Transition 2000 – 2026 是面向气候变化、能源转型与碳减排研究的全球气候与能源转型数据集旨在系统刻画全球气候变化与能源转型过程。该数据集记录了 2000 — 2026 年全球气候变化与能源转型进程涵盖全球及多个区域的温度异常变化。在线使用Global Climate Energy Transition 2000 – 2026 Global Climate and Energy Dataset | Datasets | HyperAI公共教程精选1. PiD4K 超分辨率图像生成与编辑PiD 是 NVIDIA 团队推出的即插即用超分辨率解码器。传统扩散模型通过 VAE 解码器将潜在表示还原为图像输出分辨率受限于约 1024 像素。PiD 将 VAE 解码的最后一步替换为像素空间扩散过程仅需 4 步去噪即可直接生成清晰的 4K 图像无需任何后处理技巧在不改变原有模型架构的前提下大幅突破了传统方法的分辨率瓶颈。在线运行PiD: 4K Super-Resolution Image Generation and Editing | Notebooks | HyperAIDemo页面2. LTX-2.3-turbo 视频生成器LTX-2.3-turbo 是 Lightricks 于 2026 年 3 月发布的一款开源视频生成基础模型旨在突破开源视频生成能力的极限。该模型采用先进的扩散变换器架构并结合多模态理解能力实现了高质量、多分辨率的视频内容生成。在线运行LTX-2.3-turbo Video Generator | Notebooks | HyperAIDemo页面3. DiffBrush手写文本行生成南开大学与昆仑万维于 2025 年 8 月联合发布了手写文本行生成模型 DiffBrush并于同年 10 月正式被 ICCV 2025 收录。该模型基于 Stable Diffusion VAEUNet 架构支持任意英文文本输入与 IAM 数据集中 496 种手写风格输出 1024×64 灰度图像文本内容与书写风格独立可控。推理部署轻量可直接用于 OCR 训练集生成、手写数据增强及文档仿真等场景。在线运行DiffBrush: Handwritten Text Line Generation | Notebooks | HyperAIDemo页面4. RE-USE通用语音增强模型RE-USE 是 NVIDIA 于 2026 年 3 月发布的通用语音增强模型。它基于 Mamba 架构能够处理各种采样率和降级类型的噪声语音信号并且与语言无关。在线运行https://go.hyper.ai/MJ0p5Demo页面5. TADA-1b统一语音语言模型TADA-1b 是 HumeAI 团队于 2026 年 2 月发布的统一语音语言模型专为语音合成、语音克隆和多语言配音等音频生成任务而设计。该模型基于 Llama 3.2-1B具有轻量级、高速和稳定的音频生成能力适用于英语文本转语音 (TTS)、零样本语音克隆、长篇叙述和语音延续。在线运行TADA-1b: A Unified Speech-Language Model | Notebooks | HyperAIDemo页面6. Gsplat 3D 高斯泼溅训练与可视化Gsplat 是由伯克利、NVIDIA、上海科技大学等机构联合开发的开源 3DGS CUDA 加速光栅化库在原始实现基础上深度优化训练显存降低 4 倍、训练时间缩短 15%。其核心技术亮点包括高效的 CUDA 微分光栅化引擎、自适应高斯密度控制策略、兼容 COLMAP 等主流数据格式的灵活数据后端以及基于 viser 的实时 Web 可视化界面。应用场景覆盖数字孪生、自动驾驶环境感知、文物数字化及电商视觉合成等领域。在线运行Training and Visualization of Gsplat 3D Gaussian Splatting | Notebooks | HyperAIDemo页面7. DVD基于生成先验的确定性视频深度估计DVDDeterministic Video Depth Estimation是由香港科技大学广州 团队于 2026 年 3 月提出的首个确定性视频深度估计框架通过将预训练的视频扩散模型Wan2.1改造为单次前向传播的深度回归器在保持生成模型强大语义先验的同时彻底消除了随机性带来的几何幻觉问题。在线运行DVD: Deterministic Video Depth Estimation Based on Generative Priors | Notebooks | HyperAIDemo页面8. Foundation-1结构化文本到音乐采样生成Foundation-1 由 RoyalCities 团队于 2026 年 3 月发布是一款专为专业音乐制作流程设计的文本到采样音频生成模型。官方版本支持分层可控生成允许用户自定义乐器系列、子类型、音色、效果、乐理和弦、速度/调号以及小节长度生成节奏同步、调性锁定的音乐循环片段。此外该软件还提供了一个统一的 Web Demo提供完整的交互式生成功能。在线运行Foundation-1: Structured Text-to-Music Sample Generation | Notebooks | HyperAIDemo页面9. Sketch-RNN矢量草图生成与潜在空间插值Sketch-RNN 是 Google Brain 团队于 2017 年发布的一种矢量草图序列生成模型。该方法专为手绘草图数据而设计数据包含笔画偏移量和笔的状态信息。它可以学习草图的连续潜在表示并生成新的矢量草图序列。Sketch-RNN 采用编码器-解码器架构。它将输入草图映射到潜在空间然后使用循环神经网络解码器逐步生成笔画。在线运行Sketch-RNN: Vector Sketch Generation and Latent Space Interpolation | Notebooks | HyperAISketch-RNN 整体结构图10. Galaxy-Deconv弱引力透镜星系图像反卷积框架Galaxy-Deconv 由清华大学的李天尧和西北大学的艾玛·亚历山大共同开发。该项目专注于弱引力透镜星系图像的复原。它使用展开式即插即用ADMM算法对受点扩散函数PSF模糊和噪声影响的星系图像进行反卷积。本教程将常见的星系反卷积工作流程整理成笔记本涵盖图像模拟、COSMOS数据加载、反卷积推理、HDF5数据集检查和基础反卷积练习。在线运行Galaxy-Deconv: A Weak Gravitational Lensing Galaxy Image Deconvolution Framework | Notebooks | HyperAIDemo页面11. NuExtract3多模态文档理解与结构化信息抽取模型NuExtract3 是 NuMind 于 2026 年 6 月发布的 4B 参数多模态视觉语言模型专为文档理解设计。模型将结构化信息提取与文档图像转 Markdown 两大能力整合于一体支持文本、图像及图文混合输入可依据用户提供的 JSON 模板直接输出结构化结果并完整保留表格、公式与布局信息。在线运行NuExtract3: Multimodal Document Understanding and Structured Information Extraction Model | Notebooks | HyperAIDemo页面12. DiffusionGemma基于离散扩散的高速文本生成模型DiffusionGemma 是 Google DeepMind 利用离散扩散技术构建的文本生成模型。它采用 260 亿参数的专家混合模型 (MoE) 架构总参数量为 252 亿其中只有 38 亿个有效参数。通过并行块级扩散采样它实现了超快的文本生成速度在单个 H100 GPU 上每秒可生成 1100 多个 token。在线运行DiffusionGemma: A High-Speed Text Generation Model Based on Discrete Diffusion | Notebooks | HyperAIDemo页面13. TripoSplat单张图像生成高质量 3D Gaussian 资产TripoSplat 是由 VAST-AI Research 与 TripoAI 于 2026 年 5 月联合发布的单图像转 3D 高斯生成方法。模型可将单张 2D 图像转换为高质量的 3D 高斯模型并可控制高斯分布的数量。该模型采用密度采样高斯 (DeG) 技术根据物体的几何复杂度自适应地分布高斯中心并使用 VecSeq 确定性地重排序无序的潜在变量从而提高生成训练的稳定性。在线运行Triposplat: Generating High-Quality 3D Gaussian Assets From Single Images | Notebooks | HyperAIDemo页面14. North Mini Code 1.0面向代码生成与软件工程任务的 Agent 模型North Mini Code 1.0 是 Cohere 与 Cohere Labs 于 2026 年 6 月发布的开放权重代码模型专为代码生成、终端任务与智能体软件工程场景优化。模型支持长时间编码工作、代码推理及工具调用与交错思考擅长功能实现、脚本编写、调试、终端任务规划及多轮软件工程工作流。在线运行North Mini Code 1.0: An Agent Model for Code Generation and Software Engineering Tasks | Notebooks | HyperAIDemo页面社区文章解读1.麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet生成150万个多样化图表样本来自麻省理工学院、麻省理工学院-IBM 计算研究实验室和 IBM 研究院的众多专家提出了ChartNet——一个面向图表理解的百万级高质量多模态数据集旨在推动图表理解与推理能力的发展。查看完整报道MIT/IBM Has Released ChartNet, the Largest Synthetic Chart Dataset to Date, Generating 1.5 Million Diverse Chart samples. | News | HyperAI2. 谷歌DeepMind最新论文揭秘AI终局从AGI到ASI有4条路和6道关Google DeepMind 联合多所顶尖高校发表了最新论文探讨从通用人工智能AGI向超级人工智能ASI演进的深远问题。该研究将智能视作连续谱冷静拆解了 AI 在跨越人类平均水平之后继续演进的潜在路径与限制瓶颈。该论文为理解 AI 的长期发展轨迹提供了结构化的客观参考。查看完整报道Google DeepMinds Latest Paper Reveals the Ultimate Goal of AI: From AGI to ASI, There Are 4 Paths and 6 hurdles. | News | HyperAI3.基于Gemini 1.5长上下文能力谷歌对话式医疗系统AMIE在100例多次就诊场景中达到全科医师的推理水平Google Deepmind 与 Google Research 近期一项研究以其对话式医疗系统 AMIE 为基础进一步开发了一套全新的基于 LLM 的智能 Agent 系统使其能够针对多次随访场景进行临床管理和医患对话优化。AMIE 利用了 Gemini 模型的长上下文能力通过结合上下文检索与结构化推理使其输出能够与最新的临床实践指南和药物处方目录保持一致。查看完整报道Leveraging Gemini 1.5s Long Contextual Capabilities, Googles Conversational Healthcare System AMIE Achieved the Reasoning Level of a General Practitioner in 100 Scenarios Involving Multiple Patient visits. | News | HyperAI4. 材料AI迈向「可解释时代」日本团队破解高维光谱黑箱锁定新材料发现关键特征来自日本东京科学研究所的研究团队提出了一种深度学习模型的解释方法能够处理材料科学中的高维光谱数据。研究人员构建了一个包含 2681 种氧化物、硫族化合物及相关化合物的光吸收光谱第一性原理计算数据集。与标准密度泛函计算相比对光谱起始能量和形状进行校正后计算结果与已报道的实验光谱吻合度显著提高。查看完整报道Materials AI Is Moving Towards an explainable Era: A Japanese Team Cracks the Black Box of high-dimensional Spectroscopy, Pinpointing Key Features for Discovering New materials. | News | HyperAI热门百科词条精选1. 大语言模型 LLM2. 结构 Architecture3. 世界动作模型 WAM4. 旋转位置编码 RoPE5. 大规模多任务语言理解 MMLU这里汇编了数百条 AI 相关词条让你在这里读懂「人工智能」Wiki | HyperAI7 月截稿顶会* 截稿时间为 AoE 时间一站式追踪人工智能学术顶会Events | HyperAI以上就是本周编辑精选的全部内容如果你有想要收录 hyper.ai 官方网站的资源也欢迎留言或投稿告诉我们哦下周再见关于 HyperAI超神经 (hyper.ai)HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区致力于成为国内数据科学领域的基础设施为国内开发者提供丰富、优质的公共资源截至目前已经* 为 2100 公开数据集提供国内加速下载节点* 收录 700 经典及流行在线教程* 解读 300 AI4Science 论文案例* 支持 700 相关词条查询* 托管国内首个完整的 Apache TVM 中文文档访问官网开启学习之旅HyperAI