生成分布嵌入

生成分布嵌入

许多现实世界的问题需要跨多个尺度进行推理,这需要模型不仅作用于单个数据点,而且作用于整个分布。我们引入了生成分布嵌入(GDE),这是一个将自动编码器提升到分布空间的框架。在GDE中,编码器作用于样本集,解码器被一个旨在匹配输入分布的生成器所取代。该框架通过将条件生成模型与满足我们称之为分布不变性的准则的编码器网络相结合,实现了分布表示的学习。我们证明,GDE学习嵌入在Wasserstein空间中的预测充分统计量,使得潜在GDE距离近似恢复$W_2$距离,并且潜在插值近似恢复高斯分布和高斯混合分布的最优传输轨迹。我们在合成数据集上系统地将GDE与现有方法进行了基准测试,证明了其始终更强的性能。然后,我们将GDE应用于计算生物学的六个关键问题:从谱系追踪数据(15万个细胞)中学习细胞群体的表示;预测扰动对单细胞转录组的影响(100万个细胞);预测扰动对细胞表型的影响(2000万张单细胞图像);对组织特异性DNA甲基化模式进行建模(2.53亿个序列);设计合成酵母启动子(3400万个序列);以及病毒蛋白序列的时空建模(100万个序列)。


原文链接: http://arxiv.org/abs/2505.18150v1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注