首页 财经 理财 产业 商业 证券 消费 图片 视频 全国

科技

旗下栏目: 科技 汽车 房产 工农

MiniMax 开源视觉分词器扩展技术 VTP

来源: 作者:花韻仙語 人气: 发布时间:2025-12-23
摘要:MiniMax联合华中科技大学首次对外开源其视觉生成核心技术——VTP(VisualTokenizerPretraining,视觉分词器预训练)。该技术在不改动标准DiT架构的前提下,仅通过对视觉分词器(VisualTokenizers)进行扩展与优化,便实现了高达65.8%的端到端生成性能提升。区

minimax 联合华中科技大学首次对外开源其视觉生成核心技术——vtp(visual tokenizer pretraining,视觉分词器预训练)。该技术在不改动标准dit架构的前提下,仅通过对视觉分词器(visual tokenizers)进行扩展与优化,便实现了高达 65.8% 的端到端生成性能提升。

区别于多数分词器相关研究,VTP 的设计理念强调“零侵入”:它完全不干预下游主干模型(如 DiT)的训练流程,所有改进均集中在前置的 tokenizer 模块上,从而以极低耦合代价达成生成质量的显著跃升。

VTP 预训练范式如下:

TalkMe

与AI语伴聊天,练习外语口语

下载

简言之——VTP 首次在理论上与实践中建立起 latent 表示的易学性(learnability)与通用表征能力之间的强关联,进而将 tokenizer 推至模型缩放(scaling)舞台的中心。它不仅展现出清晰、稳健的 scaling 规律,更指明了一条独立于主模型参数增长之外的全新性能提升路径:即通过 tokenizer 自身的规模化设计与训练,驱动整个生成系统的持续进化。

代码仓库:https://www.php.cn/link/af5ac7432f2b60611a2b2081da85bdc0
论文地址:https://www.php.cn/link/2c144615541213bbe63e9d81c4727883

源码下载:点击获取

责任编辑:花韻仙語
首页 | 财经 | 理财 | 产业 | 商业 | 证券 | 消费 | 图片 | 视频 | 全国

Copyright 2025 九掌金融版权所有  技术支持:政产学研(海南)投资有限公司 备案号:琼ICP备2025065810号-1

电脑版 | 移动版