長期以來,多模態代碼生成(Multimodal Code Generation)的訓練嚴重依賴于特定任務的監督微調(SFT)。盡管這種范式在 Chart-to-code 等單一任務上取得了顯著成功 ,但其 “狹隘的訓練范圍” 從根本上限制了模型的泛化能力,阻礙了通用視覺代碼智能(Generalized VIsioN Code Intelligence)的發展 。同時,「SFT-only」的范式在確保代碼可執行性和高視覺保真度方面存在顯著瓶頸 。
在此背景下,中科院 & 美團研究團隊推出了 VinciCoder,一個旨在打破 SFT 瓶頸的統一多模態代碼生成模型。VinciCoder首次將強化學習的獎勵機制從文本域轉向視覺域,提出視覺強化學習(ViRL),專攻 SFT 無法解決的視覺保真度難題。
本文提出的系統性框架VinciCoder,通過 “大規模 SFT + 粗細粒度 ViRL” 的兩階段策略,有效統一了從圖表、網頁、SVG 到科學繪圖(LaTeX、化學分子)等多樣化代碼生成任務 。
(相關資料圖)
數據代碼模型權重已開源。
核心創新與技術突破
該論文同樣對傳統 SFT 范式的局限性進行了深入分析,發現其關鍵問題在于訓練目標與最終任務之間存在 “視覺鴻溝”:
這種 “視覺 - 代碼” 監督的缺失,直接導致了兩個關鍵問題:
考慮到 SFT 的根本局限性,研究者認為必須引入一個能夠提供全局視覺反饋的機制。然而,傳統的 RL 方法依賴難以泛化的 “基于規則的文本獎勵” 。VinciCoder 的破局點在于 ——將獎勵機制從文本域徹底轉向視覺域
VinciCoder 的核心思路是:用大規模、多樣化的 SFT 構建強大的代碼基礎能力 ,再通過創新的 ViRL 策略專門優化 SFT 無法觸及的視覺保真度和可執行性 。訓練框架由「1.6M 大規模 SFT 階段」和「42k 粗細粒度 ViRL 階段」兩部分組成 ,核心是通過兩階段協作,同時實現強大的代碼理解與高保真的視覺對齊。
1. 大規模 SFT 語料庫與代碼優化任務
研究團隊首先構建了一個包含1.6M 圖像 - 代碼對的大規模監督微調(SFT)語料庫 。該語料庫不僅覆蓋了直接代碼生成任務,還引入 “視覺代碼優化” 的新任務 。在這項任務中,模型會接收到一個目標圖像和一個 “有缺陷” 的代碼片段(包含邏輯錯誤或只能部分渲染)。模型的目標是修正這段代碼,使其視覺輸出與目標圖像精確對齊 。這一設計極大地提升了模型在代碼層面的糾錯和優化能力,為后續的強化學習階段奠定了堅實基礎 。
2. 從 “文本獎勵” 到 “視覺獎勵”:粗細粒度 ViRL 框架
傳統 SFT 訓練在多模態代碼生成上存在根本缺陷:它缺乏 “視覺 - 代碼” 的閉環反饋 ,且無法保證代碼的全局可執行性 。
為解決此問題,VinciCoder 引入了視覺強化學習 (ViRL) 框架。該框架摒棄了傳統強化學習中脆弱的、基于規則的 “文本獎勵” ,轉而從視覺直接獲取獎勵信號 。
其核心突破在于一套粗 - 細粒度(Coarse-to-fine)視覺獎勵機制:
據我們所知,VinciCoder 是第一個應用強化學習(RL)來實現統一視覺代碼生成領域中 “跨領域視覺保真度” 提升的視覺語言模型
實驗結果與性能表現
論文在五大多模態代碼生成基準上進行了全面實驗,對比了包括 Qwen、InternVL 等開源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等閉源模型 ,核心結果如下:
實驗結果令人矚目:VinciCoder 在多個主流多模態代碼生成基準上均取得了卓越表現。
研究意義與應用前景
VinciCoder 的研究不僅在技術上取得了重大突破,也為多模態代碼生成領域提供了全新的研究范式:
結論
VinciCoder 的核心價值并非單純地堆砌 SFT 數據,而是通過 “SFT + 粗細粒度 ViRL” 的組合,證明了 “以視覺反饋指導代碼生成” 的可行性與優越性。這一思路不僅解決了傳統 SFT 范式在可執行性與視覺保真度上的痛點,也為后續通用多模態智能體的研發提供了新的思路。
在總體思路上,該論文的思路與 R1-Style 方法高度相關,都驗證了強化學習在提升基礎模型高級能力上的巨大潛力。VinciCoder 的成功探索表明,RL 不僅可以用于優化數學推理等文本任務,更可以作為連接 “視覺” 與 “代碼” 兩大模態的橋梁,解決 SFT 無法企及的跨模態對齊難題。
更多細節請參閱原論文。
免責聲明:本網站所有信息,并不代表本站贊同其觀點和對其真實性負責,投資者據此操作,風險請自擔。
中國廣核:招遠1號機組即將開始全面建設每經AI快訊,11月17日,中國廣核公告,公司子公司山東招遠核電有限公司的招遠1號機組即將于2025年11月18日進行核反應堆主廠房第一罐混凝土澆筑(FCD),.
日前,國家能源局發布關于推進煤炭與新能源融合發展的指導意見,明確加快發展礦區光伏風電產業、積極推動礦區用能清潔替代、穩步推進礦區可再生能源供暖制冷等七項主要
賈躍亭正加速清償中國法下的債務,「下周回國」又提上日程了!,股權,信托,樂視,賈躍亭,債權人小組
2025年11月17日江蘇太倉玖龍紙業,A級箱板紙收購價格保持平穩,廢紙收購價格暫無調整,調整后執行到廠價格1980元/噸。
11月14日甲醇外盤市場收盤價格下跌:CFR東南亞甲醇市場收于318.5-319.5美元/噸,跌3美元/噸。FOB美國海灣甲醇市場收于89.5-90.5美分/加侖;歐洲FOB鹿特丹甲醇市場收于265.
VinciCoder:多模態統一代碼生成框架和視覺反饋強化學習,代碼,信號,模態,新模型,強化學習,視覺反饋
直通世界杯!世預賽-B費戴帽葡萄牙9-1亞美尼亞,內維斯,亞美尼亞,波蘭葡萄牙,世界杯預選賽,塞爾希奧·拉莫斯·加西亞
這種當季水果維生素C含量竟是蘋果的60倍?!還能助眠、保護心血管、提升免疫力又到了吃冬棗的季節冬棗口感脆甜又營養有助于提高免疫力、改善睡眠質量美容美白、緩解焦慮
上證報中國證券網訊11月17日,A股三大股指早盤震蕩調整。截至午間收盤,滬指跌0.43%,深證成指跌0.35%,創業板指跌0.80%。盤面上看,貴金屬、電源設備、生物醫藥等板塊跌幅居前;福建、鋰礦、A
財聯社11月17日訊(編輯黃君芝)素有“華爾街一哥”之稱的摩根大通CEO杰米·戴蒙(JamieDimon)近日警告稱,信貸市場可能正在醞釀麻煩。當時他形象地指出,“如果你看到一只蟑螂,往往意
云南某鋼廠11月招標硅錳定價5770元/噸,采購量1500噸,現金含稅到廠。PriceSeek評析錳硅,多空評分:1.5云南某鋼廠招標硅錳定價5770元/噸,采購量1500噸,現金含稅到廠。參考202
高盛研究報告引述建行表示,2026年凈息差將持續面臨下行壓力,主要因貸款重新訂價,不過隨著貸款定價漸趨穩定及存款成本節約效益顯現,預期下降速度將會收窄。
發生什么了?尼日利亞主帥和民主剛果主帥在賽后互相推搡,世界杯,非洲區,尼日利亞,民主剛果,點球大戰,冠軍獎杯
游客小朋友在體驗打稻谷。俯瞰換上了金黃盛裝的牙胡梯田。近日,五指山市牙胡梯田景區核心區1400多畝稻田進入成熟期。11月15日,五指山市毛陽鎮2025年晚造開鐮
11月17日,生意社丁腈橡膠基準價為16300.00元/噸,與本月初(16325.00元/噸)相比,下降了0.15%。丁腈橡膠年度統計(2024-11-17--2025-11-17,元/噸)當日價16

起重機作為一種高度復雜的運輸系統,其運行涉及多個運動維度的精確協調。在典型的起重機操作中,起升機構負責垂直方向的載荷移動,大車機構實現水平方向的整體位移,而小車機構則完成精確的定位調整。這些運動往往需要同時或交替進行,這就要求驅動系統中的減速機必須具備出色的負載能力和精準的控制性能。針對起重機系統的特殊需求,諾...

鄉村振興有效銜接考核評估反饋問題整改工作開展以來,海東市樂都區把整

村民送水給施工人員。收邊。運輸混凝土。施工現場。施工現場。農村道路