免费在线a视频-免费在线观看a视频-免费在线观看大片影视大全-免费在线观看的视频-色播丁香-色播基地

  • 停止校園欺凌、建設平安校園
  • 江蘇自考報名-南京網絡教育-教育培訓--江蘇教育黃頁
  • 小宋通信商鋪江蘇移動手機套餐優惠多多
  • 司法考試 公務員考試 PHP教程 自考 注冊會計師 會計證 統統免費下

阿里開源視覺大模型Qwen2-VL:可理解20分鐘長視頻,性能比肩GPT-4o

:2024年09月02日 智東西
分享到:

智東西8月30日消息,阿里通義千問于昨日開源新一代視覺語言模型Qwen2-VL。其中,Qwen2-VL-72B在大部分指標上都達到了最優,刷新了開源多模態模型的最好表現,甚至超過了GPT-4o和Claude 3.5 Sonnet等閉源...

編譯 | Vendii

編輯 | 漠影

智東西8月30日消息,阿里通義千問于昨日開源新一代視覺語言模型Qwen2-VL。其中,Qwen2-VL-72B在大部分指標上都達到了最優,刷新了開源多模態模型的最好表現,甚至超過了GPT-4o和Claude 3.5 Sonnet等閉源模型。

據官方博客文章介紹,Qwen2-VL基于Qwen2打造,相比第一代Qwen-VL,Qwen2-VL具有以下特點:

1、能讀懂不同分辨率和不同長寬比的圖片:Qwen2-VL在多個視覺理解基準測試中取得了全球領先的表現,其中包括但不限于考察數學推理能力的MathVista、考察文檔圖像理解能力的DocVQA、考察真實世界空間理解能力的RealWorldQA、考察多語言理解能力的MTVQA。

2、能理解20分鐘以上的長視頻:Qwen2-VL可理解長視頻,并將其用于基于視頻的問答、對話和內容創作等應用中。

3、能夠操作手機和機器人的視覺智能體:借助復雜推理和決策的能力,Qwen2-VL可集成到手機、機器人等設備,根據視覺環境和文字指令進行自動操作。

4、多語言支持:除英語和中文外,Qwen2-VL現在還支持理解圖像中的多語言文本,包括大多數歐洲語言、日語、韓語、阿拉伯語、越南語等。

通義千問團隊以Apache 2.0協議開源了Qwen2-VL-2B和Qwen2-VL-7B,并發布了Qwen2-VL-72B的API。開源代碼已集成到Hugging Face Transformers、vLLM和其他第三方框架中。

GitHub項目地址:https://github.com/QwenLM/Qwen2-VL

一、媲美GPT-4o!多個指標刷新最好表現,3種規模模型開源

通義千問團隊從6個方面來評估Qwen2-VL分別在72B、7B、2B三種規模上的視覺能力,包括復雜的大學水平問題解決、數學能力、文檔和表格的理解、多語言文本圖像的理解、通用場景問答、視頻理解、視覺智能代理(Visual AI Agent)能力。

整體來看,Qwen2-VL-72B在大部分指標上都達到了最優,甚至超過了GPT-4o和Claude 3.5 Sonnet等閉源模型。

具體而言,該模型在文檔理解方面優勢明顯,僅在復雜的大學水平問題解決方面和GPT-4o還有差距。同時,Qwen2-VL 72B也刷新了開源多模態模型的最好表現。

▲Qwen2-VL-72B模型能力分數比較(圖源:通義千問團隊官方博客文章)

在7B規模上,Qwen2-VL同樣支持單圖、多圖、視頻的輸入,在更經濟的規模上也實現了有競爭力的性能表現。

比如,Qwen2-VL-7B在DocVQA考察的文檔理解能力,以及MTVQA考察的多語言文本圖片理解能力都處于SOTA水平。在AI領域,SOTA模型通常是指在特定任務或數據集上性能表現最優的模型。

▲Qwen2-VL-7B模型能力分數比較(圖源:通義千問團隊官方博客文章)

除此之外,通義千問團隊還提供了一個更小的2B規模的模型,以此支持移動端的豐富應用。Qwen2-VL-2B具備完整圖像視頻多語言的理解能力,特別在視頻文檔和通用場景問答方面,相較同規模模型優勢明顯。

▲Qwen2-VL-2B模型能力分數比較(圖源:通義千問團隊官方博客文章)

二、手寫字體、公式代碼、網頁截屏、視頻影像……多場景識別理解不在話下

在官方博客文章列舉的多個模型能力案例中,Qwen2-VL覆蓋了廣闊的應用場景:能識別手寫文字、圖中文字,能轉寫數學公式、多種語言文字,能解數學幾何題、LeetCode編程題,能讀懂不同分辨率和不同長寬比的圖片,能用特定格式輸出答案,還能對視頻內容進行總結和解讀。

1、準確識別圖中文字,輕松轉寫數學公式

對于下圖列舉出來的手寫文字、融合在圖像中的文字,Qwen2-VL都能準確地識別出對應的語種和文字內容(圖中分別涉及到葡萄牙語、中文)。對于下圖右下角,Qwen2-VL不只能識別出具體的數字,還能識別出各個數字對應的盒子的顏色。

▲Qwen2-VL能夠準確識別圖中的文字(圖源:通義千問團隊官方博客文章)

對于下圖左半邊中涉及到的復雜數學公式,Qwen2-VL可以輕松地用Markdown格式轉寫出來。對于下圖右半邊中涉及到的中文、日語、韓語、西班牙語、葡萄牙語、愛爾蘭語、英語、德語、波蘭語、希臘語、越南語、蒙古語、俄語、印地語、斯瓦希里語,Qwen2-VL也能一字不落地轉錄出來。

▲Qwen2-VL能夠準確轉錄圖中的復雜公式和多語種(圖源:通義千問團隊官方博客文章)

2、理解現實世界信息,準確輸出問題答案

對于數學平面幾何題目、LeetCode平臺的編程題目、1792×14400尺寸的技術文檔截圖,Qwen2-VL也能識別理解并回答用戶的提問。

▲Qwen2-VL能夠解決的各種問題(圖源:通義千問團隊官方博客文章)

Qwen2-VL還能基于天氣預報軟件的截屏、網頁搜索結果的截屏、Linux官方檔案庫的截屏等等抓取用戶需要的信息,用特定格式(如表格、段落編號方式、JSON格式的數組)輸出。

▲Qwen2-VL回答支持多種格式(圖源:通義千問團隊官方博客文章)

3、總結視頻要點,解讀視頻內容

此外,除了靜態圖像,Qwen2-VL還能進行視頻內容分析。它能夠總結視頻要點、即時回答相關問題,并維持連貫對話,幫助用戶從視頻中獲取有價值的信息。

比如下圖中,用戶上傳了一段2分57秒的視頻,并讓Qwen2-VL描述這段視頻,描述的內容非常詳細且準確。然后用戶提問了視頻中人物穿著的衣服的顏色,Qwen2-VL也給到了符合視頻內容的回答。

▲Qwen2-VL能夠識別視頻,并圍繞該視頻回答相應問題(圖源:通義千問團隊官方博客文章)

三、實時數據檢索+實時環境交互,或將碰撞出更多可能性

據官方博客文章介紹,Qwen2-VL在作為視覺代理方面展現出潛力,能初步利用視覺能力實現一些自動化工具的調用和交互。

視覺代理(Visual Agent)通常指的是一種AI系統,它能夠處理和理解視覺信息(如圖像或視頻),并在此基礎上進行決策或執行任務。

Qwen2-VL支持函數調用,使其能夠利用外部工具進行實時數據檢索,比如航班狀態、天氣預報、包裹追蹤。

▲Qwen2-VL根據用戶提供的航班信息調用“weather_hour24”工具查詢天氣狀況(圖源:通義千問團隊官方博客文章)

通義千問團隊還初步做了一些簡單的探索,讓模型能夠更像人一樣和環境交互。“使得Qwen2-VL不僅作為觀察者,而是能有代替人做更多的執行者的可能?!惫俜讲┛臀恼聦懙馈?/p>

在以下視頻中,Qwen2-VL可以直接代替人類操作手機。

▲Qwen2-VL進行視覺交互并自主操作手機(圖源:通義千問團隊官方博客文章)

以及以下視頻中,Qwen2-VL能根據識別到的場上信息和提示詞描述進行“24點”游戲的決策,并且取得了勝利。

▲Qwen2-VL進行視覺交互并完成紙牌游戲(圖源:通義千問團隊官方博客文章)

結語:語言能力已經遠遠不夠!模型正在卷向多模態

隨著AI技術的飛速發展,語言模型曾一度成為技術競爭的焦點,但自2023年3月15日OpenAI發布了能夠讀圖的GPT-4后,多模態模型的戰鼓也是越敲越響。模型不再局限于處理單一的文本數據,而是通過整合圖像、視頻、音頻等多種信息源,展現出更為強大的認知和理解能力。

視覺語言模型是多模態模型領域內的一個重要細分方向。這些模型通過結合計算機視覺與自然語言處理技術,在圖像理解、生成及跨模態交互等領域展現出巨大潛力。它們可以被應用于視覺問答(VQA)、圖像分類、目標檢測、圖像分割等多種任務,未來有望在醫療診斷、機器人技術等領域內實現更加廣泛的應用。

來源:GitHub

[我要糾錯]
文:宋聰喬&發表于江蘇
關鍵詞: 編譯 Vendii 編輯 東西 8月

來源:本文內容搜集或轉自各大網絡平臺,并已注明來源、出處,如果轉載侵犯您的版權或非授權發布,請聯系小編,我們會及時審核處理。
聲明:江蘇教育黃頁對文中觀點保持中立,對所包含內容的準確性、可靠性或者完整性不提供任何明示或暗示的保證,不對文章觀點負責,僅作分享之用,文章版權及插圖屬于原作者。

點個贊
0
踩一腳
0

您在閱讀:阿里開源視覺大模型Qwen2-VL:可理解20分鐘長視頻,性能比肩GPT-4o

Copyright©2013-2025 ?JSedu114 All Rights Reserved. 江蘇教育信息綜合發布查詢平臺保留所有權利

蘇公網安備32010402000125 蘇ICP備14051488號-3技術支持:南京博盛藍睿網絡科技有限公司

南京思必達教育科技有限公司版權所有   百度統計

主站蜘蛛池模板: 国产成人深夜福利在线观看 | 深夜影院一级毛片 | 高清一级做a爱过程不卡视频 | 日本精品久久 | 末成年娇小性色xxxxx | 日韩中文字幕在线观看 | 青春草视频免费观看 | 日本人与亚洲人hd | 很黄很黄叫声床戏免费视频 | 美女一级毛片无遮挡内谢 | sss在线观看 | 狠狠综合久久综合88亚洲日本 | 一级毛片在线免费播放 | 亚洲小视频在线播放 | 永久在线观看视频 | 精品国偷自产在线不卡短视频 | 制服丝袜中文字幕在线观看 | 国产精品亚洲日日摸夜夜添 | 成人免费视频网址 | 国产精品亚洲精品日韩已方 | 亚洲精品成人a在线观看 | 三级网站在线 | 嘿嘿嘿视频在线观看网站 | 国产1级片| 羞羞的网址 | 狠狠色综合色综合网站嗯 | 久久免费高清视频 | 日本视频三区 | 在线视频一区二区 | 黄色毛片视频网站 | 色漫免费看 | 伦理在线看 | 色网站免费视频 | 色网站在线播放 | 成人在线免费视频观看 | 国产欧美日韩另类 | 日韩伦理一区二区 | 中文字幕一区二区三区四区 | 在线观看男女爱视频网站 | 一级a级国产不卡毛片 | 手机亚洲第1页 |
最熱文章
最新文章
  • 阿里云上云鉅惠,云產品享最低成本,有需要聯系,
  • 卡爾蔡司鏡片優惠店,鏡片價格低
  • 蘋果原裝手機殼