近日,由南京農(nóng)業(yè)大學(xué)和中華書局古聯(lián)(北京)數(shù)字傳媒科技有限公司合作研發(fā)的“中華物產(chǎn)大模型”在世界互聯(lián)網(wǎng)大會(huì)烏鎮(zhèn)峰會(huì)發(fā)布。圍繞“AI賦能下的中華物產(chǎn)與文明探源”,南京農(nóng)業(yè)大學(xué)人文與社會(huì)發(fā)展學(xué)院...
近日,由南京農(nóng)業(yè)大學(xué)和中華書局古聯(lián)(北京)數(shù)字傳媒科技有限公司合作研發(fā)的“中華物產(chǎn)大模型”在世界互聯(lián)網(wǎng)大會(huì)烏鎮(zhèn)峰會(huì)發(fā)布。圍繞“AI賦能下的中華物產(chǎn)與文明探源”,南京農(nóng)業(yè)大學(xué)人文與社會(huì)發(fā)展學(xué)院教授包平和信息管理學(xué)院教授王東波分別作了《數(shù)智賦能下的中華物產(chǎn)與文明探源》和《中華物產(chǎn)大模型簡(jiǎn)介》的主旨報(bào)告。
中華物產(chǎn)大模型框架圖
此次發(fā)布的中華物產(chǎn)大模型是一個(gè)集合了多家機(jī)構(gòu)數(shù)據(jù)資源、算力資源和算法資源的系統(tǒng)工程。整體構(gòu)建過程分為物產(chǎn)大模型預(yù)訓(xùn)練語(yǔ)料構(gòu)建、預(yù)訓(xùn)練模型訓(xùn)練、對(duì)話模型構(gòu)建與知識(shí)庫(kù)問答實(shí)現(xiàn)三大板塊。
王東波介紹,由于物產(chǎn)大模型需要同時(shí)滿足對(duì)于古今物產(chǎn)資料的有效處理,因此需收集到含有高質(zhì)量物產(chǎn)信息的語(yǔ)料。南京農(nóng)業(yè)大學(xué)中華農(nóng)業(yè)文明研究院所保存的3600萬(wàn)字的手抄本《方志物產(chǎn)》資料是合適的訓(xùn)練語(yǔ)料之一。
從2008年開始,包平教授團(tuán)隊(duì)在先前基礎(chǔ)上,進(jìn)行了中華歷史方志物產(chǎn)文獻(xiàn)的補(bǔ)遺和全口徑物產(chǎn)文獻(xiàn)的輯錄和智能化整理,涵蓋了地方志以外的其他記載物產(chǎn)的文獻(xiàn),包括正史、農(nóng)書、本草、名人筆記、博物志、異物志等,使這套中華物產(chǎn)資源達(dá)到4800萬(wàn)字并逐步開始活化利用,團(tuán)隊(duì)基于此資料開展了深入的智能整理與知識(shí)挖掘研究,為后續(xù)與中華書局古聯(lián)公司聯(lián)手構(gòu)建中華物產(chǎn)大語(yǔ)言模型奠定了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
在中華書局古聯(lián)公司所提供的具體場(chǎng)景基礎(chǔ)上,王東波團(tuán)隊(duì)在這一階段采用了當(dāng)前最先進(jìn)的深度學(xué)習(xí)技術(shù),基于自然語(yǔ)言處理領(lǐng)域的基座模型,使用混合了超過20億字物產(chǎn)資料、方志文獻(xiàn)、古籍文本和指令對(duì)齊數(shù)據(jù)的綜合數(shù)據(jù)集來訓(xùn)練40億參數(shù)的大語(yǔ)言模型。經(jīng)過多步優(yōu)化訓(xùn)練出支持二次開發(fā)的物產(chǎn)基座模型,在多組實(shí)驗(yàn)上的結(jié)果顯示該模型能夠在方志翻譯、方志標(biāo)點(diǎn)、物產(chǎn)實(shí)體識(shí)別等一系列物產(chǎn)文本處理任務(wù)上取得超過原模型的訓(xùn)練效果,更加適合物產(chǎn)領(lǐng)域的開發(fā)。
中華物產(chǎn)知識(shí)智能活化與利用會(huì)意圖
王東波團(tuán)隊(duì)使用了45萬(wàn)條對(duì)話數(shù)據(jù)來訓(xùn)練模型的基礎(chǔ)對(duì)話功能和邏輯能力,尤其強(qiáng)化了模型在物產(chǎn)數(shù)據(jù)處理和物產(chǎn)問答方面的效果。在應(yīng)用端,中華物產(chǎn)大模型進(jìn)一步與外部工具或知識(shí)庫(kù)結(jié)合,通過物產(chǎn)識(shí)別、物產(chǎn)鏈接和檢索增強(qiáng)問答功能為用戶提供精準(zhǔn)、便捷的物產(chǎn)信息查詢服務(wù),給學(xué)術(shù)研究、商業(yè)開發(fā)等領(lǐng)域提供有力支撐。
據(jù)包平介紹,中國(guó)擁有數(shù)量極其豐富的長(zhǎng)時(shí)段連續(xù)記載的物產(chǎn)歷史文獻(xiàn)資源,開發(fā)一種能夠同時(shí)利用好古代和現(xiàn)代物產(chǎn)信息的大語(yǔ)言模型對(duì)于推動(dòng)物產(chǎn)資源的活化利用具有重要意義。未來,依托南京農(nóng)業(yè)大學(xué)中華物產(chǎn)與文明探源協(xié)同創(chuàng)新中心這個(gè)平臺(tái),在加強(qiáng)對(duì)中華物產(chǎn)史的理論研究基礎(chǔ)上,還將在人工智能和物產(chǎn)挖掘結(jié)合的研究方向上進(jìn)一步深耕,推出能夠支持更多模態(tài)物產(chǎn)資源處理的工具,推動(dòng)中華物產(chǎn)文化走向世界。
據(jù)悉,中華書局是國(guó)內(nèi)古籍整理與出版的權(quán)威機(jī)構(gòu),南京農(nóng)業(yè)大學(xué)于2023年與中華書局聯(lián)合成立了“中華物產(chǎn)與文明探源協(xié)同創(chuàng)新中心”,中心旨在從具有農(nóng)耕文明鮮明特色的物產(chǎn)史研究入手,從遠(yuǎn)古神話里描述的物產(chǎn)到現(xiàn)代科技下呈現(xiàn)的物產(chǎn),從單純物產(chǎn)史研究到物產(chǎn)與自然、社會(huì)、經(jīng)濟(jì)、文化的關(guān)聯(lián),揭示中華物產(chǎn)與文明進(jìn)程的歷時(shí)脈絡(luò)。
通訊員 楠秾萱
揚(yáng)子晚報(bào)/紫牛新聞 王赟
校對(duì) 陶善工
來源:本文內(nèi)容搜集或轉(zhuǎn)自各大網(wǎng)絡(luò)平臺(tái),并已注明來源、出處,如果轉(zhuǎn)載侵犯您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)聯(lián)系小編,我們會(huì)及時(shí)審核處理。
聲明:江蘇教育黃頁(yè)對(duì)文中觀點(diǎn)保持中立,對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或者完整性不提供任何明示或暗示的保證,不對(duì)文章觀點(diǎn)負(fù)責(zé),僅作分享之用,文章版權(quán)及插圖屬于原作者。
Copyright?2013-2024 JSedu114 All Rights Reserved. 江蘇教育信息綜合發(fā)布查詢平臺(tái)保留所有權(quán)利
蘇公網(wǎng)安備32010402000125
蘇ICP備14051488號(hào)-3技術(shù)支持:南京博盛藍(lán)睿網(wǎng)絡(luò)科技有限公司
南京思必達(dá)教育科技有限公司版權(quán)所有 百度統(tǒng)計(jì)