教育部已經啟動布局了新型國家語料庫的建設,包括“中華文脈新型語料庫”“中華大閱讀體系語料庫”等。
“新型國家語料庫”如何建設?3月31日,新京報從教育部召開的新聞發布會上獲悉,教育部、國家語委已經支持布局了五個領域的自主安全可控大語言模型建設項目;教育部已經啟動布局了新型國家語料庫的建設,包括“中華文脈新型語料庫”“中華大閱讀體系語料庫”等。
“當前以深度求索(DeepSeek)等為代表的人工智能技術創新不斷取得突破性的進展,在這個大背景下,國家提出建設新型國家語料庫的戰略部署,凸顯了其重要性、必要性和緊要性。”在3月31日的新聞發布會上,教育部語言文字應用管理司副司長王暉說道。
他指出,現在在一些應用領域,主要是在語言的教育教學和研究領域,有多個語料庫,但是很多語料庫還處于單一文本模式和領域應用階段,在建設的理念、技術和方法、規模,以及數據多樣性、時效性尤其是與人工智能相結合的大規模應用方面還存在不足,難以滿足多元化、動態化尤其是智能化的語言數據需求。
“我們總的考慮是:立足人工智能時代大背景,突破傳統語料庫單一文本模式和領域應用壁壘,以大模型訓練及性能評測、智能計算為核心,以新質態、多模態、多語言、大規模、全域性為突出特性,為通用領域和細分領域多場景應用及創新發展提供規范、可信、高質量的語言文化語料資源。”王暉說道。
記者注意到,《教育強國建設規劃綱要》提出,要建設“新型國家語料庫”,近日印發的《關于加強數字中文建設 推進語言文字信息化發展的意見》(下稱《意見》)中提出,到2027年初步建成國家關鍵語料庫和國家戰略語言資源信息庫等。
對此,3月31日的發布會上,教育部語言文字信息管理司司長劉培俊指出,將以建設語料基礎設施為新基建,服務大語言模型以及生成式人工智能等技術前沿創新應用的制高點。
“目前,教育部、國家語委已經支持布局了五個領域的自主安全可控大語言模型建設項目,下一步將根據需求穩步擴大建設范圍,提升建設成效。”劉培俊說道。
他進一步表示,接下來將夯實“機制、標準、人才”三個基礎。第一是逐步建立健全語料共建共享新機制,第二是研制語言資源、語言數據、基礎語料以及大語言模型的技術和管理標準,第三是依托高校研究機構推進多學科交叉融合,為語言科技、語料建設以及人工智能創新應用培養高素質人才。
王暉透露,2025年,教育部已經啟動布局了新型國家語料庫的建設工作,主要包括兩方面:一是規范引領,加強制度的供給,研制語料庫建設規范,為語料庫建設提供基礎原則和方法指引。二是示范引導,成熟先上,開發建設“中華文脈新型語料庫”“中華大閱讀體系語料庫”,以這兩個示范庫建設整體打造出標桿。
他解釋,“中華文脈新型語料庫”也可以簡單理解為瞄準的是智慧教師,“中華大閱讀體系語料庫”瞄準的是智慧學伴。“在此基礎上,探索建設系列教育、語言文化國家新型語料庫群,服務教育強國、文化強國建設。”
來源:本文內容搜集或轉自各大網絡平臺,并已注明來源、出處,如果轉載侵犯您的版權或非授權發布,請聯系小編,我們會及時審核處理。
聲明:江蘇教育黃頁對文中觀點保持中立,對所包含內容的準確性、可靠性或者完整性不提供任何明示或暗示的保證,不對文章觀點負責,僅作分享之用,文章版權及插圖屬于原作者。
Copyright©2013-2025 ?JSedu114 All Rights Reserved. 江蘇教育信息綜合發布查詢平臺保留所有權利
蘇公網安備32010402000125
蘇ICP備14051488號-3技術支持:南京博盛藍睿網絡科技有限公司
南京思必達教育科技有限公司版權所有 百度統計