首頁(yè) | 版面導(dǎo)航 | 標(biāo)題導(dǎo)航
   第01版:頭版
   第02版:新聞
   第03版:新聞
   第04版:黨建
   第05版:社會(huì)治理
   第06版:社會(huì)工作
   第07版:社會(huì)工作
   第08版:新聞
   第09版:新聞
   第10版:新聞
   第11版:新聞
   第12版:新聞
   第13版:新聞
   第14版:ESG
   第15版:志愿服務(wù)
   第16版:尋找慈善傳統(tǒng)
“人工智能+”成公益創(chuàng)新突破口
山東菏澤:鄉(xiāng)村振興 青年先行

版面目錄

第01版
頭版

第02版
新聞

第03版
新聞

第04版
黨建

第05版
社會(huì)治理

第06版
社會(huì)工作

第07版
社會(huì)工作

第08版
新聞

第09版
新聞

第10版
新聞

第11版
新聞

第12版
新聞

第13版
新聞

第14版
ESG

第15版
志愿服務(wù)

第16版
尋找慈善傳統(tǒng)

新聞內(nèi)容
2024年03月19日 星期二上一期下一期
識(shí)典古籍平臺(tái)上線古籍智能助手
“人工智能+”成公益創(chuàng)新突破口

    識(shí)典古籍平臺(tái)上線智能助手,通過(guò)“問(wèn)AI”可以實(shí)現(xiàn)與古籍對(duì)話(huà)

    ■ 本報(bào)記者 皮磊

    眼下,數(shù)字技術(shù)、人工智能、AI已成為社會(huì)發(fā)展熱詞。今年的政府工作報(bào)告中提到,深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,開(kāi)展“人工智能+”行動(dòng)。這是“人工智能+”首次被寫(xiě)入政府工作報(bào)告,為各行各業(yè)發(fā)展釋放了積極的信號(hào)。在公益慈善領(lǐng)域,前沿技術(shù)的發(fā)展也促進(jìn)了行業(yè)不斷升級(jí)迭代,新的公益項(xiàng)目、公益產(chǎn)品不斷涌現(xiàn)。

    2022年3月,字節(jié)跳動(dòng)向北京大學(xué)教育基金會(huì)進(jìn)行捐贈(zèng),支持“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開(kāi)放實(shí)驗(yàn)室”。字節(jié)跳動(dòng)依托在OCR(光學(xué)字符識(shí)別)、自然語(yǔ)言處理、知識(shí)圖譜等技術(shù)領(lǐng)域的經(jīng)驗(yàn)積累,以及互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)與研發(fā)優(yōu)勢(shì),探索借助人工智能提高古籍修復(fù)、整理工作效率。當(dāng)年10月,由該實(shí)驗(yàn)室研發(fā)的古籍?dāng)?shù)字化平臺(tái)——“識(shí)典古籍”上線,讓古籍保護(hù)與傳承工作步入“快車(chē)道”,更多中華文化瑰寶得以進(jìn)入大眾視野。

    有報(bào)道指出,“識(shí)典古籍”平臺(tái)不僅是一個(gè)公益性數(shù)字化平臺(tái),對(duì)于古籍愛(ài)好者尤其是專(zhuān)業(yè)研究人員來(lái)說(shuō),其更是一座橫跨千年歷史的知識(shí)寶庫(kù)。目前,該平臺(tái)對(duì)社會(huì)免費(fèi)開(kāi)放的古籍超過(guò)了2900部,其提供的分詞檢索、圖文對(duì)照、字典釋義等功能,讓普通人也能輕松閱讀古籍文獻(xiàn)。

    不過(guò),隨著該平臺(tái)上線的古籍?dāng)?shù)量越來(lái)越多,平臺(tái)功能和相關(guān)工具不斷優(yōu)化,如何讓用戶(hù)學(xué)會(huì)使用越來(lái)越多的工具,更加高效便捷地找到自己需要的資料來(lái)源,成為一個(gè)新的問(wèn)題。

    記者從字節(jié)跳動(dòng)方面了解到,為進(jìn)一步解決“找不到”“不會(huì)用”等問(wèn)題,“識(shí)典古籍”平臺(tái)于近期上線古籍智能助手。簡(jiǎn)單來(lái)說(shuō),通過(guò)古籍智能助手,用戶(hù)可以用平常說(shuō)話(huà)的方式與正在閱讀的古籍進(jìn)行對(duì)話(huà)。當(dāng)遇到不懂的古文時(shí),用戶(hù)可以點(diǎn)擊“問(wèn)AI”,就能夠看到這句話(huà)的翻譯,還可以讓智能助手總結(jié)古文的主要內(nèi)容,提出可供參考的研究問(wèn)題。

    這也是大語(yǔ)言模型技術(shù)在古籍?dāng)?shù)字化以及公益領(lǐng)域的一個(gè)創(chuàng)新案例。

    據(jù)“識(shí)典古籍”產(chǎn)品負(fù)責(zé)人王宇介紹,古籍保護(hù)與文化傳承一直是字節(jié)跳動(dòng)公益重點(diǎn)關(guān)注的領(lǐng)域,“識(shí)典古籍”平臺(tái)一方面是一個(gè)面向社會(huì)公眾的數(shù)字化古籍閱讀工具,同時(shí)也是一個(gè)開(kāi)放的古籍?dāng)?shù)字化智能整理平臺(tái)。“從2022年上線到現(xiàn)在,我們根據(jù)用戶(hù)的反饋對(duì)平臺(tái)功能進(jìn)行了一系列優(yōu)化。我們也在探索一些更高效的方式,開(kāi)發(fā)更好的產(chǎn)品和工具,幫助大家更好地閱讀和理解古籍。此次依托大語(yǔ)言模型技術(shù),上線古籍智能助手,也是我們?cè)谶@一領(lǐng)域的思考和創(chuàng)新?!?/p>

    此前爆火的ChatGPT讓很多人第一次聽(tīng)說(shuō)了“大語(yǔ)言模型”這個(gè)專(zhuān)業(yè)術(shù)語(yǔ)。簡(jiǎn)單來(lái)說(shuō),一些使用了大模型技術(shù)的產(chǎn)品,能和用戶(hù)自然地對(duì)話(huà)和交流。不過(guò),將該技術(shù)應(yīng)用在古籍檢索及閱讀領(lǐng)域,目前并沒(méi)有先例。加之古籍內(nèi)容的特殊性和專(zhuān)業(yè)性,如何更好地利用這一技術(shù),使其能夠準(zhǔn)確識(shí)別用戶(hù)意圖并給出讓人滿(mǎn)意的結(jié)果,仍是不小的挑戰(zhàn)。

    具體而言,在“識(shí)典古籍”平臺(tái),當(dāng)用戶(hù)輸入問(wèn)題或者選中古籍中的文字請(qǐng)AI進(jìn)行解釋時(shí),古籍智能助手首先會(huì)對(duì)用戶(hù)提出的問(wèn)題進(jìn)行意圖判斷;如果回答這個(gè)問(wèn)題需要利用字典中的條目或者古籍?dāng)?shù)據(jù)庫(kù)搜索結(jié)果作為上下文,智能助手會(huì)獲取相關(guān)的上下文,然后通過(guò)大語(yǔ)言模型綜合總結(jié)并給出回復(fù)。經(jīng)過(guò)前期測(cè)試,其準(zhǔn)確率也已達(dá)到了較高的水平。

    不過(guò),由于目前沒(méi)有可供參考的應(yīng)用案例,為了讓大模型能夠準(zhǔn)確地回答用戶(hù)的問(wèn)題,“識(shí)典古籍”研發(fā)團(tuán)隊(duì)付出了不少努力。為了讓大模型在回答問(wèn)題時(shí)采用專(zhuān)業(yè)的參考來(lái)源,古籍智能助手采用了檢索增強(qiáng)生成(RAG)技術(shù),即通過(guò)檢索不同資料來(lái)源,獲得所需上下文,以此增強(qiáng)大模型生成答案的質(zhì)量。

    此外,王宇介紹說(shuō),根據(jù)用戶(hù)意圖如何判斷該使用什么樣的檢索工具,如何優(yōu)化提供上下文的內(nèi)容,團(tuán)隊(duì)也花了不少精力。比如,從古籍?dāng)?shù)據(jù)庫(kù)里檢索古籍資料,為了讓用戶(hù)獲得的上下文更加相關(guān),在關(guān)鍵詞檢索之外,研發(fā)團(tuán)隊(duì)也開(kāi)發(fā)了語(yǔ)義檢索,讓智能助手在回答時(shí)能參考到文字不一樣但含義相關(guān)的相關(guān)古籍段落。研發(fā)團(tuán)隊(duì)也有意在答案后加上原文鏈接,在界面上也會(huì)提示“回答由人工智能生成,請(qǐng)注意查證”,方便用戶(hù)去查證原文并做出自己的判斷。

    借助新技術(shù)將復(fù)雜的事情簡(jiǎn)單化,是研發(fā)團(tuán)隊(duì)的方向和目標(biāo)。

    據(jù)不完全統(tǒng)計(jì),我國(guó)現(xiàn)存古籍約有20萬(wàn)種,其中有數(shù)字化掃描影像的有8萬(wàn)種,實(shí)現(xiàn)文本數(shù)字化的僅有3-4萬(wàn)種左右。由于古籍種類(lèi)、數(shù)量繁雜,保存程度不一,加之從事古籍修復(fù)的專(zhuān)業(yè)人員數(shù)量不足、資金匱乏等多重原因,古籍資源的挖掘傳承保護(hù)工作仍面臨巨大壓力。

    記者了解到,目前“識(shí)典古籍”除了網(wǎng)頁(yè)版,今日頭條產(chǎn)品側(cè)還設(shè)置了“古籍”頻道。由于公益項(xiàng)目的延展性,在字節(jié)跳動(dòng)內(nèi)部,有很多不同業(yè)務(wù)板塊的員工參與其中,為此還專(zhuān)門(mén)成立了一個(gè)古籍保護(hù)公益社團(tuán)。這種開(kāi)放、協(xié)作的氛圍,也是平臺(tái)在兩年時(shí)間內(nèi)實(shí)現(xiàn)上線并不斷優(yōu)化的基礎(chǔ)。

    “古籍智能助手的定位是提升查閱古籍的效率,它代替不了專(zhuān)業(yè)的學(xué)術(shù)判斷和閱讀積累,但我們希望它能為使用古籍及閱讀工具的人節(jié)約時(shí)間、開(kāi)拓新的思路?!蓖跤畋硎?,因?yàn)槭且粋€(gè)創(chuàng)新性功能,古籍智能助手目前還有一定的實(shí)驗(yàn)性,但字節(jié)跳動(dòng)決定將其免費(fèi)開(kāi)放給公眾使用,一方面是希望用戶(hù)能夠多使用、多反饋,為后續(xù)優(yōu)化提供更多建議,另一方面也是希望通過(guò)實(shí)踐和應(yīng)用來(lái)打磨出更好的產(chǎn)品。

    2022年“識(shí)典古籍”平臺(tái)剛剛上線時(shí),為自己設(shè)定了一個(gè)三年目標(biāo):未來(lái)三年,“識(shí)典古籍”將陸續(xù)完成一萬(wàn)種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時(shí)將全部免費(fèi)開(kāi)放。對(duì)于項(xiàng)目團(tuán)隊(duì)來(lái)說(shuō),距離目標(biāo)的實(shí)現(xiàn)仍有一定的差距。

    記者獲悉,除了配套開(kāi)展多種形式的宣傳倡議活動(dòng),下一步,“識(shí)典古籍”研發(fā)團(tuán)隊(duì)將有計(jì)劃地為古籍智能助手開(kāi)發(fā)更多的工具。除此之外,該團(tuán)隊(duì)還將繼續(xù)提升AI在古籍整理等領(lǐng)域的應(yīng)用,希望能夠整理和校對(duì)更多的古籍,并將其數(shù)字化,促進(jìn)古籍資源的高效利用,讓平臺(tái)在文化傳承中發(fā)揮更大的作用。