「解碼佛典智慧:從AI語言模型到數位人文分析」工作坊
日期:2025/9/12(五)-2025/9/13(六)
地點:中央研究院中國文哲研究所 B1 會議室、法鼓文理學院 GC102 教室
主辦單位|中央研究院「東亞文化交流視域下的城市書寫」主題計畫、法鼓文理學院、CBETA 基金會

主題一|T2805 與真諦三藏:CBETA 詞彙檢索的個案分享
講者|耿晴教授(臺大哲學系/臺大佛學研究中心)
耿晴老師在 2024 年 12 月,以其根據 2009 年博論改寫的專書 Toward a New Image of Paramārtha: Yogācāra and Tathāgatagarbha Buddhism Revisited(書名中譯:《邁向真諦三藏的新形象——唯識與如來藏佛教重探》),榮獲第十三屆中央研究院「人文及社會科學學術性專書獎」。
耿老師在工作坊裡分享他當年如何運用 CBETA 的詞彙檢索來完成這項研究。
我們即便是在 2025 年回顧這項研究,其細膩縝密的立論及交叉驗證方式,仍令人非常驚豔!
耿老師首先提出一個根本的問題——不同的經錄所記載的真諦作品數量差異甚大,當我們嘗試理解真諦思想時,若基於不同的文獻分析範圍,就會建構出非常不一樣的真諦形象。
當各經錄的記載眾說紛紜時,詞彙分析的研究結果有助於我們判斷哪些是真諦的真實作品。
耿老師這次分享的主題即是以敦煌殘本 T2805《攝大乘講疏卷第五.第七》與真諦譯作進行詞彙分析。
老師說道,由於 T2805 是真諦譯 T1595《攝大乘論釋》的註解,因此 T2805 的年代不會早於 561 年;T2805 的內容完全沒有意識到玄奘的存在,而圓測(613~696)的《解深密經疏》有引用完全相同的一句話,因此 T2805 的年代不會晚於 700 年。
而 T2805 現存的部分完全沒引用《起信論》,跟大正藏裡面收錄的其他與真諦《攝大乘論》相關的敦煌文獻顯著不同。
這些證據都可以支持耿老師的研究假設:T2805 的內容才代表真諦的想法,其他關於真諦思想的解釋其實都是受到《起信論》影響,而將其解釋為真諦思想。
這份研究的起源,來自於耿老師透過 CBETA 檢索,發現 T2805 對「解性」的解釋跟其他傳統文獻對「解性」的說明完全不同,但這份文獻的年代及作者都不明,更不可能採用碳 14 評估法。
因此老師一一爬梳相關文獻,並根據真諦不同的翻譯集團、年代、南北朝不同區域流行的佛教術語、當時的幾位主要譯者及思想家分類,整理了共七百四十幾個相關詞彙及概念的表格,並分析出真諦翻譯集團的新發明譯詞、特殊的音寫詞、特殊詞彙。
以真諦翻譯集團新發明譯詞為例,對於梵文 anāsrava 一詞的翻譯,真諦早期跟鳩摩羅什一樣翻譯為「無漏」,但真諦後來改譯作「無流」。
將 anāsrava 譯為「無流」的情況,在真諦之前不存在,在真諦和玄奘之間的時間幾乎沒有,在真諦過世後則很少人用,使用的案例幾乎都是引用真諦作品。而 T2805 則只使用「無流」這個譯詞。
最終,耿老師發現在 CBETA 收錄超過兩億字的文獻裡,唯有 T2805 與真諦集團翻譯的詞彙有高度一致性。
根據詞彙分析,耿老師認為 T2805 的作者出身於南方佛教脈絡,很可能是真諦翻譯《隨相論》時的筆受,且有可能是道尼這位弟子。
最後,耿老師展望未來能夠有漢譯佛教詞彙辭典,透過收錄不同意涵用例、首次出現的典籍、主要使用的典籍等等,可以幫助確認作品年代、是否屬於偽經或經過編者修改,甚至看出經典流傳的軌跡。
聽完了耿老師的演講,小編想到現在大家可以使用「CBETA 詞彙搜尋與分析」網站和 CBReader 匯出匯入特定檢索範圍的新功能來增進研究效率,但我們目前還沒辦法提供南北地理區域譯作的比較分析。嗚嗚~
此外,光有數位工具也不夠,我們還需要學習耿老師對於時間、空間、佛教與社會的互動、譯者風格、翻譯團隊分工等脈絡的掌握,以及對詞彙及佛法概念的高度敏感性,才能把工具的效能發揮到極致。
透過耿老師的分享,我們見到了人文學者與數位工具協作的極佳示範!


主題二|AI人文資料處理與 DocuSky 實作(I):AI 文獻分析實作
講者|曹德啟教授(法鼓文理學院佛教學系)
你是否跟小編一樣好奇:身處資訊爆炸的數位時代,要如何運用自身原有的知識與小技巧,與人工智慧協作篩選海量資料,整理出一目了然的重點呢?要如何與生成式 AI 相處融洽,讓這位超高效率的助理,給出恰到好處的作業成果呢?
現在就讓法鼓文理學院曹德啟博士帶我們飛──不是,帶領我們揭開「人機協作」的武林心法!從今天開始,就讓超高效率的人工智慧,成為你我研究路上的良伴。
曹博士指出,在我們與生成式AI的「人機協作」過程中,人文學習者本身具備的「領域知識」(Domain knowledge)非常重要。
首先,對生成式 AI 下指令,這時必須先釐清思考的次第與問題的層次。透過每次面對新問題、下新指令的動作,我們可以經由AI自動生成的「問答紀錄」,觀察到自己面對特定處境、問題時,習慣用什麼樣的方式索取資訊,解決問題。曹博士稱之為「問的藝術」。
其次,我們可以透過提供資料,給予焦點與劃定推論界線,減少生成式 AI 回答時的幻覺,達到「就事論事」的目的。
接著,工作坊當天的學員就在曹博士的實作帶領下,首先借助 #CBETAOnline友善的轉檔功能,先直接匯出目標文本:T2061《宋高僧傳.感通篇》〈之一〉、〈之二〉的TXT檔,再依次測試#ChatGPT、#NotebookLM、#Gemini、#Claude,看看哪個生成式AI最適合將這份文獻整理成一份表格形式的「結構化資料」。
測試結果發現,#Claude 不僅能在很短的指令操作內就生成表格,並且有針對內容的摘要,與資料屬性的說明,是與我們的目標最相符的人工智慧平台。
唯一需要克服的小地方是,當我們餵給 #Claude 的文本檔案太大時,它將無法處理。這時,就可以使用曹博士分享的小祕訣──將檔案中的文字,在對話框內複製、貼上,就可以順利克服這項技術問題。

主題三|AI 人文資料處理與 DocuSky 實作(II):DocuSky 數位人文研究平台運用
講者|洪一梅博士(臺灣大學資訊工程學系研究所)
由於本場是使用 DocuSky 自主建庫的教學,所以本篇小記會先側重分享當日洪博士與我們分享的重要行前觀念,至於實作的技術細節及其成果,小編會在之後的分享文陸續釋出。敬請期待!那我們就開始嘍~
洪博士首先指出,我們若觀察典範性的研究歷程,大致可拆分為三個階段:(一)研究前階段:問題意識的提出,蒐集、取得材料。(二)研究中階段:整理、組織材料。(三)研究後階段:分析、觀察。
然後,研究者並在此基礎上,進行研究的詮釋,最終產生研究成果。
而身處資訊爆炸的當代,學者們則必須面對海量的研究資料。
回顧數位典藏時代,由大型研究機構所建置的傳統典藏系統,往往需耗費大量的人力、時間,方能擴充、修正內部資料。而且,也常出現使用者的需求與典藏系統所提供的服務,無法完全貼合的情形──如提供的文本雖然很精良,但不能增添個人筆記,匯入相關詮釋資料;或者系統設計很適合用來分析研究者手邊的特定文本,卻無法匯入該典藏資料庫……等。
因此,當個人化的研究需求──而非泛性的需要──開始被重視的此刻,「數位人文」工具的實務協助,則是當代人文學者研究路上,不可或缺的良伴。
因應上述的需求,以「自建個人化資料庫服務」為核心功能的 DocuSky,應運而生。這可分為三種自主建庫的模態:
(一)「脈絡分析系統」:使用者可自行建立雲端資料庫。
(二)「對讀系統」:支援跨文本對讀功能。
(三)「DocuSky地理資訊系統」:可利用 DocuXML、TSV 或 Excel 檔案,上傳內有 WGS84 經緯度坐標資訊,繪製成地圖。
另外,目前在 DocuSky上,計有約 40 種的數位工具。琳琅滿目的選擇,實則可對應到第一段所述「研究的前、中、後三階段」,而劃分為三大類的輔助工具。洪博士表示,研究者在整個研究過程中,這三者常是反覆發生──後端的新發現,會推翻前端的論證與假設;前端的再更新,會影響後端的結果,如此循環往復。因而需要持續的更正、修改,研究才能更臻完美。而 DocuSky 的數位化特點,在此則能發揮高效率、可視化的有效輔助。
最後,由於 DocuSky 也與許多大型開源資料,進行跨平台介接。CBETA 即為其中一員,豐富的漢語佛典文獻資料,與支援多種匯出格式的檔案下載功能,友善地陪伴讀者,跨越第一步的技術障礙,穩健打造屬於自己的研究資料庫。
比如小編就有在 DocuSky 上看到由曹德啟博士製作的「洛陽伽藍記」公開資料庫(詳見此:https://docusky.org.tw/DocuSky/projects/ntu/luoyang/),大家不妨將其與 CBETA 所收錄的 T2092 洛陽伽藍記、B0077 洛陽伽藍記校釋、B0078 洛陽伽藍記校注進行對讀,相信透過兩大平台各擅勝場的數位功能,當能更深入文本義理。

主題四|DharmaMitra & DharmaNexus: A New Set of Digital Tools for the Study of Buddhist Texts
講者|Sebastian Nehrdich (Tohoku University)
口譯|洪振洲(法鼓文理學院;CBETA 基金會)
DharmaMitra 的翻譯模型真的很厲害!有多厲害呢?
加州大學柏克萊分校有位學者,大概在一年前初次使用的時候表示:「還不錯啦!程度大概像我班上的大三學生翻譯出來的內容。」
再過半年之後,他說:「還不錯欸!現在大概像我博士班學生的翻譯成果。」
最近他在用的時候,説:「這好棒!#就像達賴喇嘛坐在我旁邊!」
第四場次主持人洪振洲教授,盛讚 DharmaMitra 專案的技術長 Sebastian 博士,是佛教界 #唯一有能力結合相關資源進行大語言模型訓練的專家。
洪教授並預言 DharmaMitra 這項工具很可能讓佛學研究跨入新的領域。
而且,據說現在去國外參加佛學或數位人文相關的研討會,#每個人都在談論DharmaMitra。
為什麼 Sebastian 博士及其開發的 DharmaMitra 獲得這麼高的評價呢?
因為訓練大語言模型是非常困難的事,而 Sebastian 博士不僅精通漢文、梵文、藏文等多種佛典語言,同時也相當熟悉 AI 技術。
小編先統整一下 DharmaMitra 新工具的神奇之處。
首先,傳統的檢索工具受限於「檢索文字」的貼合程度,因此檢索關鍵字的內容或順序都可能會影響我們的檢索結果。
舉例來說,我們常遇到一種情況——印象中好像聽過一個佛教故事,但無論怎麼查,就是找不到出處。
尤其如果關鍵字是常出現的蓮花、菩薩、佛、因緣之類的語詞,其檢索難度簡直會讓人想原地躺平!
小編答客問時曾幫忙解決過一個問題,現在正好可以當例子。
有個故事是這樣的——某個賣衣服的商人在運貨途中遇到強盜,但強盜不識好貨,看不出來鹿毛衣才是價值高貴的貨品,因此反而沒搶走鹿毛衣。
呃……光是這段故事情節,要怎麼找佛典出處呢?
太難了!對不對?
那小編偷偷放水,提供一段經文讓大家找答案。《釋氏六帖》卷22:「異相云眾商人遇賊眾衣既多賊不識好者有鹿毛衣不肯要有一貧人得之賣價極多如人不識邪正矣」(CBETA 2025.R2, B13, no.79, p.456a2-3)
咦!明明《釋氏六帖》的內容都洩題了,說是引用《經律異相》,但如果複製內文去 CBETAOnline 全文檢索,是找不到出處的!
因為《釋氏六帖》並沒有按字引用。
當時,小編是運用 CBReader 的運算邏輯功能,用「商*衣*鹿」查到《經律異相》,再循線找到《百喻經》。
但至於如何挑關鍵字、決定使用運算邏輯的關鍵字順序,又要如何選擇搭配檢索的運算邏輯符號,這就要靠經驗和技巧了。
現在,有了 DharmaMitra 新工具,找答案變得很輕鬆啦!
因為 DharmaMitra 的檢索是根據「語意」,所以就算我們只有概略的印象,也能找到相似語意的平行段落。
DharmaMitra「語意搜尋」更厲害的優點在於它的功能延展性——既然是比對語意,而不是比對確切的關鍵字,那無論是➊搜尋同一個語言的佛典,或是➋檢索跨語言的佛典,或是➌用現代翻譯的文本反過來檢索古典的佛典文本,或是➍檢索涉及特定佛典段落的二手文獻,我們都能找到對應的內容!
這真是太神奇了啊!
其次,既然是比對語意相似性,那麼也能做到➎跨語言的佛典翻譯囉!
再來,既然能做到跨語言比對相似語意的內容,那就能進一步整理對應詞條及經文例句,❻利用資料比對在很短的時間做出梵藏等雙語辭典!
DharmaMitra 就是這樣一個集結了多項工具的超強利器,小編甚至還沒介紹完它所有的功能呢!
而且Sebastian他們還有辦法避開AI語言模型常見的幻覺問題!
難道……這就是傳說中的「識用 Mitra 者,得天下」嗎?

