iamone - 金, 2017/11/17 - 09:43
在iso光盘中发现存在gandhari语的字体文件。
但是搜索xml文件,发现xml:lang属性一共使用了9种语言:
'sa-x-rj', 'en', 'sa-Sidd', 'zh', 'san-tr', 'sa', 'x-unknown', 'pi', 'zh-x-yy'
其中,sa-x-rj应该是兰扎体
en是英语
sa-Sidd是悉檀体
zh是汉语
sa是梵语,未知体
pi是巴利语
zh-x-yy是未知汉语?
x-unknown是未知语言?
san-tr不知道是什么了
那么gandhari语的字体文件是用在什么地方的呢?
另外我感觉应该统一一下这些语言的标识,方便处理
討論區:
RE : 关于语言的问题
您好:
您列的那些其實就是相關的學者專家們幫我們統一過的結果了。
據我有限的了解
zh-x-yy是音譯
x-unknown是未知
san-tr 好像是翻譯
至於 gandhari 字體,主要是用在羅馬拼音的轉寫文字上,當初因為 Windows內建的 Unicode並沒有完全支援 CBETA 所使用的 Unicode,所以我們採用這一套,讓羅馬拼音的轉寫文字可以順利呈現。
这么看来gandhari字体不是所谓的犍陀罗语 和佉卢字母
这么看来gandhari字体不是所谓的犍陀罗语 和佉卢字母了。
因为佉卢字母也是最近才unicode化的
因为cbeta一直一以来都是采用覆盖编码的方式来做的字体。另外我也找不到这个字体用在什么地方。所以有这一个问题。
——————————————————————
关于xml:lang的标准,最新的语言标签标记法的国际标准是IETF的BCP 47(Best Current Practice),也就是RFC 5646取代了之前的RFC 4646,3066和1766.
可见如下文章:
https://www.w3.org/International/questions/qa-when-xmllang
http://www.rfc-editor.org/rfc/bcp/bcp47.txt
https://www.zhihu.com/question/20797118
按照我的理解,比较合适的标签可能是这样的:
英文:en
国语简体中文: cmn-Hans
国语繁体中文: cmn-Hant
文言文繁体中文: lzh-Hant
悉檀梵语: sa-Sidd
拉丁梵语: sa-Latn
单独的sa意思不是很明确
比如,如果是拼音的话是zh-Latn-pinyin
Linux版本阅藏程序:
http://cbeta.buddhism.org.hk
感謝提供最新的語言標籤標記法
謝謝您提供最新的訊息。CBETA的標記歷經近20年,的確前後期會有不一致的情況,也有標準不是最新的情況。
未來有機會進一步整理時,我們會盡量朝著使用最新標準來進行,謝謝!