求问关于简体中文版本

Santax007 - 토, 2018/07/14 - 02:02

新人末学在一些外部的网站上看到过简体中文版本的出自于CBETA本站的大藏经，包括站内有链接到的http://cbeta.kepan.org/站。

但是关于简体中文版本的内容并没有在CBETA本站找到，下载了最新的CBReader2X，以及ISO文件里面也都没有。

所以请问一下站内大德，本站整理的佛典里面有没有简体中文版本？或者如果需要，就需要自行进行繁简转换？一般的繁简转换工具会造成不少的勘误问题吧？

如果站内有简体相关的资料或者有方法获取，还请告知末学如何操作。非常感谢！

討論區:

一般討論區

網路分享：

로그인이나 등록한 후에 댓글을 작성하세요
32296번 읽음

RE : 求问关于简体中文版本

cbeta - 토, 2018/07/14 - 11:24

您好：

目前 CBETA 並沒有簡體版的資料，您目前看到的都是其他法友發心製作的，或是電腦自動轉換的吧。

未來 CBETA 有考慮到內建繁轉簡的機制，不過也應該是利用自動轉換處理。如您所說，應該會有勘誤的問題。

以此為例：這是三個版本不同的用字。

并【大】，並【宋】，併【明】

但使用繁轉簡，可能會變成

并【大】，并【宋】，并【明】

諸如此類，如果不使用自動轉換，難道人工處理有適當的方法嗎？因為我們對此議題也不是很了解，不知道實際使用簡體的人是如何處理的？

로그인이나 등록한 후에 댓글을 작성하세요

这个是我制作的. 采用的方式是电脑自动转换.

iamone - 일, 2018/07/15 - 09:56

这个是我制作的. 采用的方式是电脑自动转换. 不过与其他简体繁体转换软件不同的是,针对大正藏仔细调整过.

所以做这个工作,主要的一个原因还是希望能够使用简体搜索大正藏. 因为对于简体字使用者来说,阅读繁体字常常不是一个问题, 但是使用繁体字就很麻烦, 经常难以判断简体对应的繁体是什么.

为了保证能准确的做到简体繁体转换. 基本上对一些不能一一对应转换的简体繁体字都逐字校对过.

基本上能保证没什么错误.

但是有些字还是难以保障,

比如乾字. 例如:在有的时候会有乾坤这两个字,中间产生了换行(原大正藏纸质文本的换行)时,会无法辨认.导致转换成干坤.

这个错误暂时无法避免. 因为如果处理这种问题,技术上的代价太大.

需要在阅读中注意.

楼上提出的两个问题:

1. 并【大】，並【宋】，併【明】

会转换成

并【大】，并【宋】，并【明】

目前也是这样处理的

要想解决这个问题.

只能期待cbeta在xml中做好标记,标记某些字不需要做这种转换

2. 另外,还有前面提到的乾字, 这种一繁对多简的字. 也需要特殊标记. 这个工作量其实不大,因为一繁对多简的字并不多. 目前能做的,只能是根据上下文做简单的猜测. 因为算法的复杂度有限, 有时候难免猜测错误

其他,基本上,都是非常准确的, 毕竟逐字校对过

Linux版本阅藏程序：

http://cbeta.buddhism.org.hk

로그인이나 등록한 후에 댓글을 작성하세요

繁轉簡的問題

cbeta - 일, 2018/07/15 - 21:07

看了法友留言，上網查了一下，才知道原來繁體轉簡體也不是直接轉就一定OK。

我原本以為乾就是轉為干，原來 "乾隆"、"乾坤" 這種情況就不能轉，這樣就有點難度了。

再加上若要克服全文檢索，此事不是個人想像中的簡單了。

로그인이나 등록한 후에 댓글을 작성하세요

非常感谢楼上两位大德师兄回复~

Santax007 - 일, 2018/07/15 - 17:11

非常感谢！

一般阅读学习其实繁体也不错的，但是如果考虑到在大陆推广和学习方便性，还是需要考虑字体问题。

末学也是刚开始考虑学习，非常感谢楼上大德师兄指点！

로그인이나 등록한 후에 댓글을 작성하세요

1. 简体字最初的目的是为了扫除文盲,

iamone - 월, 2018/07/16 - 10:28

1. 简体字最初的目的是为了扫除文盲, 更有进一步将汉字罗马化的准备而作为过渡. 导致缺乏系统的考虑和规划,出现了不少混乱的情况. 不过,问题也没有那么严重. 因为一繁对多简,或者交叉对应的汉字其实不多. 应该不超过20个. 这个其实是可以一一标记出来了.

2. 繁体字其实也存在某种程度上的混乱. 多音字,多义字,其实也应该在xml中做适当的标记. 标记语义有助于AI处理, 标记语音有助于语音合成.

典型的例子,比如滚字, 一个含义是形容水的样子,一个含义是动词.完全风马牛不相及. 对此情况, 可以对滚字做标记, 默认滚字只表示水貌, 另外标记那些动词滚为"輥". 这样就可以抽取出一个"正字版"佛经. 对于后继电脑处理非常有用.

这样的例子,还比如然字和燃字. 在经中就经常混用, 做有效的区分是非常有意义的事情

这些东西也都只能在xml中做标记, 可以做到不破坏原有文字

Linux版本阅藏程序：

http://cbeta.buddhism.org.hk

로그인이나 등록한 후에 댓글을 작성하세요

CBReader简体繁体转换临时解决办法

自在平衡 - 월, 2021/01/25 - 11:08

思路是：CBReader调用的是IE浏览器内核，那我们可以在IE浏览器上安装一个外挂插件。就可以用右键，简体繁体转换。我使用的是这个ALiBaBar 5.10 中文版 - IE簡繁轉換外掛或者google网盘下载地址：

로그인이나 등록한 후에 댓글을 작성하세요

CBETA 廣告說明