犬者
“说了你又不听,听又不懂,懂又不做,做又做错,错又不认,认又不改,改又不服,不服也不说,那叫我怎么办?!”

简繁体转换

一直以来,都有在留意、搜索简繁体转换的技术资料……

现在已经做好了一个东西,可以自动把简体的网页转换成为繁体的……当然,那个东西还是很粗糙……细节上的处理没有做好……

我用的是免费的asp组件实现简繁体的转换……自己写asp.net的东西实现网页的读取以及输出……

也有看过一些商业化的产品,好像,它们所能做到的东西也就是如此了……

还是没有办法在同一网页内同时显示gb码跟big5码两种编码……

最好的办法应该是将gb码转换为gbk的繁体字……甚至是unicode的繁体字……这样子,才可以使用同一种编码,而同时显示简繁体字……

可惜,这方面的资料、工具,我一直没有办法找到……

在搜索资料的时候,还发现了一个叫On-line Chinese Tools的网站……

CMU的一个叫Erik Peterson博士生(估计早毕业了)做的……中文名叫孔钰叡……

我几乎都不会读他的中文名了……

这个牛人提供的资料有点超出我的预料……在国内顶多就是能找到免费的转换组件……这边居然还有提供字库以及相应的java/perl源码……

有了它这个东西,我其实已经可以写出一个简繁体转换的ASP组件出来了……

网站上还有一个东西可以将中文转换为gif图像……还有中英、中中字典,包括源码……

还有起中文名的工具……虽然起的名字都有点……许多多这样的名字自然是不可能出现的咯……

整个网站做得非常简朴……几乎一行多余的代码都没有……但是提供的东西却是非常实用与好玩……

这样的网站,如果是中国人做的,偶不会在blog这边提到……但是,是老外做的……

因为简体字与繁体字并不是一一对应的……他在做简繁字库的时候,恐怕得自己检查是否对应正确……也就是说,所有的字,他都得认识……

我想,GB2312里面的五千多个字,我都未必每个都认得……

PS:记得猫猫也是有找到过相关的源码……好像是C++的……还没有去研究……

问天 @ 2004-07-06 01:07:31
查看本分类的所有网志:电脑


amadeo 在 2007-03-11 13:15:30 说:

肯定不需要都認識,因為簡化了就那麼幾個,有歧義的也就那麼多,其他的都可以自動化。

不過就那些有歧義的,電腦永遠不可能自動轉換得完美,因為就算你詞庫再大,有些人愛寫文言文,另一些人名字裡面就有難辦的字(比如說我),90%都會被轉錯(不會轉錯我名字的肯定另一個詞會弄錯,目前還沒有反例)。另外比如『北京市海淀區』,總有人要寫成『北京市海澱區』,都是轉換鬧得吧,搞得現在都沒多少人知道那麼寫是錯的了。

而且,比如說,都是繁體,有人愛寫『於是』,有人愛寫『于是』,有人愛寫『裡面』,有人愛寫『裏面』,有人愛寫『只要』,有人愛寫『祗要』,這就很難辦。

還是原文是甚麼就保持甚麼樣子吧。wikipedia的繁簡轉換,是半自動的,電腦轉錯了人可以手動改正過來。全自動的最多也祗能當做google translate一類的東西,看看就好了,實在經不起考驗。

有人確實把文字當做很嚴肅的事情,所以IT工作者們也不能太不嚴肅。
尐样贼£拽 在 2007-03-11 04:46:43 说:

不服
在 2005-11-27 17:33:46 说:

一声
导航
博客风
犬者首页
联系


个人档案

“说了你又不听,听又不懂,懂又不做,做又做错,错又不认,认又不改,改又不服,不服也不说,那叫我怎么办?!”



网志分类
死结(26)
电脑(212)
心情(204)
天影(25)
乱弹(241)
博客(84)
音乐(18)
饕餮(41)
读书(26)
电影(40)
网摘(5)
希望(76)
汕头(10)
经济(13)
苹果(21)
跋涉(19)
玩意(5)



网志存档



个人链接
颜如玉
最爱卫斯理
时尚摄影师奇科的博客
Reader