【电脑】简繁体转换
一直以来,都有在留意、搜索简繁体转换的技术资料……
现在已经做好了一个东西,可以自动把简体的网页转换成为繁体的……当然,那个东西还是很粗糙……细节上的处理没有做好……
我用的是免费的asp组件实现简繁体的转换……自己写asp.net的东西实现网页的读取以及输出……
也有看过一些商业化的产品,好像,它们所能做到的东西也就是如此了……
还是没有办法在同一网页内同时显示gb码跟big5码两种编码……
最好的办法应该是将gb码转换为gbk的繁体字……甚至是unicode的繁体字……这样子,才可以使用同一种编码,而同时显示简繁体字……
可惜,这方面的资料、工具,我一直没有办法找到……
在搜索资料的时候,还发现了一个叫On-line Chinese Tools的网站……
CMU的一个叫Erik Peterson博士生(估计早毕业了)做的……中文名叫孔钰叡……
我几乎都不会读他的中文名了……
这个牛人提供的资料有点超出我的预料……在国内顶多就是能找到免费的转换组件……这边居然还有提供字库以及相应的java/perl源码……
有了它这个东西,我其实已经可以写出一个简繁体转换的ASP组件出来了……
网站上还有一个东西可以将中文转换为gif图像……还有中英、中中字典,包括源码……
还有起中文名的工具……虽然起的名字都有点……许多多这样的名字自然是不可能出现的咯……
整个网站做得非常简朴……几乎一行多余的代码都没有……但是提供的东西却是非常实用与好玩……
这样的网站,如果是中国人做的,偶不会在blog这边提到……但是,是老外做的……
因为简体字与繁体字并不是一一对应的……他在做简繁字库的时候,恐怕得自己检查是否对应正确……也就是说,所有的字,他都得认识……
我想,GB2312里面的五千多个字,我都未必每个都认得……

PS:记得猫猫也是有找到过相关的源码……好像是C++的……还没有去研究……
2231

amadeo 在 3/11/2007 1:15:30 PM 说:
肯定不需要都認識,因為簡化了就那麼幾個,有歧義的也就那麼多,其他的都可以自動化。
不過就那些有歧義的,電腦永遠不可能自動轉換得完美,因為就算你詞庫再大,有些人愛寫文言文,另一些人名字裡面就有難辦的字(比如說我),90%都會被轉錯(不會轉錯我名字的肯定另一個詞會弄錯,目前還沒有反例)。另外比如『北京市海淀區』,總有人要寫成『北京市海澱區』,都是轉換鬧得吧,搞得現在都沒多少人知道那麼寫是錯的了。
而且,比如說,都是繁體,有人愛寫『於是』,有人愛寫『于是』,有人愛寫『裡面』,有人愛寫『裏面』,有人愛寫『只要』,有人愛寫『祗要』,這就很難辦。
還是原文是甚麼就保持甚麼樣子吧。wikipedia的繁簡轉換,是半自動的,電腦轉錯了人可以手動改正過來。全自動的最多也祗能當做google translate一類的東西,看看就好了,實在經不起考驗。
有人確實把文字當做很嚴肅的事情,所以IT工作者們也不能太不嚴肅。
尐样贼£拽 在 3/11/2007 4:46:43 AM 说:
不服

无名氏 在 11/27/2005 5:33:46 PM 说:
一声