编程社区 » web开发 » 求助!关于简繁体混合查询

求助!关于简繁体混合查询


xudoudou123



 发表:

求助!关于简繁体混合查询


数据库, 编码均使用UTF-8
客户可能输入简体内容,也可能输入繁体内容

要求检索时,不论输入简体或是繁体,数据库中对应的记录都可以查出

比如 用户检索“头发” 那么不仅简体的“头发”要查出来 繁体的“頭髮”也能出来。
同样 用户检索“頭髮” 那么不仅简体的“头发”要查出来 繁体的“頭髮”也能出来。

思路 :
用户输入条件后,后台转换接口将查询条件 变成两个,一个简体条件和一个繁体条件,此时进行查询,结果包含简繁体都有。

请教:
1.这种思路是否可行~
2.服务器 为solaris 请推荐一个控件完成以下功能:
输入:一个词(不论简体还是繁体)
输出:两个对应的词(一个简体,一个繁体)
或者
输入:一个词(不论简体还是繁体)
输出:一个词(和输入体不同编码,如输入简体,输入繁体)

要求该控件可以再SOLARIS下运行~~ 可以考虑购买~


echomyf
回复:

你可以参照这里
http://www.knowsky.com/3213.html
这里是用javascript实现的,你可以把里边代码改成java实现就可以了,不是很麻烦的.
先定义两个数组,然后按照相应的位置读取相应的简体繁体汉字就可以了.

echomyf
回复:

试试这个程序
那两段string太长了,不让发,我只取了前一段,你去那个网站把它们补全就可以了.

package com.demo;

package com..demo;


public class TranCodeTest {
private static String simStr = "啊阿埃挨哎唉哀皑癌蔼矮艾碍爱隘鞍氨安俺按暗岸胺案肮昂盎凹敖熬翱袄傲奥懊澳芭捌扒叭吧笆八疤巴拔跋靶把耙坝霸罢爸白柏百"
+ "摆佰败拜稗斑班搬扳般颁板版扮拌伴瓣半办绊邦帮梆榜膀绑棒磅蚌镑傍谤苞胞包褒剥薄雹保堡饱宝抱报暴豹鲍爆杯碑悲卑北辈背贝钡倍狈备惫焙被奔苯"
;

private static String comStr = "啊阿埃挨哎唉哀皚癌藹矮艾礙愛隘鞍氨安俺按暗岸胺案肮昂盎凹敖熬翺襖傲奧懊澳芭捌扒叭吧笆八疤巴拔跋靶把耙壩霸罷爸白柏百"
+ "擺佰敗拜稗斑班搬扳般頒板版扮拌伴瓣半辦絆邦幫梆榜膀綁棒磅蚌鎊傍謗苞胞包褒剝薄雹保堡飽寶抱報暴豹鮑爆杯碑悲卑北輩背貝鋇倍狽備憊焙被奔苯"
;

public static void main(String[] args) {
String word="摆";
String[] allword=transWord(word);
System.out.println(allword[0]+allword[1]);

}
public static String[] transWord(String word){
int index=simStr.indexOf(word);
if(index<0){
index=comStr.indexOf(word);
}
String[] result=new String[2];
result[0]=String.valueOf(simStr.charAt(index));
result[1]=String.valueOf(comStr.charAt(index));
return result;
}
}

echomyf
回复:

这只是单个字的,你修改一下就可以实现单词的转换了.

terry_yip
回复:

一楼的方法最好,因为用JS,占用的是客户端的资源。

xudoudou123
回复:

谢谢 两位 我可能有些地方没说清楚

根据转换的精确性等级,大概可以分成4个等级:
1字符码表一对一映射。 例如发->發、干->幹等。但是简繁转换并不是简单的一对一关系,如干在不同上下文,可以分别对应:乾 干 榦,因此该转换不十分准确。这也是大部分简繁转换软件所能达到的级别
2. 对于一对多单字,根据词语识别进行转换。例如:头发->頭髮、出发->出發等。例中的髮和發在简体中都是发,但在繁体中却不一样,这样的情况很多,如干、里、秋等。
3. 对词语表达方式差异的转换。简繁体有不同的表达方式,例如:字节->位元組、光盘->光碟、信息->資訊等。这些表达方式如果不处理,不易理解,尤其是港台不太习惯大陆的表达方式。
4. 根据上下文的词汇翻译。例如:在中国大陆的语言习惯中,"文件"可以是通常意义上的"文件",也可以是计算机中存取的"文件"(document)。但是,在繁体语言习惯中,这两个东西就是分别用"文件"和"档案"两个词来表达。该转换极难做到,而且速度很慢。


我希望能做到大多数的3级转换~~
并且 我的页面代码 是

UNI

xudoudou123
回复:

unicode

cuixiping
回复:

那就做一个简繁词库对照表,把你收集到的对应词组都存进来。

xudoudou123
回复:

这样花费精力太大了吧~~我们还要组织词汇~所以 想购买现成的控件~~

jiangsheng
回复:

http://www.cjk.org/cjk/reference/chinvar.htm

theforever
回复:

你问问GOOGLE怎么做的

现在都准备收复台湾了,还费劲搞这个,呵呵

theforever
回复:

话说回来,也可能应该把简体取消,用繁体,因为繁体才能体现中国真正的文字文化。简体基本上不具备研究价值。

xudoudou123
回复:

没办法啊~~和台湾没关系 是香港用~~

就是不想费精力搞 才想买一个 ,可是好像没什么人卖这个东西~


相关文章
一个关于JAVABEAN的编译问题
朋友们:帮个忙!!!(有关jsp的问题)
动态下拉式菜单 --在线等
时间控件的问题
java/jsp中如何实现弹出对话框选择要保存的文件的路径
请问在做网页时,如果javabean中需要有需要自行导入的包,需要把包放在哪个目录下???
还分100~~乱码问题~~谢谢那几位兄弟~~
一个关于tomcat5.0连接SQL Server2000数据库的问。。希望大家帮忙。。
我这个简单的JSP为什么产生空指针异常?
一个servlet里调用javascript的小问题,大家帮忙看看!
十万火急啊!如何编写日志文件!
在servlet中把对象数组放进session,怎么在JSP页中取出来?
热门文章
java.net.ConnectException: Connection refused: connect的问题求救.
关于session超时处理的问题
求救:关于查询,大家看看有什么问题??
java/jsp中如何实现弹出对话框选择要保存的文件的路径
form提交到另一个页面时如何设置新页面的大小
求,怎样让点击过的链接变色,跟其他为点击链接不同
用itext读取服务器pdf文件,转为普通htm显示在网页上,求例子!!!!
IText 的问题
jsp中怎么打开ppt文件,不出现保存对话框
如何实现窗口全屏显示
在JSP中select多选时提交后在下一页面中怎样得到所选的内容?
为什么使用了utf-8中文还是乱码呢?

编程社区 2008 浙ICP备09013498号
© TinyBBS.cn
编程好站连接:codeproject sf.net codeplex