中文分词技术:百度 雅虎 谷歌大比拼2007-08-31 00:39:41 来源:不详 作者: 点击:
我们的三大搜索引擎 都在他们的快照里把查询语句拆分,然后用不同颜色的高亮来显示,大家可以一目了然地看到他们的分词方法。 ![]() 高的产品,拥有hao123作为把菜鸟导入百度怀抱的利器,怪不得宏哥可以放心地去东京打小日本的主意。正如百度产品部出来的一位朋友说:“竞争对手太不争气。” 百度的分词技术有什么弊端吗? 有。 我上次提到过,在搜“上海紫园”的词时,百度不知道凭什么,把“上海紫”看成了一个词,并且在搜索结果里含有一大堆“上海紫”的结果,严重违背了 先 不拆,后小拆的原则。在这个词上,谷歌反倒比百度要好,虽然谷歌的词库很小,可是它用两个词相近则拥有更高优先级的办法来弥补。我的本意是表扬一下百度的 “先不拆”的良好原则,不料却发现了百度的一个弊端。百度应当调整拆词的参数,不要把“上海紫”这样的也看作一个词。呵呵,应该是我的记忆出问题,我上次 本意应该是让大家搜索“紫园一号”的。这个词就大概能看出谷歌跟百度的搜索差别。由于两词相近优先级高,所以谷歌的分词技术弊端并没有想象的那么严重,但是在搜索很多的词之后,会发现它的结果总差那么一点儿,这就是差距了,在 此 做个小猜测,谷歌使用的词库来自新华字典,还可能是小学生版。雅虎的词库则来自汉语大词典,百度……估计是自创的词典,连“红色摇滚”都算词了呀。 其实我是谷歌的Fans,不喜欢百度和雅虎的商业气味太重,写这个排名出来,是希望谷歌的领导注意谷歌自身水平的提高,而不是用拉拢迅雷、天涯这样的招术,这是旁门左道,对谷歌的进步毫无用处。 版权声明: 作者:SEO独孤九剑(http://www.seo9.org) 友情提示:转载文章保留作者的声明与链接将提升您的网站形象 ![]()
|
|
||||
|
|
||||
|
|
|
||||
|
|
||||
|
|
|
||||
|
|
||||
|
|