中文分词技术:百度 雅虎 谷歌大比拼

2007-08-31 00:39:41 来源:不详 作者: 点击:
我们的三大搜索引擎 都在他们的快照里把查询语句拆分,然后用不同颜色的高亮来显示,大家可以一目了然地看到他们的分词方法。

高的产品,拥有hao123作为把菜鸟导入百度怀抱的利器,怪不得宏哥可以放心地去东京打小日本的主意。正如百度产品部出来的一位朋友说:“竞争对手太不争气。”

  百度的分词技术有什么弊端吗?

  有。

  我上次提到过,在搜“上海紫园”的词时,百度不知道凭什么,把“上海紫”看成了一个词,并且在搜索结果里含有一大堆“上海紫”的结果,严重违背了 先 不拆,后小拆的原则。在这个词上,谷歌反倒比百度要好,虽然谷歌的词库很小,可是它用两个词相近则拥有更高优先级的办法来弥补。我的本意是表扬一下百度的 “先不拆”的良好原则,不料却发现了百度的一个弊端。百度应当调整拆词的参数,不要把“上海紫”这样的也看作一个词。呵呵,应该是我的记忆出问题,我上次 本意应该是让大家搜索“紫园一号”的。这个词就大概能看出谷歌跟百度的搜索差别。由于两词相近优先级高,所以谷歌的分词技术弊端并没有想象的那么严重,但是在搜索很多的词之后,会发现它的结果总差那么一点儿,这就是差距了,在 此 做个小猜测,谷歌使用的词库来自新华字典,还可能是小学生版。雅虎的词库则来自汉语大词典,百度……估计是自创的词典,连“红色摇滚”都算词了呀。

  其实我是谷歌的Fans,不喜欢百度和雅虎的商业气味太重,写这个排名出来,是希望谷歌的领导注意谷歌自身水平的提高,而不是用拉拢迅雷、天涯这样的招术,这是旁门左道,对谷歌的进步毫无用处。

版权声明:
作者:SEO独孤九剑(http://www.seo9.org
友情提示:转载文章保留作者的声明与链接将提升您的网站形象

9 7 3 1 2 4 8 :


logo

本类最新行业评测技巧教程学院
本类热点本日本周本月
本类推荐本日本周本月

广告联系 | 版权说明 | 意见建议 | 加入收藏 | 军网站群 [ 军软件园 - 军软件商城 - 军软件园论坛 ]

电信与信息服务业务经营许可证:京ICP证050203