说你行,你就行,不行也行;说不行,就不行,行也不行

今天从keso的博客上走到了一家叫做月光博客的博客站上,期间有这样一篇文章:百度和Google谁更能搜索色情信息

本文主要针对百度和Google搜索引擎的关键字过滤功能进行比较和分析。

最近部分国内媒体刊登了一系列文章,包括“Google可搜大量色情链接 过滤可能损失流量”,“Google搜索不良条目量攀升 社会责任遭考验”,以大量篇幅论证Google包含色情违法信息,甚至有一种倾向,即将色情、违法信息泛滥的罪责推向了Google,似乎封杀了Google或搞定了Google关键词过滤,网络世界从此就会如同真空一样纯净。

虽然Google推出了专门针对中国国情的“谷歌”(Google.cn),并使用了颇受争议的信息过滤技术,然而即使如此依旧无法摆脱被恶意攻击和诽谤的命运。

该文章攻击道:“最常用的信息过滤、屏蔽技术被称为‘关键字过滤’,这项技术为广大搜索引擎企业所掌握”。并声称“这项‘信息过滤’技术不算是特别复杂的技术”。

据我所知,Google.cn(以后简称Google)和百度目前都对色情违法信息进行了过滤技术,不同的是,百度还增加了一项关键词屏蔽技术,就是对于一批敏感关键词,当服务器接收到用户提交的搜索词后,先将搜索词和上述“过滤词汇表”进行匹配对比;一旦匹配成功,服务器即返回“您输入的关键词可能涉及不符合相关法律法规的内容”,然后结束搜索。比如在百度搜索“色情”(我刚才在百度搜索这个关键词没有发现与其他词语有任何不同的搜索结果——阿肆)等词语后显示的效果。

然而,从技术上讲,这种“过滤词汇表”实际上有很大缺陷和漏洞,对于稍懂一点电脑知识的人来说形同虚设,例如在百度搜索“色情”(现在已经可以用了么?我刚才搜索了下,可以用。——阿肆)的确不让搜索,但是搜索“"色情"”(带引号的色情)即可返回18,300,000万条搜索记录,远远多于Google搜索出的记录(另外提一下,我用Google搜索“色情”返回的结果是“该页无法显示”,不知道这个记者用什么线路上网的,莫非是百度提供的专线?)。推而广之,所有百度通过“过滤词汇表”屏蔽的词汇,大部分只要加上个引号就全都可以搜索,另外,将多个屏蔽关键字组合在一起也可以搜索出结果,更可笑的是,在百度不可以搜索“色情”,但却可以搜索出“色情图片”70万条记录(现在是121万——阿肆),“色情电影”51万条记录(现在98万——阿肆),“色情小说”23万条记录(现在是152万——阿肆),“色情网站”79万条记录(现在是101万),可见这种屏蔽的方法实在是用来忽悠媒体的,实际作用非常有限。

其次,对于使用具体过滤技术来看,Google和百度都通过内容的相关性过滤掉色情违法网站,Google过滤是会在页面底部显示“据当地法律法规和政策,部分搜索结果未予显示”。两者的过滤效果来看,搜索几个关键字即可感觉出来。

百度搜索“色情图片”,第一页的大多数是论坛上的文章,并有4、5条包含色情信息,而在Google搜索“色情图片”,则第一页没有一篇是色情信息。搜索其他的信息进行对比也可以发现Google的确在信息过滤上做了不少工作,而百度则过滤的信息远不如Google,更进一步,用百度和Google搜索英文,我们发现百度对于英文网站的过滤效果更差,用百度搜索“hardcore”,结果出现了170万条数据(现在只有93万条——阿肆),可以打开查看到非常多的色情网站,而在Google中搜索“hardcore ”只能搜索到288条结果(现在是744项了,上升了,),这个夸张的对比可以看出两者在过滤功能上所做的工作实在差距太大,所以,如果百度在这方面对Google进行指责攻击,那实在是颠倒黑白,指鹿为马。

[color=Green]  当然,这也反映出一个问题,就是Google和百度不同,Google根本不了解中国的国情,中国的国情就是人治,说明白点就是某些人凭自己的主观意志决定一切,你其实什么都不用做,但你其实什么都做了, 以前有个对联是“[color=Red]说你行,你就行,不行也行;说不行,就不行,行也不行 [color=Green]”, 横批是“不服不行”。[color=Orange]要深刻理解这种国情,必须知道这里谁说了算,谁能决定你企业的命运呢?当然是有权的人,只有他们才是主人,要想成功就需要积极向他们靠拢,争取进入他们的利益集团,形成共同利益,这才是在中国立于不败之地的方法。[color=Green]在中国做成功的企业要完全放弃自己的道德、良心和价值观,百度是“只说不做”,而Google是“只做不说”,Google还天真的以为配合中国进行信息过滤就可以顺利进入中国市场,其实百度在过滤上做的工作可能还不如Google的十分之一,但是百度却能让别人以为百度比Google做的多十倍。
当然,Google是个很值得敬佩的企业,在企业的价值观、道德观方面,Google坚持“你可以挣钱而不必做怀事”,在公司内部,每个人都努力成为“极具创新精神、值得信赖、行事正直,而且极大地改变了这个世界的人”。Google无论在管理领域还是在服务领域都顺应个人化、大众化、社会化的趋势,坚持“做正确的事情”。可能正是因为这一点,才使得目前Google在和百度的竞争中处于劣势。

原文地址:http://www.williamlong.info/archives/502.html
[color=Beige](p.s文章加彩部分为阿肆所加,括号内内容为阿肆根据现在的最新搜索结果说明)

谷歌推出拼音输入法

聪明的谷歌拼音输入法五大特色:

智能组句:选词准确率高,能聪明地理解您的意图,短句长句都合适。
流行词汇:整合互联网上的流行词汇、热门搜索一网打尽,词组丰富强大。
网络同步:您可以将使用习惯和个人字典同步在 Google 帐号,一个跟您走的个性化输入法。
一键搜索:拼写输入的同时轻点一键即可快捷搜索。输入法结合搜索框一举两得。
英文提示:打英文时只需输入前几个字母,输入法自动提示您可能要找的单字。
查看全部 »

系统要求
Microsoft Windows 2000 SP4 / XP / Vista
Internet Explorer 6.0+

更多说明:http://tools.google.com/pinyin/feature.html
下载地址:http://tools.google.com/pinyin/

今天下了看了,感觉和搜狗的差不多
不过多了个关联用户名的。
更多体验报告:http://bbs.aerfa.net/thread-2002-1-1.html

关于聚会和衡阳高校社区的建立

这几天上网都是在聊湖南站长聚会,认识了很多的站长朋友。

可惜的是可能去不了聚会了,昨天被告知15号(聚会那天)要参加普通话的考试,虽然很有可能过不了。[muteness]

昨天将阿尔法思维的银行插件做好了,以后开始开交易了。

今天看到了衡阳本地一个不错的网站:新衡阳网,本地信息网站在接下来的这段时间是有发展的,个人认为。

可能会加入衡阳高校社区的建立工作,基本框架已经有了,是散步的鱼提出的。
域名的事情办定之后可能就会开始制作了。

电影站没有时间去弄了,没有时间精力。

越狱第二季看完,以后星期二少了点事情做了,呵呵~
也不用等在电脑旁边等出来了加到论坛了[cool]o(∩_∩)o...哈哈

朴树的歌还是好听。。。。。。
听着他的歌写博

第一次感觉,对网络失去信心

昨天在搜狐IT上看到一篇图王的报道,图王说的对于个人站长的发展的看法,很是触动。

刚才在湖南站长交流群里大家在说,没有盈利的网站叫公益网站,盈利的叫商业网站,想盈利没有盈的叫个人网站,哈哈!

这些天都在和湖南的站长朋友们讨论关于聚会的事,期间将电影站稍微改好了下。
没有电脑了,真是烦躁!

手上的域名积累了好几个,还有很多个是.cn的。早两天有几个人在问我卖出nitaicctvle.cn那个不,价钱是五花八门的,呵呵~
没有想到一个.cn可以赚成百上千的钱,不过我没有卖出。

论坛开放注册有个来个星期了,新加入了1000多的会员,我管理的少了,一个原因是没有电脑,还有就是这段时间的事情多。
昨天还补考体育,真是郁闷~
垃圾学校,垃圾系统,shit!

论坛还是没有找到很好的一条发展之路,应该再过段时间将论坛升级下再不开放注册了,继续做资源,资讯和交易,顺便要换个服务器。
钱啊~~没有钱啊!

做了这么久的站,一直坚持不在站上放广告(这两天将博客和BT下载站上放了个google的firefox推广,不想浪费了那个GG号)。
自己感觉很累了,每天都是这样,上网看看自己的论坛,上上落伍,在群里和自己论坛的会员以及一些各类的站长朋友们聊聊天,有时间有机会改改代码,晚上用手机上搜狐IT看看资讯,
就这样,没有上什么课,结识了一些做网站和混论坛的朋友,自己的功课落下大截。

继续这样下去完了,做网站真的不是一条路的,希望自己能早点“回头是岸”。

刚和番茄做完链接,无事就随便写下,好像很久都没有写了。
昨天和游湘的爬爬资源做了链接,以前好像不怎么加链接的。
呵呵~

页码: