Google 搜索联盟

2006年12月27日星期三

台湾地震导致全国断网



 据新浪网、新京报的报道,昨天晚上八点二十分,在南海海域(北纬21.9度,东经120.6度)发生7.2级地震,台湾媒体的报道称地震威力“相当于6颗原子弹在距离地下22公里处爆炸”,并称“大陆福建和泉州等地均有震感”。地震已造成1人死亡,3人受伤。

 东方网讯的消息称,不少大陆地区的网通、电信用户反映,无法正常访问国外网站,包括雅虎在内的多家国际知名网站均无法正常访问,MSN等IM也无法正常登陆。中国网通以及中国电信集团公关处人士也证实,昨晚台湾地区的地震影响到内地出口光缆,造成国内访问国外网站故障。
  我自己也可以证实,从今天早上起,MSN无法登录,del.icio.us上不去,Feedburner上不去,我购买的一个DreamHost也无法访问,Bloglines进不去,Yahoo无法访问,很多国际著名的网站都无法访问,不过奇怪的是,Google的系列网站包括Gmail,Blogspot,Reader都访问正常,这次断网突发事件中,Google的网络表现非常出色,值得表扬,看来还是Google的网络和服务器还是更为稳定啊。
  DreamHost的无法访问对不少Blogger有影响,因为我知道很多人都购买了这类主机,对于这种光缆的物理损坏,恐怕谁都无能为力。
  目前的状况倒是可以很好的体会一下ChinaNet的感觉,因为大多数国外网站都上不去,只能上国内网站,这可实在是一件悲惨的事情,希望台湾的海底光缆能够尽快修好。此次事件使得我Feedburner的Feed暂时无法访问,请使用阅读器的直接访问我的网站来阅读最新文章。

2006年12月1日星期五

Google域名注册的问题

今天一个读者问我域名注册的问题,他注册了COMCN的两个和Google很类似的域名,不知道是否可以使用其做一些以Google为名的网站。

  我的建议如下:

  COM域名由美国ICANN管理,最好不要注册使用这种有误导性的域名,一旦被Google发现,肯定会提交ICANN仲裁,这类仲裁基本上都是国外公司胜诉。

  CN的域名是CNNIC管理,这个就不用ICANN管理,随便取什么标题都无所谓了,Google大概还不会去CNNIC打官司,即使去打,估计也未必是国外公司胜诉。

2006年11月30日星期四

如何判断域名被封

刚才有个国外的朋友询问我,怎么判断域名被列入黑名单?
  判断方法很简单,如果你在国外,使用Baidu搜索一下你的域名,如果你在国内,用Google.com(一定要用COM的而不是CN的)搜索一下你域名,出现“本页无法访问”的提示,就说明你的域名已经被加入黑名单了。

2006年11月15日星期三

切换了Blogger Beta

这几天将我在Google Blogger的空间切换到了Blogger Beta.
  切换到了Blogger Beta后,感觉功能好像没有什么变化,只是以前我用编辑HTML方式完成,现在不用编辑也可以完成,不过我用的模版好像有些问题,配色看起来怪怪的。
  Blogger Beta写完文章后不用重建了,大概用了动态技术,这是一个好事情,对于文章多的Blogger来说,省事多了。

2006年11月14日星期二

防火长城真是神仙啊

  今天发现几天前刚刚能够正常访问的维基百科又无法访问了,才知道,原来防火长城真是神仙啊。
  为什么说它是神仙呢?因为它是不可预知而神秘莫测的,其通天法术带给人们无边的恐惧。神仙的意智和思维方式是捉摸不透的,真是因为这些琢磨不透、难以预知的神秘力量,我们才会感到自身的命运无法受自己掌控,我们卑微、可怜,我们无法预知、更无法改变主宰我们的力量,我们只能祈求它的善意与怜悯。这就是我们的命运。
  人是无法和神对抗的,神仙是强大的,同时也是令人百思不得其解的。孔子说,“敬鬼神而远之”,鬼神不可以不敬,但是敬而远之。神之所以受人尊敬,不是因为它的完美,而是因为它的神秘。
  既然神仙是这么强大而神秘,那么我们再来揣测神仙的行为就显得不明智了。在目前这样一个时代里,多说无异,敬而远之吧。
  不知道要到什么时候,神仙才能够变成人。

2006年11月9日星期四

中文维基百科解封

 从今天起(2006年11月09日),中文维基百科似乎已经完全解封了,无论电信还是网通的用户都可以访问正常。
  自从去年10月中文维基百科被封起,到现在已经整整一年多了,实际上,从10月份就有报道说,中国部分地区可以访问中文维基百科了,但是我用自己的线路(电信ADSL)尝试了一下,还是无法连接上中文维基百科,搜索其域名连接会被重置,说明那时其域名还是在黑名单中。
  但是我估计中国北部的小部分地区已经可以正常访问维基百科了,因为我查看百度搜索引擎的网页快照,10月份搜索“维基百科”,已经可以发现中文维基百科的域名和百度快照了,说明百度的Spider已经可以连接中文维基百科了。
  而从昨天晚上起,各处都传来可以正常访问中文维基百科的消息,我自己也可以正常访问,为了验证这不是临时解封,我还是耐心等待了一天的时间,发现至今为止中文维基百科都是可以正常访问的,看来这次可能是真正解封了。
  我去年就曾经说过,封杀中文维基百科这么优秀的而庞大的知识宝库是一种很不负责任的做法,“知识改变命运”,维基百科是一个名副其实的百科全书,封杀这样的网站实在令人无法理解。然而,这次解封是不是临时的解封呢?会不会过段时间再封掉这个网站呢?这还是难以判断的。BlogSpot就是解封2个月后又被重新封锁,中文维基百科会不会步BlogSpot的后尘呢?目前离维基被封正好一年时间,会不会当时封的时候就设定了时间,一年后自动解封呢?
  另外一个值得注意的网站是维客网,这个网站曾经在中文维基百科被封的当天正式运营,并且大量复制维基百科的内容而不注明出处,因而引起很大争议,后来由于维客中国的服务器被黑客攻破而被删除了全部数据,维客中国也不得不在仅仅生存了十天的情况下黯然关闭。新的维客于今年5月份悄然上线,不过维客网依旧使用的是中文维基百科的数据库。新版的维客网增加了类似百度贴吧的维客帖吧,其界面几乎和百度贴吧一模一样。经过一些使用发现,对于中文用户来说,贴吧的形式比维基的“讨论”形式更贴近普通用户一些。
  目前,中文维基百科已经可以正常访问了,不过,如果你访问的时候出现“page not found”等提示,请修改一下hosts文件,将原先增加的一些IP删除即可正常。当然,这次中文维基百科是否是永久的解封,还需要再多观察一段时间。
  更新:好事情总是不会太久的,11月17日以后,中文维基百科再次无法访问。让我们纪念这段短暂的正常时间吧。

2006年10月8日星期日

301 Redirect 永久重定向的实现

 在我们的网站建设中,时常会遇到需要网页重定向的情况:象网站调整,如改变网页目录结构,网页被移到一个新地址,再或者,网页扩展名改变,如因应用需要把.php改成.Html或.shtml,在这种情况下,如果不做重定向,则用户收藏夹或搜索引擎数据库中旧地址只能让访问客户还会得到一个404页面错误信息,访问流量白白丧失;再如某些注册了多个域名的网站,也需要通过重定向让访问这些域名的用户自动跳转到主站点,等等。
  常用的重定向方式有: 301 redirect, 302 redirect 与 meta fresh:
301 redirect: 301代表永久性转移(Permanently Moved),301重定向是网页更改地址后对搜索引擎友好的最好方法,只要不是暂时搬移的情况,都建议使用301来做转址。
302 redirect: 302代表暂时性转移(Temporarily Moved ),在前些年,不少Black Hat SEO曾广泛应用这项技术作弊,目前,各大主要搜索引擎均加强了打击力度,象Google前些年对Business.com以及近来对BMW德国网站的惩罚。即使网站客观上不是spam,也很容易被搜寻引擎容易误判为spam而遭到惩罚。
meta fresh: 这在2000年前比较流行,不过现在已很少见。其具体是通过网页中的meta指令,在特定时间后重定向到新的网页,如果延迟的时间太短(约5秒之內),会被判断为spam。
  这里我们主要谈谈如何通过301 Redirect实现网页重定向
IIS服务器实现301重定向
* 打开internet信息服务管理器,在欲重定向的网页或目录上按右键,见下图* 选中“重定向到URL”* 在对话框中输入目标页面的地址* 切记,记得选中“资源的永久重定向”* 当然,最后要点击“应用”
Apache服务器实现301重定向
  相比较来说,Apache实现起来要比IIS简单多了。在Apache中,有个很重要的文件.htaccess,通过对它的设置,可以实现很多强大的功能,301重定向只是其中之一。
Redirect permanent / http://blog.pcxingxing.net.ru/ ;将目录下内容重定向到http://seo.highdiy.com/redirect permanent /old.html http://blog.pcxingxing.net.ru/new-url/ ;将网页old.html内容重定向到http://blog.pcxingxing.net.ru/new-url/
  通过合理地配置重定向参数中的正则表达式,可以实现更复杂的匹配。有兴趣的朋友可参考Apache手册。
  其他方法还有:
PHP下的301重定向
http://blog.pcxingxing.net.ru/" );?>
ASP .NET下的301重定向

  配置完成后,要认真检查一下是否正确。Internet有很多类似的Server Header检查工具,如Check Server Headers Tool - HTTP Status Codes Checker

2006年10月7日星期六

5460和用户个人隐私

 流氓见得多了,但是如果一个流氓居然出售自己用户的隐私信息,就实在太无耻了。而他们给我带来的麻烦,让我感到不安和困惑。
  首先是搜狐的Chinaren新推出了“搜人引擎”,Chinaren我基本上没有使用过,但是我上这个“搜人引擎”搜索了一下我的名字,竟然发现我的小学、中学、大学的详细信息都在上面列出来了。我唯一登记了这些学校信息的网站是在5460里登记的,看来5460把我和其他人的个人信息都给卖了。
  更可怕的是另一个名叫UCLOO的搜人引擎,我竟然惊讶地发现,搜索我的名字会把我的QQ号码、办公电话、住宅电话、电子邮件、公司、地址以及我以前的中小学名称全部都显示出来,信息和我在5460上登记的一模一样。不敢想象我的个人信息居然可以让世界上任何一个陌生人搜索到。
  无论这些网站是否合法,5460绝对是罪魁祸首,这绝对不是个孤立事件,如此大规模的数据量,竟然出售给这么多不同的网站,难道是巧合吗?我们的个人隐私还值钱吗?早不值钱了,我们的个人隐私在5460这样的流氓眼里根本就不算什么,因为这些信息都成为5460自己的财产了,这个流氓可以把我们的个人信息出售给任何人,让任何一个可能怀有恶意的陌生人都可以搜索到我们的个人隐私信息。
  我很痛心5460的堕落,因为我在99年就上过这个网站,开通了自己的班级,并且和很多各地的同学获得了联系。可是我现在登录5460后看到的是什么呢?看到了一个满屏都在飘广告的垃圾网站,并且还不断弹出流氓插件让我安装,多么厚颜无耻啊,我曾经支持的一个网站居然已经成为一个彻头彻尾的流氓。
  我开始后悔曾经在5460输入了过于详细的个人信息,我不知道现在上去修改还来得及么,至少我现在知道,将自己的私人信息放在这样的网站是不安全的,我现在开始怀疑,5460利用了同学们之间的信任和友情,卑鄙地窃取了用户的真实信息资料,然后将这些信息出售用以盈利,我收到过标题包含我真实姓名的垃圾邮件,而收信人正好就是我在5460登记的信箱。当然,5460这么胡搞,是会得到报应的,我只好对我的同学们说,请通过邮件来获取我的联系信息吧,我将会把我在5460上登记的信息全部删除,将自己的个人信息放在这样一个流氓网站,对我是一种潜在的威胁,有可能会给我带来可怕的灾难。
  上网,安全是最重要的,不要和陌生人说话,不要随意地在网络上留下自己的地址、电话等个人资料,就会被“陌生人”钻空子,招致不必要的麻烦了。现在的骗子的手段都是层出不穷的,很难想象把自己这么全面的个人信息发布在互联网上供人匿名查询,会给自己带来什么样的后果。
  再见了,5460。

2006年9月30日星期六

10月1日起GIF格式无专利保护

也许没有多少人注意到GIF格式即将从今年10月1日开始可永久性自由使用. 而之前在1999年Unisys申请了这一图形格式的专利, 专利到期后IBM公司又在2004年接手专利. GNU网站的一篇文章末尾提到:

" 我们可以在美国、加拿大、日本和欧盟的专利数据库中搜索一下. Unisys的专利在美国已经于2003年6月20日过期, 在欧洲于2004年6月18日过期, 在日本和加拿大也已经分别于2004年6月20日和7月7日过期. IBM在美国申请的专利已经在2006年8月11日过期, 软件自由法中心表示在2006年10月1日后, GIF格式将不再是一项专利技术."

2006年9月27日星期三

Google今天八岁啦

  八年前的今天,一家名叫Google的公司诞生了,几年之后,这家公司成为整个网络世界中最为至关重要的公司。
  Google的发展实在是个奇迹,其早期几乎没有做什么广告宣传,我大概是在2001年第一次知道Google,那时我在使用Yahoo的搜索,搜索时发现搜索结果似乎和以前不太一样,关键词的匹配度感觉非常好,而搜索的地址是类似google.yahoo.com这样的地址,因此我怀疑是Yahoo找了一个第三方的搜索提供商,于是我就顺藤摸瓜打开了Google的首页。
  打开Google的主页,我感觉眼睛为之一亮,在那个年代,我是第一次看到这样风格的网站,整个页面上只有一个搜索功能,和以前见到的主流门户网站风格完全不同,页面上看不到一个广告。然后我尝试着搜索了一下,感觉非常好,和我以前用过的所有搜索引擎都是不同的,我最想找的结果几乎都可以在第一页内找到。
  使用了一段时间后,我逐渐发现,Google搜索引擎使用的是一种和其它搜索引擎完全不同的技术,搜索准确度非常高,我不仅感叹,这才是真正的搜索引擎。
  现在,这么多年过去了,Google已经成长为一个网络巨头,在西方的搜索引擎中占有绝对的优势。虽然Google在中国的发展还前途坎坷,但是不可否认的是,没有Google,就没有现在的互联网,Google的发展改变了互联网,并带动了一大批企业的成长。

2006年9月23日星期六

新网DNS被黑

这几天新网的用户受到了很大的影响,他们的DNS被黑客攻击,导致成千上万的网站无法访问。
  不过这个对于我来说没有什么影响,我一直用的是国外的DNS解析,当然国外的DNS服务器被黑的可能性非常小,他们的安全水平做的很高,国内肯定不会有国外那样的水平了。
  不过,也不是说国外的DNS就特别好,比如我目前用的这个,前几天解析就出现异常,把我的一个域名解析到另外一个IP地址上去了。

2006年9月15日星期五

谁说了算?

下面是百度的CEO在其Blog上发的文章,引起Keso的批评后,其将文章删除,因此特意转载一份,立此存照。
  李彦宏:谁说了算?
  2006-09-11
  百度好不好,公正不公正谁说了算?这个问题从2001年9月20日百度推出面向终端网民的搜索服务www.baidu.com那一天起,就一直是我思考的问题,这些年风风雨雨,百度遇到了各种挑战,但每次我静下心来思考的时候,就发现这个答案是不会变的。那就是网民说了算!
  上亿的网民,我怎么知道他们的心声?很简单,看page
view! 如果百度做的事情是对的,是对网民有利的,page
view就会涨,网民就会不断的回来,更多的使用百度,如果我们做的事情是错的,人家就会离开百度,到别的地方去。所以当我看到百度的各项服务在流量上不断的创下新高的时候,我就不会被外界那些污言秽语所迷惑。
  做到这一点并不容易,因为总有一些人以为他们可以通过花钱,通过媒体,通过公关的手段,广告的手段来对百度造成伤害,这个人试过了,那个人还要试,这种手段试过了,那种手段还要试,有些个手段,如果放在别的公司身上,也许一次就被搞跨了,怎奈百度命硬,就是没有倒下,不仅没有倒下,反而越活越好,流量越来越高,为什么?因为有上亿网民的支持,没有一种手段可以改变这么多人每天都可以免费接触到的一个服务,这一点上百度和其他公司不一样。

2006年9月10日星期日

各界热炒百度和天极事件

 天极网百度进行指责是理所当然的了。百度也迅速就天极网指责其恶意操纵搜索结果做出回应,声明出现该现象是由于天极网下载频道人工错误所致。
  有趣的是其他人的反应:
  搜狗发表评论,在没有确切的证据下,站出来痛贬竞争对手百度,称百度篡改搜索结果是在亵渎用户。
  天极偷偷改回百度上述声称的链接,继续发布“针对百度声明的声明”,进一步维持自己强硬的立场。
  DoNews维持了自己的一向风格,跟着大伙一起痛击百度。
  其他门户网站则保持不介入的状态,大概对百度还是有所顾及吧。
  我的看法:百度这里可能遇到别人算计了

2006年9月9日星期六

百度和天极打起来了

 百度天极的事情似乎越闹越大了,天极网好像要走法律途径起诉百度,百度虽然解释了不少,但似乎大多数人不相信,其实我做为一个知道搜索引擎相关知识的人,是可以理解百度的解释的,但是可惜大多数人对搜索引擎的内部机理不是很清楚,因此要说服这么多人,还是有一定难度的。
  不过又听到一个有趣的说法,说天极这次发难的主要原因是因为有某个搜索公司要收购天极,因此天极为了前期的准备,就开始对百度发难,不过我感兴趣的是,背后的收购者到底是谁?
  参考新闻:(电脑报)百度和天极打起来了
  当你通过搜索引擎查到熟悉的网站页面,满怀信心地点击链接进去之后,出现在眼前的却是一个完全陌生的第三方网站页面。这时你的心情将会如何?
  “愤怒!”2006年9月7日,卷入“百度修改事件”的中国知名IT网站天极网用一纸声明表明了自己的心情。数小时后,百度紧急发表公开声明,指责天极和另外一家网站华军软件站自身错误是造成这次“修改事件”的最关键原因。第二天,天极再次声明,并直接在网站上公布大量收集到的关于百度非法窜改搜索结果的证据。
  至此,“百度修改事件”越闹越大,成为2006年最具轰动效应的互联网事件。
  “这是互联网历史上最恶劣的事件之一”
  天极网
  “我们一直都是一家技术严谨的公司”
  百度
  偷梁换柱
  9月7日上午,天极网用户接待中心突然接到许多网民电话,都是询问同样一个问题:百度搜索引擎上的天极软件搜索结果怎会自动跳转到另一家软件网站?
  天极网方面立即组织专门人员进行调查,结果让人大吃一惊。
  “我们当时看到在百度上的天极搜索结果直接链接到了另一家天空软件网站。很明显,这是一种赤裸裸的恶意修改。”当记者拨通天极网副总裁范锋的电话时,对方压抑不住心中的愤怒。
  9月7日,当记者登录到百度,直接键入“天极下载”进行搜索,结果在第二项搜索结果处很明显链接变成了天空软件网站。点击进行,同样也是直接进入天空软件。而键入“华军下载”后出现了同样情况。
  天空软件到底是怎样一个网站?
  天空软件网站最初是一个个人网站,创建于2001年,主要提供软件下载业务。2006年百度花重金收购这家网站,希望对其提升流量有所帮助。如此一来,百度上出现的错误搜索结果全部指向百度自己的软件网站,难免让人浮想联翩。
  事件发生后,天极网在9月7日作出了强烈反应,公开发布“强烈谴责百度公司恶意操纵搜索结果、欺骗网友的声明”。
  天极网在声明中表示,对搜索结果恶意窜改导致的直接后果是,部分网民将在不知情的情况下,被百度“导引”,放弃使用天极下载、华军下载,转而使用天空下载。要求百度公司立即停止并纠正错误,并在百度网站上赔礼道歉。
  随后,百度方面给本报发来了针对搜索结果错误的官方声明。在声明中,百度否认对搜索结果有过任何人工修改,并指责天极和华军网站编辑的人为疏忽是造成这次修改事件的最关键原因。
  各执一词
  在采访中,天极副总裁范锋强调百度之所以这么做,完全是为了提升旗下网站的访问流量。
  “为什么在其他网站上都没有出现这种情况,独独百度上出现了。明眼人一看就知道他们(百度??编者注)的用意,通过修改搜索结果为自己的网站提升访问流量。不客气地说,这是中国互联网历史上最恶劣的事件,影响实在太坏了。”
  “那么天极网下一步会采取怎样的措施?”记者问
  “目前我们已经收集和保存了更多相关证据,都放在网站首页上,建议你去看看。至于进一步行动还在研究之中,总之我们会对网民负责,替网民朋友讨回一个公道。”
  在采访百度公关总监王东的过程中,对方则一再表明百度在技术上的成熟严谨,绝对不会为了一点流量去恶意修改搜索结果。
  “我们在声明中专门提到了我们的搜索技术是相当成熟的,整个搜索过程不会有任何人工干预的情况发生。”
  “目前天极已经在网站上公布更多关于百度修改搜索结果的证据,包括截图,对此百度方面是怎么看的?”记者问。
  “我目前还没有看到这些内容,所以不好发表任何评论。但是我有必要通过贵报再次声明一下,百度一直是一家技术严谨的上市公司,不会做任何恶意修改搜索结果的事情。”王东回答。
  在本文截稿之时,天极在网站上发表第二次严正声明,保留进一步采取法律行动的权力。

2006年9月8日星期五

百度和天极网闹矛盾了

 百度和天极网的这些天的炒作,还是挺有意思的。天极网指责百度在搜索界面将自己的天空软件放在天极下载的后面,而百度则解释,是因为天极网编辑自己错误编辑了链接导致出现这种情况。
  从技术角度上讲,我觉得百度的解释是合理的,也是令人信服的。然而可惜的是,大多数人不明白SEO,也不知道链接有什么意义,因此可能不会相信百度的这番解释。这个处境应该令百度非常尴尬,“Google搜索南京大屠杀”那种有口也解释不清的际遇大概百度现在也体会到了。
  所以说,企业之间的这种竞争本来就应该站的更高一些,不要走什么旁门左道,这样对别人对自己都是有好处的。

2006年9月7日星期四

百度开始收录Blogspot的内容

前几天发现有人在谴责百度不收录Blogspot,于是百度的坚定支持者博清沉就沉不住气了,发表文章说目前百度开始收录Blogspot了。
  
我也搜索了一下,的确是这样的,百度的确开始收录Blogspot的内容了,不过等的时间也的确太长了,Blogspot已经整整可以访问一个多月的时间了,百度才慢腾腾地收录,我倒是感觉奇怪了,百度不是自称人工干预很在行吗?为什么不在这么大的事情上人工干预一下呢。我想恐怕还是因为百度空间和Blogspot的竞争关系吧。

2006年8月20日星期日

nofollow标签的使用

bestroi建议说一下nofollow,所以把以前写的一篇转过来。
nofollow是一年多前(好象)由Google领头新创的一个标签属性,目的是尽量减少垃圾链接对搜索引擎的影响。

Matt Cutts说过,这个标签的意义是告诉搜索引擎这个链接不是经过作者自己编辑的,所以这个链接不是一个信任票。搜索引擎看到这个标签就可能减少或完全取消链接的投票权重。
这个标签通常是用在博客的评论或论坛帖子中,因为这些地方是最多垃圾链接出现的地方。现在主流的博客和论坛软件都自动在评论和帖子的链接中加上了这个标签。
另外一个作用是,如果你在网站上卖广告,可以使用这个标签。因为买卖网页广告的初衷应该是流量,而不是PR值或试图影响搜索引擎排名。加上这个标签完全不会影响流量,但是有可能减少对搜索引擎排名的影响。
那么加了这个标签会把链接投票权重和PR传递值降为零吗?这一点是存有一些疑问的。如果我记的不错的话,Google,Yahoo,MSN表示支持这个标签。但是他们真的把这些链接的投票权重降为零吗?并没有肯定。
可以肯定的是,nofollow+博客评论或论坛帖子,这样的链接的投票权重可以忽略。
其他搜索引擎不一定支持这个标签,比如百度。就我观察的情况看,百度很可能不考虑这个标签,因为垃圾链接在百度还是很起作用的。
除了博客或论坛,在使用nofollow时要小心。想象一下,如果一个网站的导出链接都使用了nofollow标签,这显得自然吗?你向读者介绍一些网站,却告诉搜索引擎你不推荐这些网站?不可疑吗?受伤害的是其他人的网站,还是使用这个标签的网站呢?
以前也说过,害怕链接到其他网站是很多站长的一个误区,实际上链接到其他相关网站在很多时候会帮助你本身网站的排名。
但在博客评论和论坛帖子里面的链接就不一样了,这些链接是用户和读者自己加的,而不是网站拥有人或作者加的。在很多情况下,作者也不会去看这些链接去了什么网站。所以对这些网站的质量当然是不知道,并且不应该背书的。
读者如果有感而发,欢迎留评论,也欢迎留下签名链接。但是如果是想留个链接而留评论,那就不必了,不会有什么作用。
作者: Zac 原载: 点石互动搜索引擎优化博客

2006年8月14日星期一

Google搜索南京大屠杀的谣言背后

  关于Google的这则谣言已经传播了很长时间了,我一开始对于这样的低级谣言非常不屑,但是随着这则谣言的大量传播,我发现事情开始变得开始有意思了,我现在感兴趣的事情是,对于这样一则一眼就能分辨出事实真相的谣言,为什么传播起来却有愈演愈烈的事态呢?这到底说明了什么呢?这背后的原因又是什么?

 这则谣言说的是,在Google搜索引擎里,搜索“南京大屠杀”或“钓鱼岛”,出现的是:“该页无法显示”的提示,而且在以后的短时间内,将不能使用Google进行搜索,但是如果先搜索“尖阁列岛”,就可以搜到结果。因此,这是丑恶的亲日反华的美国鬼子企图从互联网上对我国进行信息封锁!用心极其险恶!
  Google真的搜索不了吗?非也,使用代理即可搜索,如下图,这显然不是Google搜索引擎的问题,而是中间的线路中有某个东西阻止我们进行搜索。Google.COM不会对中国用户进行信息封锁,即使有封锁,那也是另有他人。这就是最基本的事实。

 对于这么一个简单的问题,我本来觉得没有必要进行任何解释,然而令人吃惊的是,竟然有这么多年轻的网民对这则可笑的谣言深信不疑,并四处转发,这实在太出乎我的意料之外,同时我也对大量中国网民的网络知识水平竟然如此之低感到震惊,显然,太多太多的年轻小愤青对防火长城和金盾工程是一无所知,对于最基本的网络知识相当贫乏,缺少独立思考能力和判断力。这么大量的无知网民,一旦被某个公司或者某种势力利用起来,去实现某个阴谋,那么后果将不堪设想。
  我相信这个事情一定会真相大白的,利用年轻人的愚昧无知来实现某个不可告人的目的,那是在玩火,愚昧无知的人是可怕的,因为愚昧无知往往给了这些人以巨大的勇气,使他们可以做一些正常人不敢或者不会去做的事情,而这些事情一旦失控,则受伤的往往可能是那些幕后主谋。
  最后,对于那些整天沉迷于网络聊天或者网络游戏的无知的小朋友们,请你们在空闲时候不妨多学点知识和文化,相信这对你们只会有好处,不会有坏处的。

2006年8月8日星期二

有感于Google不能搜索“南京大屠杀”


  有些人发现,使用Google搜索“南京大屠杀”后将不会带来返回页面,而是一个无法显示的页面,而搜索其他词会正常返回结果页。无法搜索后而且会暂时性的无法访问google,得过几分钟才能再次使用Google搜索。
  有些人于是得出结论,这是Google对中国的封锁。其实这是一个误解,被屏蔽的关键字不是“南京大屠杀”,绝对不是的。只要我们搜索一下“东京大屠杀”、“北京大屠杀”、“西京大屠杀”这些关键字看看,是不是同样的结果?然后,你再搜索一下“屠杀”看看,你看到了什么?如果还不满意,那么用英文YAHOO搜索一下,你又看到了什么?
  你看到了什么呢?是“该页无法显示”。
  是的,被屏蔽的关键字是“屠杀”。
  为什么要屏蔽“屠杀”呢,原因很简单-“凡是贼,都是心虚的。”
  以前做过一些不光彩的事情,总是不希望别人知道,所以要屏蔽,屏蔽“屠杀”,只要屏蔽了,就不会有人知道,没有人知道,心里自然就踏实多了。
  人的一生,不过百年。一旦死去,就一了百了。我就相信人一定会下地狱而不是上天堂。然而,作恶太多人,是不是就真的不害怕下地狱吗?这是我感兴趣的问题,或许,真正到了那一天的时候,我们就会得到答案。

2006年8月2日星期三

如何写robots.txt

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。

robots.txt基本介绍
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写作语法
首先,我们来看一个robots.txt范例:http://www.csswebs.org/robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
# Robots.txt file from http://www.csswebs.org# All robots will spider the domain
User-agent: *Disallow:
以上文本表达的意思是允许所有的搜索机器人访问www.csswebs.org站点下的所有文件。
具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
下面,我将列举一些robots.txt的具体用法:
允许所有的robot访问
User-agent: *Disallow:
或者也可以建一个空文件 “/robots.txt” file
禁止所有搜索引擎访问网站的任何部分
User-agent: *Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *Disallow: /01/Disallow: /02/Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBotDisallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: CrawlerDisallow:
User-agent: *Disallow: /
另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”><META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”><META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”><META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>
其中
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
特别说明,本文章的写作参考了一些网络信息,robin只是按照自己的思路对信息进行整理。
http://www.dunsh.org/2006/08/02/robotstxt/

2006年7月30日星期日

Blogger解封了吗

 不知道发生了什么事情,Google的Blogger突然解封,现在blogspot.com终于可以正常访问了。
  不知道这样的好事能持续多久,因为以前出现过blogspot暂时被解封,而后又继续被封的现象,如果其真的可以一直解封的话,国内的博客们就又有一个新的托管地址了。
  另外值得一提的是昨天封的FeedBurner也同时被解封,希望这次解封不要是短暂的一刻,具体是什么状况还需要长期观察一下。
  下午之后,发现blogspot.com又无法访问了,因此怀疑,可能是blogspot.com更改了IP地址,所以才导致简短的“解封”,然而之后又被强行封锁。

2006年7月16日星期日

百度最近有点烦

  最近一段时间,关于百度的各种消息可谓是层出不穷。
  7月13日,百度首次风风光光地举行“百度世界大会”,同日发布百度空间。然而更吸引人眼球的是百度大会开始前几天的裁员事件,整个企业软件事业部被裁撤。
  其实,这个部门是我目前唯一接触过的百度的部门,他们主要做的是一套名为“竞争情报分析系统”的软件,几年前曾经到我公司来推销,正好由我负责协助他们进行软件安装。当然,安装的过程让我发现这和普通软件安装是多么不同-先格式化硬盘,再装了N小时的Linux系统,然后安装他们的爬虫程序,最后是Web端的系统,其原理我大概也明白,就是根据给定的关键字自动去竞争对手的网站搜索有价值的信息,我当时就有个疑问,为什么不去用搜索引擎直接去进行站内搜索,虽然时间可能会慢一些,但是效果应该差不多。我们公司试用了一段时间,发现每天收集的内容倒是不少,但是太多太杂,分拣出有价值的信息需要不少人力去完成,作用不是很明显,因此也就没有采购这个软件。后来百度推出了“邮件新闻订阅”和“RSS新闻订阅”,实际上也可以完成几乎相同的功能,而且是免费的。
  或许是因为这个部门的盈利相对来说比较少,于是7月10日这一天,在全国拥有数十名员工的百度企业软件事业部被全部“清洗”,仅有极少数员工被内部转岗(约20人)或暂时留下进行ES业务的善后工作。
  更令人质疑的是,整个裁员过程显得相当粗暴和突然,很多员工事先并不知情,7月10日下午召开会议后,被裁员工就被告知邮箱等帐号将会被注销,其间员工4个小时的时间来办理交接手续,将笔记本、门卡等物品交还公司,下班前必须离开公司。据称,百度对于辞退员工的赔偿方案偏低,辞退员工“损失期权达千万”,并且离职1年内不得进入竞争对手的公司工作。
  百度的这种做法是否符合《劳动法》规定呢?“公司因节省成本或转型进行的裁员,必须提前30天向员工提出。”有媒体援引知名互联网法律专家于国富律师的话评论说,“这种情况下,百度应该提前30天通知员工,在几个小时内将一个部门几乎所有的员工裁掉,显然不符合《劳动法》的规定。百度所支付的‘N+1’赔偿金方案并无不妥之处,但如果被裁员工对赔偿金不满意,可以向劳动争议仲裁委员会提出仲裁要求,如胜诉则可得到(N+1)×125%的赔偿。”
  更有意思的是,昨天自称“百度被裁员工”者在“向百度追债博客”上曝光的一段百度裁员录音让几天前发生的“百度闪电裁员”事件更加扑朔迷离。该人在其博客上声称,会动用法律武器让百度“把工资给我结算清楚”。该人士所提供了一段“百度裁员录音”显示,被指为“百度人力资源部门相关人士”的人在通知他“工作没有得到领导满意”时,声称将以月薪600元的待遇标准将他调动到技术支持部门,并要求他在相关的协议上签字,否则公司将无法安排合理的职位。而在此之前,该人士自称月薪为7000元。
  裁员门还没过,竟然又来了一个录音门,昨天又出了一个抄袭门,就是百度CTO刘建国对记者说,其实百度也被Google抄袭了,“我们有新窗口打开功能他们没有,他们后来也学习了。从这个意义讲,他们也是抄袭。”
  这位刘建国同学实在是太可爱了,看来我也要把我网站所有的“target=_blank”属性都去掉了,免得也落下一个“抄袭百度”的罪名啊。

2006年7月15日星期六

屏蔽百度快照的方法

  有时候,因为内容的更改或者隐私问题,我们往往不希望别人通过“百度快照”的方法查看自己网站的某一些网页,这里提供了一段让百度快照失效的代码。
  原理很简单,百度快照里面只有抓取了当前页面的文字信息,而图片和JAVASCRIPT代码还是调用远端服务器上的代码,如果你的网页里有通过.js文件的方式嵌入javascript代码,那么修改这个.js文件,在文件中加入以下代码,即可阻止别人通过百度快照查看你当前页面:
var page_url = window.location.href;if ( page_url.indexOf("cache.baidu.com") != -1) {top.location="http://www.williamlong.info/"; //此处地址修改为你希望转向的地址}
  更新:由于百度改变的快照算法,不从远端服务器获取JavaScript文件,因此这个屏蔽方法目前已经失效。

惊闻维基百科被封锁

 今天,忽然听说维基百科被封了,令我感到非常震惊,赶忙输入维基百科的网址zh.wikipedia.org看看,正如预料的一样,的确是上不去了。
  维基百科是我经常去的地方,对于我来说,维基百科是一个名副其实的百科全书,我有什么不明白的东西,或者典故,我用GOOGLE搜索时候,显示的第一个条目常常是维基百科的条目。我想,在绝大多数人的心中,维基百科都是一个庞大的网上图书馆。我也对无数义务维护维基百科全书的工作者表示敬意。
  然而,这么优秀的而庞大的知识宝库,现在竟然不让我们访问,这是我怎么也不曾预料到的。我们国家的治国之道的确大有问题。以前记得电视上有句话,叫做“知识改变命运”。现在我明白了,某些特殊材料制成的人是不希望这个社会上有太多的人拥有知识,人民拥有越多的知识,他就越害怕,中国五千年来一直“民智未开”也不就奇怪了。于是这个对于我们来说是无价之宝的百科全书,自然难免会遭此毒手。
  一个开明的君主,会顺应历史潮流,体察民情,爱护百姓,树立了政权的良好形象和声誉,赢得了百姓的拥护。在科学技术上,暂时的落后也并不可怕,只要励精图治、奋起直追,努力学习和领会强国的先进经验,那么就会象日本明治维新一样,三十年就能创造一个强盛的国家,成为亚洲强国。
  而一个无道的昏君则恰好相反,朝中是奸臣当道,君王视其臣民为奴役,实行愚民政策,不思进取,权力不受控制,滥用职权而不顾后果,逆天而行,防民之口,甚于防川,这样的君主岂有不亡之理。
  孔子有句古话:“民可使由之,不可使知之。” 其意是说:“对于老百姓,只能使他们按照我们的意志去做,不能使他们懂得为什么要这样做。” 国之决策,庶民无从知晓,民间的各种猜忌、揣摩,正是乱世之根也。国家遇到危难,国民亦不知国家之对策,全民岂不如同“一盘散沙”?可叹啊,可叹我中华气数已尽,竟然要亡在一帮无耻的败家子手里。
  附录:什么是“维基百科”
  维基百科是一个自由、免费、内容开放的百科全书协作计划,参与者来自世界各地。
  维基百科本身有三个引人注意的特点。正是这些特点使维基百科与传统的百科全书有所区别:
  首先,维基百科始终就将自己定位为一个包含人类所有知识领域的百科全书,而不是一本词典,在线的论坛或其他任何东西。
  其次,计划也是一个wiki,这允许了大众的广泛参与。维基百科是第一个使用wiki系统进行百科全书编撰工作的协作计划。
  还有一个重要的特点,那就是维基百科是一部内容开放的百科全书。内容开放的材料允许任何第三方不受限制地复制、修改及再发布材料的任何部分或全部。维基百科使用GNU自由文档协定证书。
  最早将全世界的知识收集于一个屋顶下,供人查阅的要数古代亚历山大图书馆。而出版百科全书的的想法则可以追溯到狄德多等18世纪百科全书派。在各国的大学中,图书馆是最佳的百科全书会集点。今天最常见百科全书的包括了英语的《大不列颠百科全书》、《美国哥伦比亚百科全书》,以及中文的《中国大百科全书》等。
  利用国际因特网来编写一部免费的百科全书的构想在二十世纪九十年代初就被提出。
  内容开放运动
  作为百科全书,维基百科的内容性质与那套著名的《大英百科全书》没什么区别。但是,它的撰写者和管理者却不是能够入选《大英百科全书》作者名单那样的专家,而都是网络志愿者。或许正因为它避开了传统百科全书的精英参与、审阅、论证这个繁琐过程,任何注册者都有资格修改这个百科全书中的任何一个条目,这让它成为了世界上最大的百科全书。
  随着人类信息传播途径日益畅通,知识过度保护还是共享一直是关于知识产权的争论的核心问题(参见本报2005年1月10日38版文章《知识:过度保护还是共享》)。维基百科所遵循的CNU自由文档许可证(GFDL)就是一个反版权的内容开放协议。
  GFDL是一种copyleft许可证。Copyleft是指将一个程序变成自由软件,同时也使得这个程序的修改和扩展版本变成自由软件,与它对应的是我们传统意义上的copyright(版权),后者保护版权只能被其他人在一定条件——通常是付费的条件下使用。
  “GFDL所代表的文档开放运动,是1990年代初源代码开放运动的延伸”,中文维基百科的管理员之一时昭说。我们可以将它们都称之为内容开放运动。在中文维基百科中,有一条词条“内容开放(open content)”,词条中说“内容开放的作品是指任何在比较宽松的条件下发布的创造性作品”,这些作品允许公众在不受传统版权的苛刻条件约束下,自由地复制和传播它们。
  而维基百科所采取的GFDL协议还允许第三方在不受约束的情况下自由修改和发布修改版本的作品。这样做的前提条件是你必须遵循GFDL的另一个条款:你必须保证自己允许公众对你的作品拥有同样的自由。自由获得,自由复制,甚至自由销售维基百科,不能独占所有的权利——维基百科因而被称为“公众的百科全书”。
  除维基百科之外,内容开放运动包含更多内容。它还包括了从1971年就开始的由米切尔·哈特发起的古登堡计划,这是历史最悠久的免费提供网络图书下载和阅读的开放运动;以及最近几年影响颇大的麻省理工学院的开放式课程网页,这个计划让麻省理工的所有大学部或研究所的课程教材都能够上网,免费提供给世界各地的任何使用者,开放分享教育资源、教育理念和思考模式。
  中立观念
  维基百科的另外一个重要原则是中立和不偏不倚。维基百科的创始人之一吉米·威尔士说,这个原则在维基百科中是绝对的和不可争辩的。对于习惯了blog的个人表达方式的人来说,这个原则是新奇甚至不可能得到贯彻的;对于熟悉传统媒体的人来说,这个原则也许会被视为不现实。
  维基百科的管理员这样解释中立政策,“我们应该把争论中各方面的声音都公平地表达出来,而不是在文章中指出或暗示任何一方的观点是正确的”,“中立的立场,中性的描述”。
  维基百科采用中立观点的原因是,维基百科的管理员和参与撰写者都认为维基百科是一个关于人类知识的综合性百科全书,并且由于维基百科的词条撰写是由集体来完成,因此在撰写过程中不可能不出现争论。避免无休止的“编辑战”的最好方式,就是相信自己所要编写的“人类的知识”囊括了关于一个话题的所有不同观点和不同事实,同时这些观点和事实还会随着人类认知能力的改变和知识积累程度的改变而在人的观念中发生变化。
  因此,维基百科的工作就是把这些不同的观点和事实,以及它们的变化都记录下来,而不是加上“正确”和“错误”的判断,或根据这种判断来隐藏“错误”的观点和事实。
  中立性曾是被传统媒体、尤其是报纸推崇至上的新闻原则。但自亨利·卢斯创办《时代》周刊以来,中立性原则已经在某种程度上被传统媒体抛弃。最常见的指责是,媒体在选择报道什么不报道什么时,就已经背弃了中立和不偏不倚的原则。《时代》周刊从未标榜自己能够不偏不倚地报道世界,它只是忠实地反映出自己眼中的世界,即使有时带着强烈的偏见。
  事实上,由于传统媒体所能提供的容量、空间、时间的限制,让传统媒体去展现关于某个事件的所有事实、观点是不现实的,因此传统媒体的记者和编辑必须充当“把关人”的角色。而对于维基百科来说,则不存在这种限制,网络似乎为不偏不倚呈现各种事实和观点提供了可能性。维基百科的管理员强调,维基百科的中立原则并不标榜自己的客观,而是指维基百科应该试图去描述争论,而不是参与争论。不管怎样,历史是客观的,不会改变,当技术能够使更多的人参与历史构建从而替代少数精英的分析时,历史应该更能回避主观。
  无论是非,维基社群的活动都精确地反射着网络文化的多元性、开放性、平民化和非权威主义。在这里,每个参与者都有权发出自己的声音,但每个声音都不可能成为绝对的声音。这也是网络世界规则带给我们持续不断的冲击之一。
  链接
  维基(Wiki):一种新技术,一种超文本系统。这种超文本系统支持面向社群的协作式写作,同时也包括一组支持这种写作的辅助工具。也就是说,这是多人协作的写作工具。参与创作的人也被称为维客。同一维客网站的写作者自然构成了一个社群,维客系统为这个社群提供简单的交流工具。

2006年6月27日星期二

Google在中国不行了吗?

  近日,根据易观国际研究报道,Google在2006年第一季度中国搜索引擎市场份额中,排在百度、雅虎中国的后面,仅列第三。百度的份额为43.9%,雅虎中国21.10%,Google(谷歌)为13.20%。中国搜索引擎市场第一季度的规模为3.03亿元,竞价排名业务的收入为1.75亿。
  易观的这份研究报告给出一个令人吃惊的结论,就是Google在中国的市场份额已经降到了13%,仅占第三位。当然,有人会对这份报告的权威性和准确性可能会有一些疑问,因为去年CNNIC的统计报告中Google还占有百分之30多的份额,名列第二,一个季度怎么会下降这么多呢?
  Google在中国的这种表现,对比在美国的情况有巨大的反差,据调研机构Hitwise公布的调查报告显示,5月份Google在美国搜索市场的份额已经达到59.6%,远远高于竞争对手雅虎的22%和MSN的12.1%。但为什么在中文搜索市场上就是这样的结果呢?
  如果说Google不适应中国的环境、不了解中国的国情,实际上,不少Google的Fans已经为Google支了不少招,比如介入中文输入法领域(百度早几年就把流氓软件插进了紫光拼音输入法了),将服务器搬到中国(Yahoo中文的服务器和快照服务器早就在中国了),收购国内例如新浪或腾讯这样的企业或者大流量的个人网站(百度收购过个人网站hao123),提供支持https的搜索服务等等,可以说不少的招数都是Google竞争对手早就使用过的,然而我们看到的结果是,Google的反应是缓慢和迟钝的,直到本月初,才磨磨蹭蹭地将中文搜索服务器放到中国,而快照还依旧放在美国,其间还有打算退出中国市场的传言。
  这一切的一切,给人的感觉似乎是Google不重视中国市场,没有用心去做中文搜索。当然,这也是可以理解的,从市场规模上来讲,中国市场的价值远远不及美国市场,甚至是日本市场,对于商业公司来讲,肯定会先吃最大的蛋糕。这时我想起了一则寓言:一头狮子在树丛里发现了一只兔子,于是紧随其后奋力追赶。可最后还是让兔子逃掉了,于是众兽嘲笑说:“你还是兽中之王呢?连一只兔子也追不上!”狮子的回答很自然:“我是为一顿晚餐在跑,而兔子是为自己的一条命在跑。”
  是的,在搜索引擎领域,Google就是一头狮子,有着别人无法具有的强大优势,然而正因为Google太强大太自信了,因此当Google遇到一只用生命在奔跑的兔子的时候,她奋力追赶却还是追不上。
  当然,我相信,如果Google真的用心去做中文市场,去当一只兔子,一只用命在奔跑的兔子,那么赶上百度应该是易如反掌的事情,问题的关键是Google愿不愿去做。
附录:CNNIC《2005年中国搜索引擎市场调查报告》 2005年8月29日下午,中国互联网络信息中心(CNNIC)对外发布了北京、上海、广州三地的《2005年中国搜索引擎市场调查报告》。报告显示,中国搜索市场目前是两强多极竞争格局,百度和Google市场份额大大高于其他公司,二者合计在北京和上海占有超过80%的市场份额,在广州合计占有率也接近达到75%。
在搜索内容上,百度用户搜索音乐(mp3)等娱乐内容的使用率相对较高,Google用户相对来说更经常搜索网页、企业产品、商情、交通旅游等内容。 学生在中国搜索引擎市场扮演着一个重要角色。在北京、广州和上海,学生用户占全部用户数的比例分别达到40%、37%和30%。百度最大的用户群是学生,学生用户占了百度各地用户数的40~50%。
 
⊙ 一、 根据单位划分市场份额

搜索引擎的使用者根据单位区分只要有学校,企业,政府机关及其他人员。 他们在使用搜索引擎的情况分别在44.3%,33.1%,8.9%,其他人员占13.6%.
具体搜索引擎在以上几类人群中所占的市场份额如下: 
搜索引擎在企业的市场份额
Google
百度
其他
比例
44.7%
39.5%
15.8%
搜索引擎在学校的市场份额
Google
百度
其他
比例
25.7%
65.5%
8.8%
搜索引擎在机关的市场份额
Google
百度
其他
比例
45.7%
44.3%
9.9%

⊙ 二、 根据年龄分段市场份额!

搜索引擎的使用者的年龄段在本次调查中分为25岁下和25岁以上两个层次,他们在使用搜索引擎人群中所占比例分别为51.7%和48.3%.
搜索引擎在不同年龄人群中所占的市场份额如下:
25岁以下年龄段的市场份额
百度
Google
其他
比例
62.7%
23.7%
13.6%
25岁以上年龄段的市场份额
百度
Google
其他
比例
39.5%
42.7%
17.8%

⊙ 三、高端用户搜索引擎使用

搜索引擎高端用户的定义是:年龄在25岁以上、大学本科学历以上、个人月收入3000元以上,满足这三个条件的非学生用户。调查显示,搜索引擎使高端用户占非学生用户的31.8%,占全部搜索引擎用户的19.2%。”  
各搜索引擎在高端用户所占比例如下:
高端用户使用的搜索引擎
百度
Google
其它
比例
27.9%
58.7%
13.4%
 
⊙ 四、根据学历情况分段市场份额

搜索引擎使用者根据学历分为大专以下和大专以上两个层次。他们在使用搜索引擎人群中所占比例分别为53.5%和46.4%。  
各搜索引擎在不同学历人员中所占市场份额如下:
搜索引擎在大专及以下学历段用户中市场份额
百度
Google
其它
比例
60%
20.8%
19.3%
搜索引擎在大专及以下学历段用户中市场份额
百度
Google
其它
比例
60%
20.8%
19.3%
若除掉学生,不同层次学历使用搜索引擎情况如下:
 
大专以下
大专
大本
大本以上
Google
17.7%
27.6%
49.4%
72.2%
百度
52.1%
52.6%
39.1%
20.4%
其它
30.2%
9.8%
21.5%
7.4%
 
⊙ 根据收入情况分段市场份额

由于学生大多是消费者,无固定收入来源,本组数据反映的是不同收入非学生用户的搜索引擎使用状况。  
不同月收入的非学生用户中的市场份额.
不同收入非学生用户
1000元以下
1000元以上
1500元以上
2000元以上
2500元以上
3000元以上
4000元以上
5000元以上
Google
20.8%
40.6%
43.0%
45.4%
47.3%
50.0%
51.2%
58.1%
百度
56.3%
42.4%
40.9%
39.1%
39.0%
34.8%
31.4%
25.7%
其他
22.9%
17.0%
16.1%
15.5%
13.7%
15.2%
17.4%
16.2%
各搜索引擎在学生用户中所占市场份额比较。
学生中的市场份额
初中
高中
大专
大学本科
硕士
博士
百度
58.5%
71.5%
73.3%
58.9%
40.0%
25.0%
Google
24.5%
17.9%
8.9%
27.7%
50.0%
75.0%
其他
17.0%
10.6%
12.8%
13.4%
10.0%
0.0%
(以上数据来自:《2005年中国搜索引擎市场调查报告》北京部分)

万网回应Google域名劫持事件

  上周五深夜,Google、MSN这2家在万网注册的.cn域名被人恶意劫持到万网的买麦网
  近日,万网副总裁周锚对外界表态:“这件事情从实施步骤,不难看出这是一场有组织、有预谋的行动,不像是个人行为,我们不排除是竞争对手的作为。万网已将此攻击事件上报至北京市公安局,并将配合执法机关追查到底。”
  周锚表示,黑客是利用万网的系统漏洞进行此次恶意攻击,目前漏洞已经修补。同时周锚也表示,在万网注册和服务的CN域名数占所有CN域名数的30%,万网不可能以流氓的手段去炒作自己。
  对于万网的这个解释,我个人感觉相当牵强。普通的黑客没有必要将如此重要的2个域名解析到万网的买麦网,因此可以锁定,要么是竞争对手所为,要么是万网自己干的。
  我查询了Google、MSN的DNS服务器,其地址都不是使用万网的主机,可惜当天忘记查询了,否则就可以找出一些线索,如果当时Google用的也是自己的DNS服务器,那么劫持者可能破解了万网的系统,修改Google的DNS服务器地址并解析到到买麦网。
  如果真的是黑客所为,说明万网的竞争对手比万网有更高的多的技术能力和系统安全水平,可见万网管理CN域名的能力相当有限,一旦遇到大规模突发入侵事件,万网的系统可能会完全被攻破。因为为了CN域名的整体安全性考虑,建议国家相关部门应重新审核一下万网的实际技术能力,以免将来吃大亏。
  如果是万网自己干的,就是因为想依靠Google和MSN的流量推销买麦网,万网深知“最危险的地方就是最安全的地方”,于是就自己在周五的晚上修改DNS服务器内容,选择周五晚上也是最佳的时间,因为第二天周六是假日,还可以利用“放假没有上班”为理由拖延处理时间,最后一直拖到周六下午才将DNS修改回去,别人追究起来,还可以将这些罪行推到“黑客”身上,真是一个不错的计划啊。
  如果真是这种情况的话,我们指望执法机关去调查,估计什么也查不出来什么结果,因为一切的证据都在万网的服务器上,如果这一些都是蓄意做的话,那么相信证据早已经销毁,最后的结果很有可能是不了了之。

2006年6月15日星期四

Google Sitemaps使用指南

 Google Sitemaps是Google的一个和网站管理员相关的工具,有点象BLOG的RSS功能,是一个方便自己的服务,如果大家(互联网上所有的信息源)都采用了这种方式提交自己的更新的话,Google就再也不用派出那么多爬虫辛辛苦苦的到处乱窜了,任何一个站点,只要有更新,便会自动“通知”Google,方便Google进行索引。
  初步使用了一下Google Sitemaps,用法非常简单。
  首先在自己网站根目录上上建立一个名为GOOGLE11e5844324b7354e.html,文件本身可为空。然后在Google Sitemaps主页上单击验证按钮。Google会验证这一文件。如果验证通过,Google会显示一个已验证状态,并提供一个指向用户网站统计信息的链接。经过验证后,用户随时可以通过单击“网站概述”页上的链接来查看自己网站的统计信息。
  接下来,建立Sitemaps文件。Sitemaps文件是XML格式的,Google建议使用Sitemaps协议格式的文件。不过使用BLOG的RSS甚至纯文本文件也都可以。XML Sitemaps 格式其实也很简单,建议多花几分钟转换为XML Sitemaps 格式后再提交Google。Sitemaps协议是XML的变种,用于概括与Web抓取工具相关的Sitemaps信息。对于每个网址,都可以加入抓取“提示”(如最后修改日期和近似更改频率)。Sitemaps协议以 开始标记开始,以 结束标记结束。 每个网址包含一个作为父标记的 条目。 每一个 父标记包括一个 子标记条目。是网页文件的网址。此网址应以http开始并少于2048个字符。 表示该文件上次修改的日期。此日期允许删除时间部分,例如YYYY-MM-DD。其他的可选项可以不加。
  最后,在Google Sitemaps的提交页面填写你生成的Sitemap地址,并提交即可。
  过了几个小时后,再登录Google Sitemaps,可以看到功能菜单。
  Google Sitemaps还提供了Google Spider对用户网站访问情况的说明报告,如:查询统计信息、抓取统计信息、网页分析、索引统计信息等信息。“查询统计信息”中,有列出几个进入你网站的热门搜索关键字。在“抓取统计信息”中,可以看到Google Spider抓取网站的概要统计和抓取错误的地址。实现了网站主和Google Spider的信息交互。

2006年5月15日星期一

TOR使用说明和下载

 Tor的全称是“The Onion Router”号称是“An anonymous Internet communicaton system”。它针对现阶段大量存在的流量过滤、嗅探分析等工具,在JAP之类软件基础上改进的,支持Socks5,并且支持动态代理链(通过Tor访问一个地址时,所经过的节点在Tor节点群中随机挑选,动态变化,由于兼顾速度与安全性,节点数目通常为2-5个),因此难于追踪,有效地保证了安全性。另一方面,Tor 的分布式服务器可以自动获取,因此省却了搜寻代理服务器的精力。
  将Tor和SocksCap32(SocksCap32可以用FreeCap替代)联合使用,将得到一个永远有效的支持Socks5的代理。由于Socks5的代理实在太难找了,所以Tor实在是一大福音。
  这个软件使用起来也很简单。Tor的下载地址是 http://tor.eff.org,先去下载最新版本的TOR和SOCKSCAP32,下载完毕后我们安装TOR,然后我们就可以运行Sockscap32,设置服务器地址为,Socks5:127.0.0.1:9050,然后把你的IE浏览器拉入Sockscap,双击后打开IE,即可通过TOR上网。
  很多网络软件本身也支持使用代理,因此可以连Sockscap32也可以省了,比如FLASHFXP,QQ等都支持Socks5,只要在代理服务器地址填写127.0.0.1,端口填写9050,即可实现安全上网,那时你的QQ好友会发现你的IP竟然是来自美国呢。

2006年4月25日星期二

知识分子如何发现和预防过劳死

 知识分子“英年早逝”问题,一直受到社会各界的广泛关注。一代精英因过劳累而英年早逝,对家庭,对社会都带来了巨大的损失。同时,也为中年人过度透支,拉响了要关注身体健康的警报。
  “过劳死”即过度劳累导致的死亡。国际定义“过劳死”是因为工作时间长,劳动强度加重,心理压力大,存在精疲力竭的亚健康状态,由于积重难返,将突然引发身体潜在的疾病急性恶化,救治不及时而危及生命。据报道:日本每年约有1万人因过劳而猝死。猝死又称急死,医学定义为:1小时内不明原因的突然死亡都属于猝死。相当一部分人是在睡眠中发生,尤其是凌晨2点~4点,其中80%的人都是由于心脏问题引起的。“过劳死”和“猝死”发生病因和时间上有所不同。“猝死”发生从出现不适到死亡的时间非常短,而“过劳死”可能因心血管疾病或是脑出血引起,它不是短时间突发,通常会持续一段时间或几小时甚至几天。“过劳死”和“猝死”发病都有提前预知症状,遗憾的是被众多的发病者所忽视。“过劳死”和“猝死”一般在发病前都会有短暂的胸前区剧烈疼痛的心绞痛的典型症状,或是觉得咽部哽噎不适,吞东西费力;还有人会有伴有出汗,出现3~5分钟的胸闷,最常见的预兆是浑身无力,胸闷。而这些症状常被中年人所忽视,尤其是有心血管疾病自己不知道。更多的中年人则认为身体好,即使过度透支体力偶感不适,认为休息一下便没事了,殊不知这些疾病先兆被疏忽,使之付出了生命的惨重代价。
  所以,定期健康体检对于中年人来说并不是一件多余的事,并且工作、学习要劳逸结合,避免过度劳累。“过劳”的表现主要是不能安静下来,日常有慢性致病因素积累而难以消除,也不易用咖啡等兴奋剂缓解,尤其应引起大家注意的是:“过劳”是疾病的前奏。
  研究者认为:在这27项症状和因素中占有7项以上,即是有过度疲劳危险者,占10项以上就可能在任何时候发生“过劳死”。同时,在第1项到第9项中占两项以上或者在第10项到18项中占3项以上者也要特别注意,这27项症状和因素分别是:
  1.经常感到疲倦,忘性大;
  2.酒量突然下降,即使饮酒也不感到有滋味;
  3.突然觉得有衰老感;
  4.肩部和颈部发木发僵;
  5.因为疲劳和苦闷失眠;
  6.有一点小事也烦躁和生气;
  7.经常头痛和胸闷;
  8.发生高血压、糖尿病,心电图测试结果不正常;
  9.体重突然变化大,出现“将军肚”;
  10.几乎每天晚上聚餐饮酒;
  11.一天喝5杯以上咖啡;
  12.经常不吃早饭或吃饭时间不固定;
  13.喜欢吃油炸食品;
  14.一天吸烟30支以上;
  15.晚上10时也不回家或者12时以后回家占一半以上;
  16.上下班单程占2小时以上;
  17.最近几年运动也不流汗;
  18.自我感觉身体良好而不看病;
  19.一天工作10小时以上;
  20.星期天也上班;
  21.经常出差,每周只在家住两三天;
  22.夜班多,工作时间不规则;
  23.最近有工作调动或工作变化;
  24.升职或者工作量增多;
  25.最近以来加班时间突然增加;
  26.人际关系突然变坏;
  27.最近工作失误或者发生不和。
  针对如何摆脱过度疲劳,一些专家开出如下处方:
  消除脑力疲劳法:适当参加体育锻炼和文娱活动,积极休息。如果是心理疲劳,千万不要滥用镇静剂、安眠药等,应找出引起感情忧郁的原因,并求得解脱。病理性疲劳,应及时找医生检查和治疗。
  饮食补充法:注意饮食营养的搭配。多吃含蛋白质、脂肪和丰富的B族维生素食物,如豆腐、牛奶、鱼肉类,多吃水果、蔬菜,适量饮水。
  休息恢复法:每天都要留出一定的休息时间。听音乐、绘画、散步等有助解除生理疲劳。
  科学健身方法:一是有氧运动,如跑步、打球、打拳、骑车、爬山等;二是腹式呼吸,全身放松后深呼吸,鼓足腹部,憋一会儿再慢慢呼出;三是做保健操;四是点穴按摩。
  作者:佚名 来源:人民网

2006年4月17日星期一

IIS下论坛静态化分析

  这两天研究Discuz 4.1,并成功地将原来一个Discuz 2.5的论坛升级到了最新版本,个人感觉这个论坛实在不错。
  我的Discuz 4.1是在ApachePhpMysql下运行的,并开启了Url Rewrite,之后我发现整个论坛的大部分页面都可以使用html的静态地址方式来访问,感觉真不错,Apache实在太强大了,难怪现在用Apache的站点那么多。
  IIS下能否也实现这种静态化功能呢,我知道Helicon开发了一个叫ISAPI_Rewrite的ISAPI程序,可以在IIS下实现Url Rewrite功能,不过我自己还没有尝试过,过两天按照下面的操作测试一下看看效果如何。另外,下文Discuz提供的ZIP文件里的Rewrite.dll实际上就是Helicon的ISAPI_Rewrite程序,我对Discuz做为软件开发商居然也盗版同行的软件感到遗憾。
  参考文章:Discuz!4.1.0 IIS Rewrite配置方法(转自DISCUZ会员区)
  Discuz! URL静态化功能受到论坛所在服务器环境的制约,在开启此功能之前,请根据你的Web服务器环境,选择相应的环境配置方法,以下提供的iis6下的服务器配置..其它服务器(如apache,zeus)你可以根据原理自行配置。
  1、下载IIS Rewrite模块:http://download.discuz.net/4.1.0/discuz_iis_rewrite.zip
  2、将压缩包解压到任意目录,(如:C:\Rewrite)。然后打开“控制面板”-“管理工具”-“IIS信息服务管理器”-“网站”-“您的站点”-“属性”。在“ISAPI筛选器”项点击“添加”,筛选器名称填入Rewrite,可执行文件为C:\Rewrite\Rewrite.dll;
  3、重新启动IIS就可以生效了。
  通过上述配置后,您就可以在Discuz!4.1.0后台中根据需要开启影响的静态功能了。
  无:不启用URL静态化功能。
  Discuz!Archiver静态化:当论坛启用Archiver功能时,Archiver内的所有链接均采用*.html形式。
  普通页面静态化:对论坛常用页面(如forumdisplay.php、viewthread.php、viewpro.php等)进行URL静态化转换。
  Archiver和普通页面均静态化:对Archiver以及论坛常用页面(如forumdisplay.php、viewthread.php、viewpro.php等)进行URL静态化转换。
  使用注意事项:
  您可以通过系统设置中Discuz!选项来控制URL静态化的打开或关闭及其工作状态,本功能对服务器环境有特殊要求,独立主机用户需要对Web服务器增加相应的Rewrite规则,因此需要服务器权限才可使用;对于虚拟主机用户,您需要向您的空间服务商进行咨询:空间是否支持Rewrite以及是否支持对站点目录中.htaccess的文件解析,只有满足这两条件,URL静态化功能才会生效。打开URL静态化后,论坛一些常用链接会变成类似discuz/forum-1-1.html形式,如果您的服务器环境不支持或者尚未配置好,访问这些链接会出现“网页无法显示”的错误信息,论坛将无法正常访问。发生无法访问的现象时,请您进入管理后台,关闭URL静态化功能,论坛即可恢复正常状态。
  本文提供的压缩包中还有一个httpd.ini文件,该文件是rewrite规则的配置文件。内容如下(无需修改):
[ISAPI_Rewrite]# 3600 = 1 hour
CacheClockRate 3600
RepeatLimit 32# Protect httpd.ini and httpd.parse.errors files# from accessing through HTTPRewriteRule ^(.*)/archiver/([a-z0-9\-]+\.html)$ $1/archiver/index\.php\?$2RewriteRule ^(.*)/forum-([0-9]+)-([0-9]+)\.html$ $1/forumdisplay\.php\?fid=$2&page=$3RewriteRule ^(.*)/thread-([0-9]+)-([0-9]+)-([0-9]+)\.html$$1/viewthread\.php\?tid=$2&extra=page\%3D$4&page=$3RewriteRule ^(.*)/profile-(usernameuid)-(.+)\.html$ $1/viewpro\.php\?$2=$3

2006年4月14日星期五

谷歌—Google的中文名字

  全球知名的网络搜索引擎Google昨天在北京发布其全球中文名称“谷歌”。
  据了解,这是Google第一个在非英语国家起的名字。主持发布会的Google亚太市场总监王怀南解释说,之所以给Google起一个中文名字,是因为考虑到普通老百姓的需求。“Google的名字已经很好了,对于IT工作人员来说,这是非常方便的称呼,但是我们有大量普通的老百姓在使用Google,我们必须考虑他们的感受”。
  根据Google介绍,这一名字意味着“丰收之歌”,说是用“诗意的方式”寓意了“丰富多彩的搜索体验”,因为“用户搜索的过程就是收获的过程”。
  不过我个人认为这个名字起的不怎么样,发音不好读,也没有韵律,很生硬,名称的含义解释的也很生涩,相信大多数人还是喜欢使用Google这个词。
  另外还有一段小插曲,Google的中文名本来锁定的是“谷果”与“古歌”,两位中国掌门李开复、周韶宁就坚定支持“谷果”,但被下属抨击为“更像农产品公司的招牌”,而“古歌”则被认为暮气沉沉。结果Google亚太区市场总监王怀南起的“谷歌”成为“黑马”。
  IT圈内的人士也没闲着,无聊布棉昨天就迅速地给“谷歌”编了一个段子:
  说到傍大款,雅虎中国笑了,俺们后台有杨致远、马云,还有以前的周鸿一....
  说到2.0,iask笑了,俺们获得入选web2.0百强呐;
  说到农民,中搜笑了,俺们是养猪专业户,都快3.0了;
  说到吹牛,搜狗笑了,俺们张朝阳能说会道;
  说到知识,百度笑了,俺们知道你不知道我知道;
  说到文化,Google笑了,俺们中文名叫谷歌,注意,不是伟歌。
  连岳也编写了一个段子:“谷歌”写给中国政府的保证书
  1、我们保证找不到任何色情资讯,但是结果会指向新浪社会新闻。
  2、我们保证找不到任何垃圾资讯,但是结果会指向新浪名人blog。
  3、我们保证修改搜索技术,将中国提供的官员名单等同于以下关键词——
  4、清廉、幽默、朴素、十年一衣、爱民如子、拍案而起、爱、做爱!
  5、我们保证“做爱”是百度恶意攻击的结果。
  6、我们认为,1988年之后就是1990年。
  7、我们还认为,6月3日之后当然是6月5日。
  8、我们保证找不到任何国际新闻,我们保证找不到任何敏感的国内新闻。
  9、Google商标在中国将改成“000000”。
  10、“000000”读为“谷歌”,但我们建议读为“胡哥”。

天街小雨润如酥,草色遥看近却无。今天就是这样一个日子,春意盎然,生机勃勃。在这个耕耘的季节,Google
取名“谷歌”。以谷为歌,是播种与期待之歌,亦是收获与欢愉之歌。我们希望,“谷歌” 能为每一个人整合全球信息,让人人能获取,使人人都受益。欢迎你到 “谷歌”
来,让我们为你搜索,给你收获。一条条信息就像一株株小草,鲜活而充满生命力,汇聚起来,成一片新绿,无边无际。我们把每个网站当成一个选民,所有搜索结果的排名完全由这些选民相互
“投票”
公正决定。因为我们相信,信息面前,人人平等,只有真正在网络上被大家公选、信赖的信息才是有价值的。我们更期望,一旦你到“谷歌”来,就可以迅速找到所需的信息,然后离开,去做自己想做的事情。我们以心血为你争取时间,并为你不断寻找更多获取信息的方式。我们曾经设想,把庞大的服务器群放在一艘船上,让淙淙流水发动能源,带动信息的整合。这乍看起来风光无限的浪漫图景,诉说着我们对理想不舍昼夜的追求。今天我们所整合的,只是无穷信息的一小部分。我们要做的,是汇天下信息,予天下人。信息还有许多,
我们要做的也就更多。

2006年4月7日星期五

百度-关于MP3搜索



 百度的MP3搜索隐藏着一个大多数人都没有注意到的秘密。
  众所周知,在国外法律健全的国家,一个网站如果搞MP3下载,肯定会因为版权纠纷而面临法律的制裁,最终不得不关闭这项服务。
  而在中国这样法律不健全的国家,每个人都知道MP3搜索肯定有很大流量,但做还是不做,对于一家网络企业来说可以有多种选择:
  1、Google的选择,无论美国和中国都不做MP3搜索,不做侵犯知识产权的事情。
  2、Yahoo的选择,在美国不做MP3搜索,但在中国的搜索引擎上做MP3搜索。
  3、百度的选择,宁可和国内唱片公司打官司也要做MP3搜索。
  根据ALEXA的统计显示,百度的MP3搜索流量巨大,成为仅次于常规网页搜索的第二大搜索,占其中流量的16%。因此也不难理解,百度宁可和国内唱片公司打官司也不能不做这种侵犯版权的搜索。
  然而,百度并非是完全肆无忌惮,它还是有所顾忌的,最主要的是害怕被国外的唱片公司指控。因为百度是在美国上市的,美资超过51%的企业,百度知道如果陷入这种法律纠纷会给自己带来什么后果,因此,百度就自作聪明地在MP3搜索上做了一个小伎俩,使得只有中国地用户才能正常使用百度的MP3搜索。
  为了证实这个说法,大家可以做一个简单的试验进行验证:
  先以正常方式在百度的MP3上搜索一首英文歌曲,比如Titanic(电影泰坦尼克号歌曲),则百度搜索出1,460个结果,如下图所示。



 然后在IE里设置一个国外的代理服务器,使得你的IP地址变成国外的IP地址,这时候再上百度搜索一下这首歌,你会发现搜索不到任何歌曲,如下图所示。

  由此我们可以得到一个结论,对于英文歌曲的MP3搜索,只有中国的IP才能进行,使用外国IP无法搜索,百度在对所有外国人进行“信息封锁”。
  当然,不可否认,这种明知故犯的侵犯知识产权的行为,在中国是比比皆是的,这也给中国的对外贸易和国际关系造成严重的不良影响,中美知识产权摩擦不断升级,中国每年约有70%左右的出口企业遭遇到国外技术型贸易壁垒的限制,在这些技术壁垒中,大多与知识产权有关。如果中国的企业不好好保护知识产权的话,美国很可能会采取各种制裁行动,包括阻止某些中国产品进入美国市场,或者向世贸组织提起诉讼。
  然而,百度做为一家知名的上市网络公司,不想着如何减轻政府的负担,却只顾自己赚钱,钻法律的空子,明知故犯地侵犯知识产权,专门给国家和政府制造麻烦,影响中国的国际形象,最终得到的结果是,以美国为首的西方国家每年都不断对中国知识产权保护不力进行指责,使得中国政府在经济和外交上处于一种非常被动的局面,中国企业在走向国际化的道路上也遇到很多不公平的待遇,这些都是我们不想看到的结果。

百度染指维基百科

  根据最新的消息,百度秘密开发的所谓“百度百科”已经基本成型,预计近期即可推出。这是百度又一次提高自身流量的尝试,但其手段极有可能是以侵犯知识产权为代价。
  维基(Wiki)是一种超文本系统,支持面向社群的协作式写作,所有用户均可以在Wiki上增加和修改条目,也可以把Wiki理解为网上的百科全书。
  目前全球最著名的Wiki是维基百科(Wikipedia),截至本月初,维基百科中文版条目数突破6万2千条, 英文条目数则超过100万条。
  不过Wiki在中国发展并不理想,从去年开始,维基百科就被有关部门封了,中国地区至今无法访问维基百科。
  在Wikipedia不能访问的情况下,国内也有一些Wiki的尝试,例如方东兴搞的维客中国,由于它是在维基百科被封的当天正式运营,并且内容大量剽窃维基百科的内容,因而引起维基社区人愤怒的指责和攻击,自觉理亏的维客中国也不得不在仅仅生存了十天的情况下黯然关闭。
  百度开发的百度百科系统其实也面临类似的问题,最主要的问题是条目的版权。
  维基百科全书非常注重版权,要求每一个条目都来自于书写者的原创。简单地说,就是因为维基是开放的,可修改,可复制,可公开,而抄袭的词条则会对原作者构成著作权的侵犯。这对习惯了已经在互联网上发表些有着强烈个人色彩的评论和转贴成性的中文网民一下子还真是很难适应,这些版权意识相对淡薄的国内浏览者和书写者,经常会无意识地侵犯他人的版权,如果百度再对此进行纵容,那么毫无质疑,百度百科将成为侵权和抄袭的天堂。
  百度对于知识产权的态度是怎么样的呢?答案很简单,百度最主要的流量来源-MP3搜索就是一个明显的侵犯知识产权的案例,百度不但不知悔改,反而厚着脸皮和国内的唱片公司打官司,很难想象百度会是知识产权的维护者。
  另外一个问题是条目的中立性原则,维基百科的中立观点政策指的,应该要把争论中各方面的声音都公平地表达出来,而不是在文章中指出或暗示任何一方的观点是正确的。简单讲就是中立的立场,中性的描述。所有文章都应该是“没有偏见”,或是写的时候要从一个“中立观点”出发。用“没有偏见”的文字就是要使那些文字不成为任何一个特定的观点的拥护者,反而我们要确保在争论中的各方的观点都能被公平地表达出来。
  举个例子,维基百科上关于“百度”的条目上,就有各方的观点,既有肯定百度的观点,也有列举百度恶行的观点,而在所谓的“百度百科”上,是否会允许这些指责百度的言论存在?如果一个公司连自身的中立性原则都无法保证,又怎么可能成为“中立原则”的维护者和执行者呢?
  最后一点,维基百科的写作门槛是很高的,这种写作门槛并不是指要求一个人的文笔要多么精彩,也不是要求一个人懂的知识要多么全面艰深,而是指进行词条写作的一些基本要求,保持中立、版权意识,绝对不能从哪儿顺手复制粘贴点什么,书写一个好的条目往往要求作者要有相当高的文字写作能力和文字表达能力,维基百科显然是属于精英们的表演舞台,而百度在中文互联网精英分子中的口碑一直不好,百度的忠实用户大多是低端用户,因此百度的这个Wiki会发展成什么样,是令人感兴趣的地方。
  当然,百度做这个也有一些优势:互联网入口网站的人群优势,社区服务的交流优势。而且百度做用户互动类产品(百度贴吧、百度知道之类)经验已经积累不少,对于这种开放型产品的运营,应该也有一些自己的观点和看法。到底百度百科会是一个什么样子,让我们拭目以待吧。
参考新闻:百度秘密研发百科 将引发第一解释权争夺?
  导语:
  百度公司可能于近期推出一个重量级的web2.0产品,能让任何人都可以对任何词条作出解释;此消息一经传出,便得到一些网站及专业论坛的纷纷转贴,网友们更是争先对其进行解释,并猜测其为百度的下一个秘密武器。而与此同时,关于开放词条的第一解释权话题也被放到台面。
  百度内部渠道透露
  百度公司即将推出的这项服务,初步命名为“百度百科”,是一种超文本系统,所有用户均可以在“百度百科”上增加和修改条目,也可以把“百度百科”理解为网上开放的百科全书。
  百度一位相关负责人透露,百度近日确在进行相关产品的内部测试。但该负责人并没有透漏该产品的正式发布时间,也没有具体说明该产品的属性。
  虽然正式上线时间没有得到百度公司的最终确认,但也有百度内部人士透露,“百度百科”进行内部测试已经有一段时间,预计百度公司会在4月中旬正式对外发布。
  “第一解释权”的所有权归属讨论
  与“百度知道”、“百度帖吧”产品发布之初的情形一样,业界对“百度百科”推出已经开始不同的观察和分析,对于这个将会是人类历史上的由最多人来编撰的百科全书,如果 “张凯歌”这一词条词汇的第一条注解人被胡哥捷足先登、“王洋”第一条注解人是锅德刚,将会产生怎样的结局?谁将成为这部词典的“第一解释权”的所有者?因为任何人都可以对任意词汇作出解释,所以第一条解释会对其后的解释影响巨大。但现在由于百度百科还没有正式推出,将会以什么样的方式处理排列同一词条的不同解释尚无法得知,相信这些都是一个有意思的讨论。除此,“百度百科”作为一个“开放的写作平台”,百度又如何减少垃圾信息,也是网友争论的问题。对此,有些网友表示担忧,认为这是一个“世界级难题”;但也有一些业界人士认为,百度在技术层面已相当成熟,并已经获得“百度知道”、“百度贴吧”等社区服务的经验,相信能够设计出针对垃圾信息的对策。
  而一位互联网专家的看法是,现在还很难预料,“百度百科”发布的意义;但可以肯定的是,作为这样一个平等、协作、分享的平台,对于用户来说,最大的意义无疑是他们可以参与编辑一个开放的百科全书,并为人类知识分享作出自己的贡献。而“百度百科”也将会真正体现一个新媒体的精神。
  新闻背景:百度可能本月底推出Wiki,意在提高用户粘性
  记者百度一下“百度百科”,某知名网络媒体以“百度可能本月底推出Wiki,意在提高用户粘性”为题,报道了百度公司即将推出“一种可以自由编写的社群协作式写作平台”服务的消息。该消息一经 刊发,便吸引了众多媒体及网民的关注。
  在新闻刊发不到半个月时间里,各大网站及论坛、Blog纷纷转贴该消息,其中包括业界比较有影响的iresearch论坛和donews社区等都有转载;通过百度搜索,更是可以获得多达470条转载记录。而在一些论坛中,有关百度即将推出“社群协作式写作平台”服务的帖子相继被广大网友置顶为热贴,一场关于“第一解释权”的争夺悄然兴起。

2006年3月15日星期三

博客世界的战争:垃圾博客和恶意评论

 随着博客这个概念在中国越来越热,博客目前也面临一个很艰难的挑战:垃圾博客、恶意评论的增多。这些负面影响如果没有得以很好处理的话,那么未来博客也会象目前的邮件一样,成为垃圾邮件的下一个替代品。
  垃圾博客:
  垃圾博客就是那些通过垃圾文件影响搜索引擎的博客。有时候它被用来影响网页的算法,这些网页控制和其他网页或网站的链接。在更多的普通网站中,这被称为“链接工厂”。垃圾博客的内容通常毫无意义,充满广告或者是从其他网站上扒来的文章,但都带有大量的链接,链至垃圾博客作者的网站——购物、贷款、色情、二手车……与你收到的垃圾邮件内容类似,目的是为了强奸读者的视听,达到产品宣传的目的。当然也有不同之处,这些垃圾博客还急切地想做另一件事:SEO,或者可以说成是迷奸Google,要提高他们站点的PageRank。
  恶意评论:
  现代博客系统允许评论和反馈成为其他用户和读者给文章简单添加想法和评论的方式。不幸的是,有些人却滥用了这种系统,在评论中恶意加入大量毫无意义的广告和链接地址。一些人甚至开发相应的工具,自动提交大量链接到博客的评论中。那些创造了垃圾博客和垃圾评论的人认为这会产生很多好处,通常通过建立这些系统获得额外的搜索引擎排名或者收入。
  其实,当业界达人把Blog称作是电子邮件、即时通讯、BBS之后的第四大交流沟通之时,垃圾博客已经有苗头了。这两年来,随着全世界劳动人民对垃圾邮件的抗议,微软、AOL等巨头联合司法机构,合力对垃圾邮件发送者进行了绞杀。于是,这些老鼠们纷纷寻找其他的突破口。Blog世界不可避免的受到影响。在垃圾博客之外,早先更让Blogger们感到头疼的,是那些已经成灾的垃圾留言、垃圾反向链接和垃圾Trackback。国内某知名Blogger曾在其Blog上痛骂一个家伙,这人很喜欢给各种Post后面留言,内容大抵都是“你的文章越来越精彩了”、“我很喜欢你的这篇文章”云云,然后就开始推销自己的网站。在相互间联系如此紧密的Blog世界,还披上虚伪的吹捧外衣玩家个把戏,让人不禁要猜测这家伙脑积水的水位。因为更多发垃圾留言的家伙,早就开始采用自动化软件工具了——一指定BSP或者WP、MT一类的Blog软件,它就能把垃圾留言一篇接一篇地往出贴。验证码是一个阻止垃圾的有效办法,但对正经人来说,用户体验无疑降低了。
  道高一尺,魔高一丈。我们还有什么办法呢?在国外,无数Blogger都开始为未来忧心忡忡:Blog会不会成为下一个垃圾场?很难说我们不愿看到的未来会不会真的来临。因为,即使是技术力量已经十分强大的Google,对于来自众人的抗议,也只是暂且删除了Blogspot上的13,000个二级域名,还有“努力防御自动注册Blog和发文的脚本”的承诺。而目前看来,垃圾博客这股污水,还正源源不断流向Blog的大海。
  现在,是到了深入思考和建立控制干涉系统的时候了,这样才能处理好这些问题。这个问题的解决也需要大量时间,因为垃圾博客会通过各种新方法产生来影响搜索引擎和网站运作。相信这场和垃圾博客的对抗将是一个长期而艰巨的战争。

2006年3月7日星期二

常用正则表达式

  正则表达式用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。


匹配中文字符的正则表达式: [\u4e00-\u9fa5]
评注:匹配中文还真是个头疼的事,有了这个表达式就好办了

匹配双字节字符(包括汉字在内):[^\x00-\xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)

匹配空白行的正则表达式:\n\s*\r
评注:可以用来删除空白行

匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?<.*? />
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式:^\s*\s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式

匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注:表单验证时很实用

匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求

匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注:表单验证时很实用

匹配国内电话号码:\d{3}-\d{8}\d{4}-\d{7}
评注:匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始

匹配中国邮政编码:[1-9]\d{5}(?!\d)
评注:中国邮政编码为6位数字

匹配身份证:\d{15}\d{18}
评注:中国的身份证为15位或18位

匹配ip地址:\d+\.\d+\.\d+\.\d+
评注:提取ip地址时有用

匹配特定数字:
^[1-9]\d*$    //匹配正整数
^-[1-9]\d*$   //匹配负整数
^-?[1-9]\d*$   //匹配整数
^[1-9]\d*0$  //匹配非负整数(正整数 + 0)
^-[1-9]\d*0$   //匹配非正整数(负整数 + 0)
^[1-9]\d*\.\d*0\.\d*[1-9]\d*$   //匹配正浮点数
^-([1-9]\d*\.\d*0\.\d*[1-9]\d*)$  //匹配负浮点数
^-?([1-9]\d*\.\d*0\.\d*[1-9]\d*0?\.0+0)$  //匹配浮点数
^[1-9]\d*\.\d*0\.\d*[1-9]\d*0?\.0+0$   //匹配非负浮点数(正浮点数 + 0)
^(-([1-9]\d*\.\d*0\.\d*[1-9]\d*))0?\.0+0$  //匹配非正浮点数(负浮点数 + 0)
评注:处理大量数据时有用,具体应用时注意修正

匹配特定字符串:
^[A-Za-z]+$  //匹配由26个英文字母组成的字符串
^[A-Z]+$  //匹配由26个英文字母的大写组成的字符串
^[a-z]+$  //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$  //匹配由数字和26个英文字母组成的字符串
^\w+$  //匹配由数字、26个英文字母或者下划线组成的字符串
评注:最基本也是最常用的一些表达式

原载地址:http://lifesinger.3322.org/myblog/?p=185

2006年3月6日星期一

国内十大荒诞禁令排行榜

  虽然这十大荒诞禁令看起来很好笑,但我却笑不出来,我所感到的是活在这个社会里是多么的悲哀。
  1、“严禁酒后驾驶机动车辆”:乍一看,这条禁令无可厚非,可它偏偏出现在山东潍坊市审计局为整顿行风出台的“三条禁令”之中,跟在其后的条款是“违者给予通报批评、警告;情节严重的,给予记过、限期调离或辞退、开除处分”,什么时候醉酒驾车这种违法行为改归审计局管了?即便是追加处罚,都属对同一责任人的重复处罚,于法无据 。
  2、“严禁用公款打麻将”:地球人都知道,挪用公款是什么样的行为,竟然需要用发放红头文件的形式来告知仅局限于打麻将的挪用公款是要受到惩处的,在这样的事件中我们完全看不到吏政的威严和有效性,看到的只是官场腐败的触目惊心的事实。
  3、“不按规定走路方式走路的要挨罚”:四川新出台了一项交通法规《行人十二种走路方式要挨罚》,听起来颇有点搞笑味道:如横过没有人行横道的机动车道时,不直行通过,或在车辆临近时突然加速横穿、中途倒退、折返;未实行交通管制的路段,在道路上通行每横列超过二人通通要罚。
  4、“腰围超过2尺7的在编民警将全部下岗”:打造一支身体各项指标都能达到优秀的警-察队伍,自然是好事,但考核的方法用量腰围未免有点太原始、太片面了,腰围粗壮的人闪展腾挪、灵活无比的人多了去了,洪金宝就是一个。
  5、“海关官员不得庇护走私”:海关官员的天职就是把好国门,打击走私只能说是他们份内的工作,庇护走私行为无疑是犯罪,自有国法来惩处,只是这样一句话堂而皇之地放在海关总署的五条禁令里,怎么看怎么别扭。
  6、“不准为男领导配女秘书”:四川省政府不允许男领导配备女秘书的理由是因为,女秘书容易和男领导发生生活作风问题,从而在工作上影响男领导,既而导致领导失职或腐败,祸国殃民。但很多网民不能认同这个理由。
  7、“报考女公务员,乳房要对称”:湖南省公务员录用体检标准竟抛出“女性要第二性征发育正常,乳房对称,无包块等方为合格”的条款,去年就有20%的笔试和面试都合格的考生因为达不到这个要求而被刷掉。
  8、“严禁无婚姻证明的男女混住在一起”:《江苏省暂住人口管理条例》曾经有过这么一则条款,但父女、母子、兄妹都属于这一范畴,他们也不能同住,简直荒唐可笑。后来取消该禁令的时候还好意思叫好。
  9、“不许哄抢游客,做彬彬有礼的猴子”:成都的龙池镇政府和龙池景区为猴子们制订了“礼貌山猴行为准则”:不许不礼貌,做到文明待客;不许哄抢游客,做到彬彬有礼;不许骚扰游客,尤其是女游客;要助人为乐等。
  10、“中小学教师严禁奸污猥亵女生”:这则条款出现在湖南省益阳市赫山区和资阳区两个教育局颁发的“教师准则”内,很难想象这种完全已触犯了刑律的行为条款,却很不严肃地上了教育系统的“禁令”之中,言外之意好象是女教师可以猥亵男生。
  作者:佚名 来源:网络

2006年3月1日星期三

英文技术网站全部解封了?

 今天上网,发现前一段时间电信封的几个国外英文技术网站全都可以正常访问了。
  包括PHPFreeBSDSourceForge三个重量级的技术网站目前我都可以访问正常,至于FreeBSD以前那夸张的关键字过滤方式也没有了,这令我感到很欣慰。
  我们的权利是由我们自己争取来的,如果这些事情我们谁都不说话,那么这些我们本应该拥有的权利会永远失去,所以我们要努力争取,就目前看,我们是正确的,我们争回了自己的权利。
  以后,如果大家发现自己有什么合法的网站上不去,那么如果是被封的话,一定要向电信申请解封,写一份申请解除封锁的材料,包含网站地址、IP、用途等等,向当地的电信局提交这份材料,如果属于误封的话,那么积极申请,相信很快会被有关部门解封的。
  下面是cnblog的同学总结的网站解封的经验,供参考。
  网站被封了怎么办?
  一旦网站被封,当然,严格来说,应该是发现某个网站突然无法访问。首先要做的是,了解是否是服务器或服务商方面出了问题;然后求证一下国内其他地方的朋友以及国外的朋友能否访问。如果都不能访问,那么很可能就是网站被封了。
  大多数的人到此或许就开始抱怨,然后逐渐不去使用这个网站了。
  但是,我所要说的,正是这以后的办法。
  首先,向你的ISP询问无法访问网站的原因。最好直接询问骨干网的网络中心(就是直接拥有国际出口的ISP)。例如,教育网的用户可以直接询问中国教育网网络中心。可以参考一下中国互联网络连接带宽图。ISP一般来说都是很热情的,他们会帮你查询这个网站是否被封锁(你有可能需要提供网站的IP地址)。如果证实被封锁,他会告诉你应该写一封申请解除封锁的材料,说明网站的性质和用途。
  说到这里,有几点需要注意:
  1. 申请解除网站的封锁状态,并不要求你是网站的拥有者或管理人员,只要你发现某个网站被封锁,而他们确实没有什么反动、××内容(这是出于人身安全和守法的原则),任何人都可以申请解除某个网站的封锁。
  2. 执行封锁的部门是什么,是不会告诉你的。(因为这是保密的),不外是被告知是公安部门或者安全部门。封锁是由这些部门直接在国际出口的路由上进行的,ISP很可能也不清楚,无权过问,也不可能由他们直接解除封锁。因此封锁的原因也是无从打听的。
  你的申请材料交给ISP以后,他们会帮你把材料转交给相关部门处理。按照工作程序,材料递交给相关部门后,将会在3个工作日内解除封锁。

2006年2月28日星期二

台湾在考验大陆

 台湾今天下午宣布,终止“国家统一委员会”运作,终止“国家统一纲领”适用。
  我个人感觉,这是台湾走向“台独”的第一步,在试探,也在冒险。这是一盘双方都难下的棋,大陆肯定不希望台湾这个时机走这步棋。
  当然,我等小民其实不必关心这些事情,也不必爱国,什么叫爱国其实我们也不懂。在外交问题上我们应该相信政府,目前我国正面临难得的战略机遇期,我们要抓住机遇,倍加珍惜安定团结的大好局面,维护社会稳定,努力做好我们的本职工作,就是最好的爱国表现。
  不过我也提醒一下,就连腐败无能、丧权辱国的清政府也是战败于日本之后才被迫割让的台湾。如果我们连仗都不打就丢掉了台湾,那就太说不过去了。

2006年2月25日星期六

搜索引擎技术揭密:中文分词技术

  信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。
  搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。
  什么是中文分词
  众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
  中文分词和搜索引擎
  中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)上以“和服”为关键词进行搜索:
  在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。
  在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。
  在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。
  这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。
  中文分词技术
  中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
  现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
  1、基于字符串匹配的分词方法
  这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
  1)正向最大匹配法(由左到右的方向);
  2)逆向最大匹配法(由右到左的方向);
  3)最少切分(使每一句中切出的词数最小)。
  还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
  一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
  对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
  2、基于理解的分词方法
  这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
  3、基于统计的分词方法
  从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
  到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
  分词中的难题
  有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
  1、歧义识别
  歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
  交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
  如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
  2、新词识别
  新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
  新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
  中文分词的应用
  目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
  分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。
  作者:Winter

2006年2月15日星期三

如何解释黄片、毛片、女优、钢管舞

 当今社会沾上“黄色”、“性”的信息无孔不入,小朋友又是那么的好奇,当他们问了一个让人脸红的词的时候,作为爸爸,妈妈,叔叔,阿姨,哥哥,姐姐的我们应该怎么应付?看看这些参考答案!
  名词解释:
  黄片:故事片的一种,因为场景以黄色调为主而得名,日本出产的这一类电影最为出色。这类电影一般是低成本电影,不要说道具,有时候连演员的衣服的提供不上。都说日本有钱,可是他们的黄片还不如老谋子的《英雄》制作大。
  毛片:盗版碟的一种,因为做工粗糙,甚至带有毛刺,因此被老百姓气愤的称为毛片。不过有不法分子把毛片联想成纪念伟大领袖毛主席的主旋律影片也简称为毛片,这是非常让人愤慨的,这是非常不要脸的!
  A片:英语过四级的同学都知道是美国片-American片-A片。据悉:最近比较热门的电影《指环王》、《冷山》都是A片,我国每年要进口一定数量的A片,但是为了不冲击国产影片,中影集团电影进出口公司对A片需要经过严格的挑选,而且还有数量限制。只有符合中国人传统观念的优秀A片才在引进之列,虽然保护野生动物是好的,但是表现对野生动物过分“溺爱”的A片也是不会被引进的。
  AV女优:这个词还不为光大青少年所熟知是因为这个词对英语的要求很高,A前文说了,代表美国,V代表佛蒙特州(VERMONT),这个州的人民很优秀,人们就称之为“AV女优,AV男优”,因为这个州的女的特别优秀,所以AV女优更常见一些。
  钢管舞:起源于美国的一种劳动人民自编自演的舞蹈,最初是一些建筑工人中流传开来,他们拿着建筑钢管一边跳舞一边歌唱,表现了美利坚民族开朗乐观的民族性格。钢管舞是世界十大民间舞蹈之一。
  走光:一些单身汉的口头禅,比如:听到××有美女,赶快去看,结果美女都走了,于是叹息:“美女走光了”,渐渐的在社会上流传开来,表达了单身汉们的一种渴望爱情的思想感情,词义和现在的“郁闷”差不多。
  自摸:打麻将的时候的一种赢钱方法,自己摸到要的牌,与之对应的是点炮。但是因为自摸不求人,所以更受一些人的欢迎。
  无码:顾名思义,就是没有码,没有防伪标码的电影属于广大人民群众深恶痛绝的假冒伪劣产品,也是消费者协会的重点打击对象。
  做爱:一种懒人用的很烂的简写,全称是“做爱做的事情”泣血求求各位小朋友,务必说全称。
  性感:又是误用,其实应该写作“姓感”,感姓是用的很少的姓氏,主要分布于中国××,自从这个词被误用那里的女同志非常苦恼,因为有的时候有这样的对话:男:“小姐,请问您贵姓?”女:“(汗)免贵我性感。”不过他们还不是最惨的,因为还有人姓焦,总算没有人姓这个复姓--冷淡。
  露点:读做 lu dian 小男生的一种很矫情的叫法,其实就是早晨草叶上的露珠。露点视频就是《人与自然》拍摄的一集露珠形成过程的科教片。
  二奶: ①二奶奶:二爷爷的妻子。②咪咪:参见下一个名词解释。
  咪咪:小猫咪,特指那种刚刚生出来的很小很乖的可爱的小猫,比如:哆拉A梦和杰瑞就是两个注明的咪咪。
  包二奶: ①姓包人家的二奶奶。②胸罩
  自拍:因为工作不顺心,因此一些女生决定抗议,因此他们决定用板砖往身上砸,简称“自拍”。
  偷拍:后来人民政府为了保护这些女生的健康取缔自拍了,她们只好趁警察叔叔不注意,偷偷的往自己脸上来上一板砖,其实就是偷偷的自拍,简称“偷拍”。只有失去了才知道珍惜,不能随便自拍了,因此女生们偷拍时一般往死里拍。
  三版女郎:知道了什么是自拍,三版女郎就容易理解了,就是曾经拍了自己三板砖的女郎。
  SM:FM、AM之前的收听广播的方式,这个方式的特点是……嗯,用绳子,有时候也用锁链做天线,虽然现在看来哇噻,听个广播还用绳子,用不用那么费劲啊?但是当时那个时候人们还是很快活的,现在这种技术在我国已经基本淘汰了,在日本、美国等国家还有少量存在。
  艳舞:起源于日本社会底层的民间舞蹈,舞蹈者一般衣不蔽体,说明了资本主义社会两极分化严重,同时也体现了社会主义的优越性。但我们不能放松警惕,因为随着改革开放我国的两极分化也日渐严重,某些地方也出现了这种舞蹈,真是可怜。
  波霸:从香港台湾传过来的词,波就是球,踢波就是踢球,波霸就是球王,世界上最大的最有名的波霸是巴西的贝利,马拉多纳和贝肯鲍尔虽然小了点也勉强算波霸吧。
  3P:如果你的孩子问这个词,你一定要好好看看他最近在看什么书,这个词很有难度,但是也是可以解释的:3P是日本某公司推出的一款游戏机,因为可以支持三个人同时玩,所以被游戏玩家亲切的称为3P。(这个解释的后果是小孩大喊:“我要3P”,你应该做的是趁他还没有喊出来,捂住他的嘴,开始许下承诺,给他买一个微软最新的XBOX,支持XXX人同时玩,条件是他闭嘴。)

2006年2月14日星期二

慨叹FreeBSD和SourceForge被封

  为了中国软件业的前途和发展,我呼吁中国电信停止封锁以下两个英文的软件专业技术网站:FreeBSDSourceForge
  FreeBSD是一个自由的,源自AT&T UNIX的操作系统。可以说它是正统的UNIX后代。FreeBSD是一个完整的操作系统,包含了从开发工具到各种各样的应用程序。它由一个软件开发的核心团队来维护,整个原始程序代码会有组织地进行更新,所以程序代码比较有一致性。FreeBSD主要是由它的核心小组来发布。FreeBSD的目标是提供一个坚如磐石的系统。它的技术性能是有目共睹的,十几年的开发使它成为一个“坚如磐石”的网络操作系统,有许许多多的大网站和ISP在运行着FreeBSD,免费和开放的特性使得它成为商业计算和科学研究的极佳平台。
  Google、Yahoo、甚至新浪网等大型网站的服务器都大量使用FreeBSD操作系统。可以说,大型网站服务器使用的操作系统基本上不是FreeBSD就是Linux了。
  然而令人不解的是,FreeBSD的官方网站 http://www.freebsd.org/ 不知何故长期被中国电信封锁,不让国内人访问。其官方网站是英文的,基本上只有非常专业的技术人员(比如高级网管)才会访问,为什么FreeBSD这样的专业网站都会被封呢?我绞尽脑汁也想不出封他的理由,唯一的解释就是:中国电信对Free这个单词的恐惧已经到了歇斯底里的地步了。
  另外一个遭到封杀毒手的专业网站是SourceForge
  SourceForge 是全球最大的开放源代码软件开发平台和仓库。它集成了很多开放源代码应用程序,为软件开发提供了整套生命周期服务。SourceForge.net是开放源代码软件的开发者进行开发管理的集中式场所,也是源代码仓库。大量开源项目在此落户(2005年5月已经超过一百万),包括维基百科使用的MediaWiki,但也包含很多休眠和单个用户的项目。
  SourceForge虽然也是英文界面的专业网站,但这个庞大的开放源代码软件仓库也长期被中国电信封锁,封锁的原因据说是里面有一个名为FreeNet的代理服务器的源代码软件项目
  我知道,中国的软件业永远也赶不上发达国家,甚至赶不上印度,其中最主要的原因就是有一大批中国人在系统地残害和阻挠中国软件业的发展,他们热衷于购买国外的软件硬件产品(能捞到回扣?),而对民族软件业的发展百般阻挠,这些人是中国永远的耻辱,做为一个软件开发工程师,我们能够做到的就是牢记这段历史,知耻而后勇,中国软件业才会有希望。

2006年2月3日星期五

韩乔生语录大全

  体育播音员开山祖师“魔嘴”张之创造了一个时代,宋世雄则开创了一个计划经济时代,而韩乔生则开创了一个富有特色的时代——“语录时代”。“韩乔生语录”妙趣横生,许多精彩“语录”让人忍俊不住,甚而至于捧腹大笑。
  1. “...随着守门员一声哨响,比赛结束了...”
  2. “...各位观众,中秋节刚过,我给大家拜个晚年...”
  3. “现在由中国队守门员范志毅开任意球...”
  4. “队员在平时的训练中一定要加强体能和对抗性训练,这样才能适应比赛中的激烈程度,否则的话,就会像不倒翁一样一撞就倒...”
  5. “忽如一夜春风来,意甲流行三后卫...”
  6. “国外的球员都非常敬业,比如马特乌斯,小孩出生3个月后就上场比赛了。”
  7. “范志毅前几天还在发高烧,高烧36度8;守门员区楚良身高1米82,体重28公斤。”
  8. “中国队一脚射门,被区楚良奋勇扑出...”
  9. “在上周刚举行了一场别开婚面的生礼。”
  10.“可能有的观众刚刚打开电梯,我们再把比分...”
  11.“巴乔在前有追兵,后有堵截的情况下带球冲入禁区...”
  12.“水晶宫队已经赛了7场,2胜2平4负... ”
  13.“这球算进,门将进球无效...”
  14.“已经有很多俱乐部表示要购买皮耶罗,拉齐奥出价3000万美元,曼联出价更高,2800万美元。”
  15.“××队后卫严重犯规,裁判将前锋××罚下场。”
  16.(德甲)“现在场上火药味很浓,两队队员在场上你争我抢,两队的教练也在场下争风吃醋。
  17.“全兴队××号发角球,由寰岛队××号头球建功!”
  18.“每一寸草皮都在进行激烈的争夺... ”
  19.“佛罗伦萨队中场犯规,不,在禁区前罚球弧顶犯规,...”
  20.“AC米兰就像一台计算机,内存挺大,大到奔腾II代,可是运行不快,可能是感染病毒,看来主教练扎切罗尼需要一张杀毒的硬盘!!...”
  21.“因为李金羽的身高比对方队员矮,因此在拚抢的时候他的肘部碰到了对方的脸上。”
  22.“主教练将××队的裁判罚出场外...”
  23.“AC米兰队目前以1:3领先...”
  24.“把球一脚射进了大门...我们来看看慢动作.....哦...是用头顶进的”
  25.“只见防守队员一个队员两条腿,两个队员四条腿,三个队员八条腿....”
  26.“守门员将球回传给门将...”
  27.现在是陕西国力与×××的下半场比赛,场上比分还是0:0.这个球是小将常辉在上半场26分钟时攻进的。
  28.“18号传球,张效瑞跳起头球攻门,进球的是18号张效瑞!”
  29.“解围的队员本来是要将球踢出底线的,可是没想到这球有很大的旋转,居然出了端线...”
  30.“××球员30公里外一脚远射!”
  31.“……一个球迷跑到球场中央,踢翻了广告牌!”
  32.“只见××队的前锋象两把菜刀……”
  33.“好!前锋一脚大力抽射,皮球应声进入网窝!比分还是1:1平,在球飞进球门的一瞬间,裁判员的哨声响了,这球算进,没有越位,比分变成了2:0,××队领先一分。”
  35.“这球进了!姜还是老的辣,××队10号小将再立新功。”
  36.“球被守门员的后腿挡了一下!!!
  37.×××以迅雷不及掩耳盗铃之势……
  38.本轮过后,拉齐奥队以6胜3平1负积21分的不败战绩排在首位,尤文图斯以22分紧随其后。
  39.AC米兰的舍甫琴科以7个入球排在射手榜首位,克雷斯波,维埃里以6个入球并列第二。(此时画面翻页),巴蒂排在第四位,进6球。
  40.2000-2001赛季,德甲,异常响亮的一个嗝,满座皆惊。
  46.马尔代夫队今天超水平发挥了150%!
  47. 9号维阿一脚射门,守门员维阿把球扑了出来,好险啊!
  48. ××跟上一脚凌空抽射,球进了。这是他本赛季攻入的第13粒头球。
  49.这名队员的身高达到了1.90厘米
  50.一定要利用场地的宽度,多打身后,多打直传球。
  51.在比赛开始以前,韩乔生说:“今天来自演艺界的歌手门也来到西安为中国国家队----拉油加喊————”
  52.“守门员示意比赛继续进行...”
  53.“漂亮的反越位...哦,不是,没有成功...”
  54.“重庆队已经用完了三个换人名额...怎么重庆队还要换人?”
  55.“下半场换上23号以后作用很大...”是上半场换的啊,“23号能拿球,能传球...”
  56.世界田径锦标赛,韩乔生同志说“显示牌上显示的数字,是××(三级跳运动员)起跳点距踏板的距离,也就是说,他是在距离踏板15米处起跳.”(应为15cm)
  57.9月1日凌晨阿卡之站,下半场卡塔尔进球:“精彩的任意球直接破网,噢!中间好象还有一个明显的变线。”
  58.直播意甲,国际米兰,韩老师先捧了一会儿张路,哄的张路傻乐了半天,然后老韩就把嘴冲向维埃里,说维埃里是现在世界上身价最高的球员,顿了顿,口气特危言耸听的来了一句:“九万亿里拉!”(应为900亿)
  59.巴西队的后防线是清一色的巴西队员
  60.韩乔生同志说“下面看一看意甲排行(Xing)榜”
  61.上海申花队14号申花一脚抽射!
  62.2001年甲A直播,中场时播报沈阳队与另一个队的比分,可能导播把比分提示错了,韩大腕把笔往桌上一摔,吓了吴金祥一跳。
  63.“阿联酋的远射质量很高...阿联酋队加强远射,目的是造成中国队的门将杨璞脱手......”
  64.9月27日中国客场对阿联酋:守门员杨璞扑球脱手了.
  65.“中国队的守门员杨璞一个大脚把球开到前场,对不起,中国队的守门员是杨琦。”(安琦)
  66.9月27日中国客场对阿联酋:这是中国队上半场第一次射门…除了任意球射门之外.
  67.9月27日中国客场对阿联酋:卡塔尔换上十号,加强中前场的进攻
  68.9月27日中国客场对阿联酋:卡塔尔边路的突破很厉害
  69.9月27日中国客场对阿联酋:上半场到现在,阿联酋队的两次射门都打在门框外了。(屏幕下面英文的统计:2次射门,1次门框内),好在韩英文功底扎实,改过来了。
  70.9月27日中国客场对阿联酋:传给了3号杨晨(璞)…(杨晨已下场)
  71.守门员安琦参加了今年在墨西哥举办的世乒赛
  72.好、守门员安琪来了一个空中接月,将球稳稳地抱在手中。
  73.由于张恩华没有适应自已的新位置,经常找不到人,所以(后卫)范志毅和孙继海经常要直接面对对方的守门员。
  74.由于阿曼的攻势很猛,所以中国队千万要大意
  75.沈阳的天气很冷,所以阿曼队要有一个逐渐的不适应过程
  76.10月7号中国对阿曼:10号杨晨头球摆渡,于根伟和20号(也是杨晨)抢点
  77.赛前6个小时可以改上场球员名单,哦不,是赛前60分钟
  78.(在已经说了好几次阿曼教练的情况下)说阿曼的教练××尔,哦不,是贾巴尔
  79.郝海东经常在自己能够得分的情况下还给队员创造机会
  80.下面由孙继海掷界内球(界外,没有界内球这一说)
  81.值场主裁判示意要补时2分钟
  82..我们可以看到阿曼是一支业余球队,尽管有好几次射门机会,但准确性很…到目前为止,中国队还没有射门
  83.好球!范志毅一个‘前防’,抢在对方队员之前把球破坏了
  84.现在比赛已经进行到了伤停补时的第46分钟了
  85.这时候来自新加坡的主裁判麦丁吹响了上半场比赛结束的哨声(10分钟前还叫人家马丁呢)
  86.现在还有一个悬念,就是中国队进入十强赛后,在一场比赛中还没有上下半场都进球,要么上半场进球,要么下半场进球,而且在沈阳的两个主场比赛中,还没有在这一侧的球门进过球。我们倒要看看中国队能不能在今天打破这个悬念
  87.对方主教练十分活跃,在后场大举的排兵布阵。(他能怎么活跃?跳进场?)
  88.面对对方两个人四条腿儿,孙继海把球传了出去(事实情况是对方三个人防守
  89.孙继海好象有魔法似的,没有看到来球就把球断了下来...你说我后脑勺上没长眼睛,你凭什么把球传给我?
  90.“如果赢了这场球后,可以说目前中国队已经达到了巅疯状态了”
  91.“如果中国队今晚实现了出线,那么可以说米卢是世界上首位率领5支国家队杀入世界杯16强的教练...哦..是杀入决赛圈”
  92.杨璞已经被×××突破3次了,上半场1次,下半场1次...居然出了端线...“
  93.“和我一样的球迷现在已经是白发苍苍了”
  94.“今天沈阳的温度是11度,湿度是70%,热度是99%,呆会能达到100%”,“现在热度达到了200%”
  95.今天的传球准确率达到了90%
  96. 6号孙继海; 7号: ×××; 9号郝海东
  97.(转播NBA总决赛)今天转播的是×××与爵士犹他队的比赛
  98.双方球迷入场热身做准备活动,比赛马上就要开始。
  99.只见AC米兰的巴蒂斯图塔突破马尔蒂尼,一脚凌空抽射,被裁判扑了出来
  100.大家别看隆巴多是个秃顶,可是只有25岁,体力充沛……
  101.这是明波浩,噢?不是
  102.巴林的主场气氛一般,其周围的建筑不是很高,绝大多数都是一层以下的楼。
  103.自从特拉帕托尼执教佛罗伦萨教鞭后...
  104.“帕柳卡又一次化解了罗纳尔多极有威胁的射门。”(帕柳卡是国际米兰守门员、罗纳尔多是国际米兰队员)
  105.中国四员小将在欧洲……(范志毅已经30了)
  106.某场国家队的比赛,韩老师道:高峰和郝海东是中国队的两把菜刀(尖刀)
  107.记得1996年的奥运会,韩大嘴转播跳水比赛:“各位观众,现在站在跳台上的是英国裁判!”
  108.某场沙特队的比赛,韩老师道:场边带绿帽子的就是沙特队的主教练
  109.曼联主场3:3击败巴塞罗那
  110.尤文图斯向奥特加抛出了橄榄球
  111. (排球)“...二传手传了个地滚球...”
  112.国安队在上半时打高球“屡试不爽”,所以下半时可以尝试打打地面
  113.95年争夺奥运会足球出线权中国VS沙特,当时沙特队的多萨里在中国禁区内连过数人,韩大嘴在惊叹之余连声夸奖:“足球场上本没有路,他用自己的双腿为自己趟了出一条路!”
  114.连VS沪的时候,韩乔生说:“兰柯维奇一脚射门,虞伟亮把球扑出。”(都是申花球员)
  115.解说伊朗对泰国的比赛,换场地后,连两边谁是谁都分不清
  116.下面看两队的技术统计,两队的射门差不多...犯规倒是主队占优
  117.在第一集团的意大利选手是598号Giacomo Leone (应该是581号Stefano Baldini)
  作者:佚名 来源:网络

2006年2月1日星期三

电子邮件的故事:令人吃惊的预测

  在《意林》上看到这个故事,很惊叹。我感觉,只有聪明的人会在互联网上赚到钱。下面是故事的全文。
  有一天,乔治在删除垃圾电子邮件的时候,看到这样一个标题:令人吃惊的足总杯比赛预报。他好奇地点开了它,里边写着:
  亲爱的球迷,我们知道你是个怀疑论者,凡事不会轻易想念,可我们确定已经设计出了绝对准确的预报足球比赛结果的奇妙方法。今天下午,英国足总杯将进行和第三轮比赛,对垒的是考文垂队和谢菲欠德联队,我们预报考文垂队将会取得胜利。
  乔治看过后,轻蔑地一笑,没有当回事。晚上,他收看电视里的比赛结果,考文垂队果然势如破竹地赢了。
  三个星期后,乔治又收到了那个人的一封电子邮件:
  亲爱的球迷,你是否还记得,在上一轮足总杯比赛中,我们曾事先想念准确地预报了考文垂队获胜?今天考文垂队要和密德斯堡队交手了,我们的预测是密德斯堡队获胜。同时我们强烈地奉劝你不要和别人去赌输赢,但请你密切关注比赛结果,看看我们的预测结果是否准确。
  那天下午,双方打成1比1平局。考文垂队本来很强,却完全没有发挥出来。而在下个星期二加赛时,密德斯堡队却以2比0的比分胜出。这回乔治有点惊讶了。
  过了几天,那个人的电子邮件又来了,预测密德斯堡队将在第五轮比赛中失利,特伦密尔队将会打败它,结果果然如此。
  而在四分之一决赛之前,那封电子邮件又告诉乔治:特伦密尔队将老老实实地输给陶顿亨队。事实果然如此。
  四次预报,四次全部都说中了!
  接着,那个人在电子邮件中对乔治说:
  我们买断了一个数学家最新的研究成果。现在你大概相信,我们确实很有把握,能够料事如神。在半决赛中,阿森纳队将会打败伊普斯维奇队。
  乔治是个不服气的人,他通知了许多朋友,下午一起看球赛直播,并且计划在阿森纳输掉后,大肆羞辱那个信口开河的家伙。但是在落后的情况下,阿森纳队奋起直追,最后竟以2比1获得胜利。太不可思议了!
  第二天,那个不可思议的邮件又来了,这回它说:
  亲爱的球迷,你已经体验了我们神奇的足球预报,现在你信服了吧?我们已经做出了五次正确的预报,五发五中,你一定会同意它绝非运气,尤其是所有冷门我们都猜中了。现在我们和你做一笔特殊的交易:在一个月的时间内,我们向你提供比赛预报,你只需支付200英镑的定金。然后,发一封电子邮件,把参赛的两个队告诉我们,我们就会将预报结果通知你。
  我们殷切地盼望收到你的订单。
  200英镑的要价确实不低,但如果事先能知道哪一个队会嬴,就完全可以从彩票商的手中赢来20万英镑。
  当然,乔治也怀疑过,他们是暗地里操控球赛的财团,或者是黑社会,但是这一切都与乔治没关系,只要预报结果准确就行了。于是,他掏出了200英镑。
  事实上,这些人不过是一群骗子。里边或许会有几个数学家。
  一开始,他们向球迷发了8000封邮件,一半是预报甲队获胜,另一半是预报乙队获胜,于是就有4000人得到的预报是准确的,另一半人则会把它当一个笑话忘掉。
  下一次,他们只给得到“正确预报”的4000人发送邮件,一半是预报丙方获胜……以此类推,所谓的预测者总是给得到“正确预报”的一部分人发送新邮件,最后,剩下250人收到的预报便全部是正确的,他们当然会认为这个预报绝对灵验。其中假如有50人掏出200英镑来,对于骗局的策划者来说,就是一笔很可观的收入了。因为他们除了发送电子邮件外,不需要任何本钱。(文/罗勃.伊斯特威)

2006年1月30日星期一

Google开始提供免费网站统计功能

 周一在纳斯达克股票交易市场上,在其主要竞争对手Google宣布将免费提供网站使用情况追踪软件Google Analytics之后,WebSideStory公司股票在午后交易中急剧下跌2.1美元,跌幅为12%,至15.90美元。
  位于美国圣地亚哥的WebSideStory提供一种追踪并分析浏览网站用户的服务,Google Analytics,它的功能与WebSideStory提供的这种服务有点类似。
  分析人员说:“当你某天早上醒来,忽然发现你所出售的东西人家在免费提供……那么后果可想而知。”
  Google总是在给对手带来恶梦,目前世界上唯一可以和Google抗衡的恐怕就只有微软了。
  这项免费服务有简体中文版,我今天去申请了一个,Google会给出一段JavaScript代码,放在网站上后就可以进行统计了。统计不是实时的,需要12个小时后才能有结果,所以现在我还看不到其效果。
  就像其他产品一样,Google Analytics虽然会免费提供,但是对于没有Adword帐户的用户可以每月免费统计500万个页面。我于是使用自己的Adword帐户来申请Google Analytics,看看以后会是什么效果。
  放了Google Analytics的代码几个小时了,初步感觉,其会使得网站打开变慢,其分析的主机有时候不通,不知道什么原因。
  Google分析的主页是http://www.google.com/analytics,想申请的朋友可以通过这个链接访问。

2006年1月23日星期一

星星日志正式开通

星星日志正式开通.
此日志主要记录网站的新闻.