Google 搜索联盟

2006年4月7日星期五

百度-关于MP3搜索



 百度的MP3搜索隐藏着一个大多数人都没有注意到的秘密。
  众所周知,在国外法律健全的国家,一个网站如果搞MP3下载,肯定会因为版权纠纷而面临法律的制裁,最终不得不关闭这项服务。
  而在中国这样法律不健全的国家,每个人都知道MP3搜索肯定有很大流量,但做还是不做,对于一家网络企业来说可以有多种选择:
  1、Google的选择,无论美国和中国都不做MP3搜索,不做侵犯知识产权的事情。
  2、Yahoo的选择,在美国不做MP3搜索,但在中国的搜索引擎上做MP3搜索。
  3、百度的选择,宁可和国内唱片公司打官司也要做MP3搜索。
  根据ALEXA的统计显示,百度的MP3搜索流量巨大,成为仅次于常规网页搜索的第二大搜索,占其中流量的16%。因此也不难理解,百度宁可和国内唱片公司打官司也不能不做这种侵犯版权的搜索。
  然而,百度并非是完全肆无忌惮,它还是有所顾忌的,最主要的是害怕被国外的唱片公司指控。因为百度是在美国上市的,美资超过51%的企业,百度知道如果陷入这种法律纠纷会给自己带来什么后果,因此,百度就自作聪明地在MP3搜索上做了一个小伎俩,使得只有中国地用户才能正常使用百度的MP3搜索。
  为了证实这个说法,大家可以做一个简单的试验进行验证:
  先以正常方式在百度的MP3上搜索一首英文歌曲,比如Titanic(电影泰坦尼克号歌曲),则百度搜索出1,460个结果,如下图所示。



 然后在IE里设置一个国外的代理服务器,使得你的IP地址变成国外的IP地址,这时候再上百度搜索一下这首歌,你会发现搜索不到任何歌曲,如下图所示。

  由此我们可以得到一个结论,对于英文歌曲的MP3搜索,只有中国的IP才能进行,使用外国IP无法搜索,百度在对所有外国人进行“信息封锁”。
  当然,不可否认,这种明知故犯的侵犯知识产权的行为,在中国是比比皆是的,这也给中国的对外贸易和国际关系造成严重的不良影响,中美知识产权摩擦不断升级,中国每年约有70%左右的出口企业遭遇到国外技术型贸易壁垒的限制,在这些技术壁垒中,大多与知识产权有关。如果中国的企业不好好保护知识产权的话,美国很可能会采取各种制裁行动,包括阻止某些中国产品进入美国市场,或者向世贸组织提起诉讼。
  然而,百度做为一家知名的上市网络公司,不想着如何减轻政府的负担,却只顾自己赚钱,钻法律的空子,明知故犯地侵犯知识产权,专门给国家和政府制造麻烦,影响中国的国际形象,最终得到的结果是,以美国为首的西方国家每年都不断对中国知识产权保护不力进行指责,使得中国政府在经济和外交上处于一种非常被动的局面,中国企业在走向国际化的道路上也遇到很多不公平的待遇,这些都是我们不想看到的结果。

百度染指维基百科

  根据最新的消息,百度秘密开发的所谓“百度百科”已经基本成型,预计近期即可推出。这是百度又一次提高自身流量的尝试,但其手段极有可能是以侵犯知识产权为代价。
  维基(Wiki)是一种超文本系统,支持面向社群的协作式写作,所有用户均可以在Wiki上增加和修改条目,也可以把Wiki理解为网上的百科全书。
  目前全球最著名的Wiki是维基百科(Wikipedia),截至本月初,维基百科中文版条目数突破6万2千条, 英文条目数则超过100万条。
  不过Wiki在中国发展并不理想,从去年开始,维基百科就被有关部门封了,中国地区至今无法访问维基百科。
  在Wikipedia不能访问的情况下,国内也有一些Wiki的尝试,例如方东兴搞的维客中国,由于它是在维基百科被封的当天正式运营,并且内容大量剽窃维基百科的内容,因而引起维基社区人愤怒的指责和攻击,自觉理亏的维客中国也不得不在仅仅生存了十天的情况下黯然关闭。
  百度开发的百度百科系统其实也面临类似的问题,最主要的问题是条目的版权。
  维基百科全书非常注重版权,要求每一个条目都来自于书写者的原创。简单地说,就是因为维基是开放的,可修改,可复制,可公开,而抄袭的词条则会对原作者构成著作权的侵犯。这对习惯了已经在互联网上发表些有着强烈个人色彩的评论和转贴成性的中文网民一下子还真是很难适应,这些版权意识相对淡薄的国内浏览者和书写者,经常会无意识地侵犯他人的版权,如果百度再对此进行纵容,那么毫无质疑,百度百科将成为侵权和抄袭的天堂。
  百度对于知识产权的态度是怎么样的呢?答案很简单,百度最主要的流量来源-MP3搜索就是一个明显的侵犯知识产权的案例,百度不但不知悔改,反而厚着脸皮和国内的唱片公司打官司,很难想象百度会是知识产权的维护者。
  另外一个问题是条目的中立性原则,维基百科的中立观点政策指的,应该要把争论中各方面的声音都公平地表达出来,而不是在文章中指出或暗示任何一方的观点是正确的。简单讲就是中立的立场,中性的描述。所有文章都应该是“没有偏见”,或是写的时候要从一个“中立观点”出发。用“没有偏见”的文字就是要使那些文字不成为任何一个特定的观点的拥护者,反而我们要确保在争论中的各方的观点都能被公平地表达出来。
  举个例子,维基百科上关于“百度”的条目上,就有各方的观点,既有肯定百度的观点,也有列举百度恶行的观点,而在所谓的“百度百科”上,是否会允许这些指责百度的言论存在?如果一个公司连自身的中立性原则都无法保证,又怎么可能成为“中立原则”的维护者和执行者呢?
  最后一点,维基百科的写作门槛是很高的,这种写作门槛并不是指要求一个人的文笔要多么精彩,也不是要求一个人懂的知识要多么全面艰深,而是指进行词条写作的一些基本要求,保持中立、版权意识,绝对不能从哪儿顺手复制粘贴点什么,书写一个好的条目往往要求作者要有相当高的文字写作能力和文字表达能力,维基百科显然是属于精英们的表演舞台,而百度在中文互联网精英分子中的口碑一直不好,百度的忠实用户大多是低端用户,因此百度的这个Wiki会发展成什么样,是令人感兴趣的地方。
  当然,百度做这个也有一些优势:互联网入口网站的人群优势,社区服务的交流优势。而且百度做用户互动类产品(百度贴吧、百度知道之类)经验已经积累不少,对于这种开放型产品的运营,应该也有一些自己的观点和看法。到底百度百科会是一个什么样子,让我们拭目以待吧。
参考新闻:百度秘密研发百科 将引发第一解释权争夺?
  导语:
  百度公司可能于近期推出一个重量级的web2.0产品,能让任何人都可以对任何词条作出解释;此消息一经传出,便得到一些网站及专业论坛的纷纷转贴,网友们更是争先对其进行解释,并猜测其为百度的下一个秘密武器。而与此同时,关于开放词条的第一解释权话题也被放到台面。
  百度内部渠道透露
  百度公司即将推出的这项服务,初步命名为“百度百科”,是一种超文本系统,所有用户均可以在“百度百科”上增加和修改条目,也可以把“百度百科”理解为网上开放的百科全书。
  百度一位相关负责人透露,百度近日确在进行相关产品的内部测试。但该负责人并没有透漏该产品的正式发布时间,也没有具体说明该产品的属性。
  虽然正式上线时间没有得到百度公司的最终确认,但也有百度内部人士透露,“百度百科”进行内部测试已经有一段时间,预计百度公司会在4月中旬正式对外发布。
  “第一解释权”的所有权归属讨论
  与“百度知道”、“百度帖吧”产品发布之初的情形一样,业界对“百度百科”推出已经开始不同的观察和分析,对于这个将会是人类历史上的由最多人来编撰的百科全书,如果 “张凯歌”这一词条词汇的第一条注解人被胡哥捷足先登、“王洋”第一条注解人是锅德刚,将会产生怎样的结局?谁将成为这部词典的“第一解释权”的所有者?因为任何人都可以对任意词汇作出解释,所以第一条解释会对其后的解释影响巨大。但现在由于百度百科还没有正式推出,将会以什么样的方式处理排列同一词条的不同解释尚无法得知,相信这些都是一个有意思的讨论。除此,“百度百科”作为一个“开放的写作平台”,百度又如何减少垃圾信息,也是网友争论的问题。对此,有些网友表示担忧,认为这是一个“世界级难题”;但也有一些业界人士认为,百度在技术层面已相当成熟,并已经获得“百度知道”、“百度贴吧”等社区服务的经验,相信能够设计出针对垃圾信息的对策。
  而一位互联网专家的看法是,现在还很难预料,“百度百科”发布的意义;但可以肯定的是,作为这样一个平等、协作、分享的平台,对于用户来说,最大的意义无疑是他们可以参与编辑一个开放的百科全书,并为人类知识分享作出自己的贡献。而“百度百科”也将会真正体现一个新媒体的精神。
  新闻背景:百度可能本月底推出Wiki,意在提高用户粘性
  记者百度一下“百度百科”,某知名网络媒体以“百度可能本月底推出Wiki,意在提高用户粘性”为题,报道了百度公司即将推出“一种可以自由编写的社群协作式写作平台”服务的消息。该消息一经 刊发,便吸引了众多媒体及网民的关注。
  在新闻刊发不到半个月时间里,各大网站及论坛、Blog纷纷转贴该消息,其中包括业界比较有影响的iresearch论坛和donews社区等都有转载;通过百度搜索,更是可以获得多达470条转载记录。而在一些论坛中,有关百度即将推出“社群协作式写作平台”服务的帖子相继被广大网友置顶为热贴,一场关于“第一解释权”的争夺悄然兴起。

2006年3月15日星期三

博客世界的战争:垃圾博客和恶意评论

 随着博客这个概念在中国越来越热,博客目前也面临一个很艰难的挑战:垃圾博客、恶意评论的增多。这些负面影响如果没有得以很好处理的话,那么未来博客也会象目前的邮件一样,成为垃圾邮件的下一个替代品。
  垃圾博客:
  垃圾博客就是那些通过垃圾文件影响搜索引擎的博客。有时候它被用来影响网页的算法,这些网页控制和其他网页或网站的链接。在更多的普通网站中,这被称为“链接工厂”。垃圾博客的内容通常毫无意义,充满广告或者是从其他网站上扒来的文章,但都带有大量的链接,链至垃圾博客作者的网站——购物、贷款、色情、二手车……与你收到的垃圾邮件内容类似,目的是为了强奸读者的视听,达到产品宣传的目的。当然也有不同之处,这些垃圾博客还急切地想做另一件事:SEO,或者可以说成是迷奸Google,要提高他们站点的PageRank。
  恶意评论:
  现代博客系统允许评论和反馈成为其他用户和读者给文章简单添加想法和评论的方式。不幸的是,有些人却滥用了这种系统,在评论中恶意加入大量毫无意义的广告和链接地址。一些人甚至开发相应的工具,自动提交大量链接到博客的评论中。那些创造了垃圾博客和垃圾评论的人认为这会产生很多好处,通常通过建立这些系统获得额外的搜索引擎排名或者收入。
  其实,当业界达人把Blog称作是电子邮件、即时通讯、BBS之后的第四大交流沟通之时,垃圾博客已经有苗头了。这两年来,随着全世界劳动人民对垃圾邮件的抗议,微软、AOL等巨头联合司法机构,合力对垃圾邮件发送者进行了绞杀。于是,这些老鼠们纷纷寻找其他的突破口。Blog世界不可避免的受到影响。在垃圾博客之外,早先更让Blogger们感到头疼的,是那些已经成灾的垃圾留言、垃圾反向链接和垃圾Trackback。国内某知名Blogger曾在其Blog上痛骂一个家伙,这人很喜欢给各种Post后面留言,内容大抵都是“你的文章越来越精彩了”、“我很喜欢你的这篇文章”云云,然后就开始推销自己的网站。在相互间联系如此紧密的Blog世界,还披上虚伪的吹捧外衣玩家个把戏,让人不禁要猜测这家伙脑积水的水位。因为更多发垃圾留言的家伙,早就开始采用自动化软件工具了——一指定BSP或者WP、MT一类的Blog软件,它就能把垃圾留言一篇接一篇地往出贴。验证码是一个阻止垃圾的有效办法,但对正经人来说,用户体验无疑降低了。
  道高一尺,魔高一丈。我们还有什么办法呢?在国外,无数Blogger都开始为未来忧心忡忡:Blog会不会成为下一个垃圾场?很难说我们不愿看到的未来会不会真的来临。因为,即使是技术力量已经十分强大的Google,对于来自众人的抗议,也只是暂且删除了Blogspot上的13,000个二级域名,还有“努力防御自动注册Blog和发文的脚本”的承诺。而目前看来,垃圾博客这股污水,还正源源不断流向Blog的大海。
  现在,是到了深入思考和建立控制干涉系统的时候了,这样才能处理好这些问题。这个问题的解决也需要大量时间,因为垃圾博客会通过各种新方法产生来影响搜索引擎和网站运作。相信这场和垃圾博客的对抗将是一个长期而艰巨的战争。

2006年3月7日星期二

常用正则表达式

  正则表达式用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。


匹配中文字符的正则表达式: [\u4e00-\u9fa5]
评注:匹配中文还真是个头疼的事,有了这个表达式就好办了

匹配双字节字符(包括汉字在内):[^\x00-\xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)

匹配空白行的正则表达式:\n\s*\r
评注:可以用来删除空白行

匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?<.*? />
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式:^\s*\s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式

匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注:表单验证时很实用

匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求

匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注:表单验证时很实用

匹配国内电话号码:\d{3}-\d{8}\d{4}-\d{7}
评注:匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始

匹配中国邮政编码:[1-9]\d{5}(?!\d)
评注:中国邮政编码为6位数字

匹配身份证:\d{15}\d{18}
评注:中国的身份证为15位或18位

匹配ip地址:\d+\.\d+\.\d+\.\d+
评注:提取ip地址时有用

匹配特定数字:
^[1-9]\d*$    //匹配正整数
^-[1-9]\d*$   //匹配负整数
^-?[1-9]\d*$   //匹配整数
^[1-9]\d*0$  //匹配非负整数(正整数 + 0)
^-[1-9]\d*0$   //匹配非正整数(负整数 + 0)
^[1-9]\d*\.\d*0\.\d*[1-9]\d*$   //匹配正浮点数
^-([1-9]\d*\.\d*0\.\d*[1-9]\d*)$  //匹配负浮点数
^-?([1-9]\d*\.\d*0\.\d*[1-9]\d*0?\.0+0)$  //匹配浮点数
^[1-9]\d*\.\d*0\.\d*[1-9]\d*0?\.0+0$   //匹配非负浮点数(正浮点数 + 0)
^(-([1-9]\d*\.\d*0\.\d*[1-9]\d*))0?\.0+0$  //匹配非正浮点数(负浮点数 + 0)
评注:处理大量数据时有用,具体应用时注意修正

匹配特定字符串:
^[A-Za-z]+$  //匹配由26个英文字母组成的字符串
^[A-Z]+$  //匹配由26个英文字母的大写组成的字符串
^[a-z]+$  //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$  //匹配由数字和26个英文字母组成的字符串
^\w+$  //匹配由数字、26个英文字母或者下划线组成的字符串
评注:最基本也是最常用的一些表达式

原载地址:http://lifesinger.3322.org/myblog/?p=185

2006年3月6日星期一

国内十大荒诞禁令排行榜

  虽然这十大荒诞禁令看起来很好笑,但我却笑不出来,我所感到的是活在这个社会里是多么的悲哀。
  1、“严禁酒后驾驶机动车辆”:乍一看,这条禁令无可厚非,可它偏偏出现在山东潍坊市审计局为整顿行风出台的“三条禁令”之中,跟在其后的条款是“违者给予通报批评、警告;情节严重的,给予记过、限期调离或辞退、开除处分”,什么时候醉酒驾车这种违法行为改归审计局管了?即便是追加处罚,都属对同一责任人的重复处罚,于法无据 。
  2、“严禁用公款打麻将”:地球人都知道,挪用公款是什么样的行为,竟然需要用发放红头文件的形式来告知仅局限于打麻将的挪用公款是要受到惩处的,在这样的事件中我们完全看不到吏政的威严和有效性,看到的只是官场腐败的触目惊心的事实。
  3、“不按规定走路方式走路的要挨罚”:四川新出台了一项交通法规《行人十二种走路方式要挨罚》,听起来颇有点搞笑味道:如横过没有人行横道的机动车道时,不直行通过,或在车辆临近时突然加速横穿、中途倒退、折返;未实行交通管制的路段,在道路上通行每横列超过二人通通要罚。
  4、“腰围超过2尺7的在编民警将全部下岗”:打造一支身体各项指标都能达到优秀的警-察队伍,自然是好事,但考核的方法用量腰围未免有点太原始、太片面了,腰围粗壮的人闪展腾挪、灵活无比的人多了去了,洪金宝就是一个。
  5、“海关官员不得庇护走私”:海关官员的天职就是把好国门,打击走私只能说是他们份内的工作,庇护走私行为无疑是犯罪,自有国法来惩处,只是这样一句话堂而皇之地放在海关总署的五条禁令里,怎么看怎么别扭。
  6、“不准为男领导配女秘书”:四川省政府不允许男领导配备女秘书的理由是因为,女秘书容易和男领导发生生活作风问题,从而在工作上影响男领导,既而导致领导失职或腐败,祸国殃民。但很多网民不能认同这个理由。
  7、“报考女公务员,乳房要对称”:湖南省公务员录用体检标准竟抛出“女性要第二性征发育正常,乳房对称,无包块等方为合格”的条款,去年就有20%的笔试和面试都合格的考生因为达不到这个要求而被刷掉。
  8、“严禁无婚姻证明的男女混住在一起”:《江苏省暂住人口管理条例》曾经有过这么一则条款,但父女、母子、兄妹都属于这一范畴,他们也不能同住,简直荒唐可笑。后来取消该禁令的时候还好意思叫好。
  9、“不许哄抢游客,做彬彬有礼的猴子”:成都的龙池镇政府和龙池景区为猴子们制订了“礼貌山猴行为准则”:不许不礼貌,做到文明待客;不许哄抢游客,做到彬彬有礼;不许骚扰游客,尤其是女游客;要助人为乐等。
  10、“中小学教师严禁奸污猥亵女生”:这则条款出现在湖南省益阳市赫山区和资阳区两个教育局颁发的“教师准则”内,很难想象这种完全已触犯了刑律的行为条款,却很不严肃地上了教育系统的“禁令”之中,言外之意好象是女教师可以猥亵男生。
  作者:佚名 来源:网络

2006年3月1日星期三

英文技术网站全部解封了?

 今天上网,发现前一段时间电信封的几个国外英文技术网站全都可以正常访问了。
  包括PHPFreeBSDSourceForge三个重量级的技术网站目前我都可以访问正常,至于FreeBSD以前那夸张的关键字过滤方式也没有了,这令我感到很欣慰。
  我们的权利是由我们自己争取来的,如果这些事情我们谁都不说话,那么这些我们本应该拥有的权利会永远失去,所以我们要努力争取,就目前看,我们是正确的,我们争回了自己的权利。
  以后,如果大家发现自己有什么合法的网站上不去,那么如果是被封的话,一定要向电信申请解封,写一份申请解除封锁的材料,包含网站地址、IP、用途等等,向当地的电信局提交这份材料,如果属于误封的话,那么积极申请,相信很快会被有关部门解封的。
  下面是cnblog的同学总结的网站解封的经验,供参考。
  网站被封了怎么办?
  一旦网站被封,当然,严格来说,应该是发现某个网站突然无法访问。首先要做的是,了解是否是服务器或服务商方面出了问题;然后求证一下国内其他地方的朋友以及国外的朋友能否访问。如果都不能访问,那么很可能就是网站被封了。
  大多数的人到此或许就开始抱怨,然后逐渐不去使用这个网站了。
  但是,我所要说的,正是这以后的办法。
  首先,向你的ISP询问无法访问网站的原因。最好直接询问骨干网的网络中心(就是直接拥有国际出口的ISP)。例如,教育网的用户可以直接询问中国教育网网络中心。可以参考一下中国互联网络连接带宽图。ISP一般来说都是很热情的,他们会帮你查询这个网站是否被封锁(你有可能需要提供网站的IP地址)。如果证实被封锁,他会告诉你应该写一封申请解除封锁的材料,说明网站的性质和用途。
  说到这里,有几点需要注意:
  1. 申请解除网站的封锁状态,并不要求你是网站的拥有者或管理人员,只要你发现某个网站被封锁,而他们确实没有什么反动、××内容(这是出于人身安全和守法的原则),任何人都可以申请解除某个网站的封锁。
  2. 执行封锁的部门是什么,是不会告诉你的。(因为这是保密的),不外是被告知是公安部门或者安全部门。封锁是由这些部门直接在国际出口的路由上进行的,ISP很可能也不清楚,无权过问,也不可能由他们直接解除封锁。因此封锁的原因也是无从打听的。
  你的申请材料交给ISP以后,他们会帮你把材料转交给相关部门处理。按照工作程序,材料递交给相关部门后,将会在3个工作日内解除封锁。

2006年2月28日星期二

台湾在考验大陆

 台湾今天下午宣布,终止“国家统一委员会”运作,终止“国家统一纲领”适用。
  我个人感觉,这是台湾走向“台独”的第一步,在试探,也在冒险。这是一盘双方都难下的棋,大陆肯定不希望台湾这个时机走这步棋。
  当然,我等小民其实不必关心这些事情,也不必爱国,什么叫爱国其实我们也不懂。在外交问题上我们应该相信政府,目前我国正面临难得的战略机遇期,我们要抓住机遇,倍加珍惜安定团结的大好局面,维护社会稳定,努力做好我们的本职工作,就是最好的爱国表现。
  不过我也提醒一下,就连腐败无能、丧权辱国的清政府也是战败于日本之后才被迫割让的台湾。如果我们连仗都不打就丢掉了台湾,那就太说不过去了。