Google 搜索联盟

2010年8月14日星期六

新浪博客屏蔽搜索引擎

来源:月光微博客


根据新浪博客的robots文件( blog.sina.com.cn/robots.txt )来看,新浪博客已经屏蔽了所有搜索引擎的抓取。

一个依靠流量换取广告的门户主动禁止从搜索引擎过来流量,显然很不正常,这种非常规的做法,目前的解释只能是,新浪想防止有关部门通过搜索引擎来监控新浪博客的内容。

四大门户博客中,目前搜狐博客也在 robots 中屏蔽了搜索引擎的访问。

#####################################################
# SINA BLOG 禁止搜索引擎收录配置文件
# 文件: ~/robots.txt
# 编写: 阿狼
# 日期: 2005-03-24
#####################################################

#开放百度的搜索引擎的User-Agent代码,*表示所有###########
User-agent: Baiduspider

#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/

#限制的搜索引擎的User-Agent代码,*表示所有###########
User-agent: *

#临时限制对所有目录的禁止抓取
Disallow: /

#限制不能搜索的目录,Disallow: 为空时开放所有目录####
##Disallow: /admin/
##Disallow: /include/
##Disallow: /html/
##Disallow: /queue/
##Disallow: /config/

#开放搜索的目录有####################################
# /
# /advice/
# /help/
# /lm/
# /main/
# /myblog/

#搜索引擎User-Agent代码对照表########################
# 搜索引擎 User-Agent代码
# AltaVista Scooter
# Infoseek Infoseek
# Hotbot Slurp
# AOL Search Slurp
# Excite ArchitextSpider
# Google Googlebot
# Goto Slurp
# Lycos Lycos
# MSN MSNBOT
# Netscape Googlebot
# NorthernLight Gulliver
# WebCrawler ArchitextSpider
# Iwon Slurp
# Fast Fast
# DirectHit Grabber
# Yahoo Web Pages Googlebot
# Looksmart Web Pages Slurp
# Baiduspider Baidu
只允许了百度Baiduspider抓取网页。

2010年8月12日星期四

百度CEO:我们也不喜欢审查

作者:席佳琳  来源:金融时报

席佳琳报道
到目前为止,百度(Baidu)一直是个不露面的坏小子:在其竞争对手谷歌(Google)拒绝遵从审查要求之后,这家中国最大搜索引擎的市场份额有所上升。

但百度希望人们喜欢它。昨日,百度创始人兼首席执行官李彦宏(Robin Li)与记者举行了见面会活动,随后从北京远程敲响了纳斯达克市场的开市钟。

李彦宏表示,审查制度对百度也没有好处。

他表示:"这对百度来说不是一个优势,因为我们不得不屏蔽某些东西。它没有给予我们更好的用户体验。"

尽管拒绝量化表达中国政府自我审查要求所导致的额外成本,但李彦宏抱怨称,有时他不得不亲自处理审查问题。

这种罕见的坦率表现出了李彦宏的自信:他乐于露面,明白百度发展顺利。上月,百度报告称,第二季度公司净利润增长118%。

但百度摆脱不了自我审查搜索引擎的名声——而对于未来可能出现的任何表明百度受到政府偏袒的证据,批评人士都会津津乐道。