WordPress自从2.1版本开始,在“隐私设置”(Privacy)选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。
其实robots.txt的用法有很多(robots.txt带来的好处),最近看了一些文章说,在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,这篇文章说,通过将comment feeds与Trackbacks排除在外,他的网站访问量上升了11.3%。
通过我的Google Analytics来看,访问这里的人有2/3的是新访者,而这些新访者中又有2/3来自于搜索引擎,所以对于搜索引擎的优化还是很重要的。综合了上面2个例子,我把自己的robots.txt内容设置如下:
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback/
Disallow: /?s=
Disallow: /page/
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.ibeijie.cn/sitemap.xml
# END XML-SITEMAP-PLUGIN
意思就是:允许所有的搜索引擎的机器人(Spider)访问本站,但是不能爬行以wp-开头的文件和目录,不能爬行/feed/、/comments/feed/、/trackback/和/page/目录。
为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):
Disallow: /page/ #限制抓取Wordpress分页
Disallow: /category/*/page/* #限制抓取分类的分页
Disallow: /tag/ #限制抓取标签页面
Disallow: */trackback/ #限制抓取Trackback内容
Disallow: /category/* #限制抓取所有分类列表
修改后可以使用Google网站管理员工具 - 诊断 - robots.txt 分析测试一下。-来源


为什么feed也不让爬呢?
谢谢提供,参考了一下。
robots.txt我也应该好好设置一下了
@卢松松 得请你帮忙看看我网站上的几个问题……
我的收录不正常 就是因为收录了我大量的tag页面
我得把tag disallow
我的前几天已搞好了。呵呵!
翔子来看你了 北街兄弟~
北街兄弟!支持!
怎样子收录会更有效呢。
应该这样做,有总比没有强啊