当前位置:首页>WordPress教程>SEO技巧:防止搜索引擎抓取静态资源CDN域名下的网页

SEO技巧:防止搜索引擎抓取静态资源CDN域名下的网页

今天百度了一下,发现百度竟然收录了的CDN域名,这可是SEO大忌。因为同样的内容出现两个或多个域名,会被判罚的。基本上所有的搜索引擎都会将多个域名指向同一个页面的结果判定为镜像,被判断为镜像的域名会被降权。

很多用户都会采用CDN,而且CDN域名的回源与主站是一致的,如果开启了静态,就算用不是设置的站点地址(域名)访问,也是可以访问被缓存了的页面的。因为静态缓存后,前端是不执行PHP的,而是会直接输出HTML。没有开启静态缓存的站点,才会跳转到设置的站点地址。

SEO技巧:防止搜索引擎抓取静态资源CDN域名下的网页
CDN域名被百度收录

如上图,可以看到的CDN域名被百度收录了。

禁止CDN域名中的非静态资源被搜索引擎抓取

创建robots2.txt文件

用记事本创建一个robots2.txt,加入以下内容,然后上传到网站根目录。

User-agent: *
Allow: /
Allow: /*.*
Allow: /*.jpg*
Allow: /*.*
Allow: /*.gif*
Allow: /*.bmp*
Allow: /*.ico*
Allow: /*.js*
Allow: /*.css*
Allow: /wp-content/
Disallow: /

通过robots协议,禁止搜索引擎抓取除了.js、.css或图片之外的所有内容。因为是静态资源的CDN域名,所以静态资源还是需要开放抓取的,否则会影响正常收录。

Nginx重定向robots.txt

当然不能够将主域名的robots.txt改成上面那样,那所有页面都不被搜索引擎抓取了。可以利用Nginx的条件判断,指定将robots.txt重定向到robots2.txt的域名。

if ($http_host !~ "^www.zhanzhangb.com$") {
	rewrite /robots.txt /robots2.txt last; 
}

以上就是将非www.zhanzhangb.com的域名下的robots.txt重定向到robots2.txt。

if ($http_host ~ "^cdn.zhanzhangb.com$") {
	rewrite /robots.txt /robots2.txt last;
}

以上是将cdn.zhanzhangb.com的域名下的robots.txt重定向到robots2.txt。

Apache重定向robots.txt

RewriteEngine On
RewriteCond %{HTTP_HOST} !^www.zhanzhangb.com [NC]
RewriteRule robots.txt robots2.txt [L]

设置完成后,用CDN域名访问一下robots.txt看看是否成功,千万不要将域名对应的robots.txt弄错了,否则会造成重大SEO损失。

原文地址:https://www.zhanzhangb.com/827.html

WordPress教程

WordPress建站流程(五)SEO优化

2024-1-24 3:16:29

WordPress教程

WP Rocket 优化教程 – Wordpress终极加速

2024-1-24 3:16:32

个人中心
今日签到
有新私信 私信列表
搜索