资源预览内容
第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
亲,该文档总共6页全部预览完了,如果喜欢就下载吧!
资源描述
robots.txt 限制些什么屏蔽内容与安全性的考虑robots.txt 文件可以有效的屏蔽搜索引擎抓取我们不需要被抓取的页面和网站源文件,其中的好处是限制搜索引擎过多的抓取不必要的内容,减少搜索引擎蜘蛛进行不必要的网站爬寻分散,也是为了让我们的网站不必要的内容不在搜索引擎被收录,不让别 人搜索到。 其中什么样的文件会被限制抓取呢?一、是否通过 robots.txt 来屏蔽动态页 面,减少页面的重复抓取?其实个人建议普通网站不必要进行动态页 面的屏蔽,搜索引擎 一般会自动判断是否重复,普通网站内容并不是非常多,一般出现重复页面的可能性也比较低,如果是信息站和论坛 站等建议屏蔽动态页 面。二、robots.txt 屏蔽特殊页面,隐私内容的屏蔽。robots.txt 屏蔽特殊页面,网站隐私内容的屏蔽,其实对 于一个网站来说,隐私内容比较难实现 ,在无程序支持的前提下,这里说的隐私是指一些不想被流传到互联网的内容,屏蔽搜索 引擎蜘蛛避免在互联网被泛滥,如:网络培训班培训资 料。三、网站特殊文件夹屏蔽特殊文件夹一般是指,网站程序安装文件,动态 功能页面,多于的文件夹,后台功能等。robots.txt 文件的好处刚 才也说了,就是提供搜索引擎蜘蛛看的,告诉它哪些文件你不要看,不给你的,这是它的优点,但是 robots.txt 在告诉搜索引擎蜘蛛的同时,也在告诉其他人,这个网站的隐私,比如:网站后台文件夹地址,相信很多站长 都会在 robots.txt 上面填写,如:Disallow:/dede/ 从这里我们可以看错应该 是织梦程序,当然我们可以更改。网站屏蔽的安装文件地址,如:Disallow: /install/ 这一般是程序安装文件的地址,就算我们后台地址更改后一样能分析出是什么程序做出来的。屏蔽网站后台登录地址,如:Disallow: /login.asp 这样 就明显告诉有心人你的后台登录地址了。屏蔽网站隐私内容,如:Disallow: /123.html 也只是针对 搜索引擎,对人为我们还 是有风险 。上面说的几点都是出于安全性的考虑,那我们还 写不写robots.txt 呢?根据我个人的操作来说,robots.txt 还是要些的,毕竟优化很多时候离不开他,但是对于网站安全我们也要采取一些必要的措施与手段,那我们只能在程序的安全性上做手脚了,但要怎么做这手脚是程序员发挥 作用的时候了,比如会员功能等。其次,为了不告知他人我们的隐私,那么我们可以在 robots里用“*“来隐藏我们的文件名。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号