虛擬主機(jī)被搜索引擎爬蟲(chóng)訪問(wèn)耗費(fèi)大量流量解決方法
日期:2016/8/3 / 人氣:
問(wèn)題場(chǎng)景:客戶(hù)使用虛擬主機(jī),網(wǎng)站被搜索引擎爬蟲(chóng)訪問(wèn)耗費(fèi)大量流量和帶寬,如何處理
解決方法:可以通過(guò)在站點(diǎn)根目錄下創(chuàng)建Robots.txt,Robots.txt文件是網(wǎng)站的一個(gè)文件,搜索引擎蜘蛛抓取網(wǎng)站首先就是抓取這個(gè)文件,根據(jù)里面的內(nèi)容來(lái)決定對(duì)網(wǎng)站文件訪問(wèn)的范圍。它能夠保護(hù)我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑。
1、首先,先了解一下目前搜索引擎和其對(duì)應(yīng)的User-Agent,如下:
搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp
2、Robots.txt樣例代碼:
例1. 禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分
User-agent: *
Disallow: /
例2. 允許所有的搜索引擎訪問(wèn)網(wǎng)站的任何部分
User-agent: *
Disallow:
例3. 僅禁止Baiduspider訪問(wèn)您的網(wǎng)站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問(wèn)您的網(wǎng)站
User-agent: Baiduspider
Disallow:
例5. 禁止spider訪問(wèn)特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事項(xiàng):1)三個(gè)目錄要分別寫(xiě)。
2)請(qǐng)注意最后要帶斜杠。
3)帶斜杠與不帶斜杠的區(qū)別。
例6. 允許訪問(wèn)特定目錄中的部分url
實(shí)現(xiàn)a目錄下只有b.htm允許訪問(wèn)
User-agent: *
Allow: /a/b.htm
Disallow: /a/
作者:朋友圈科技
相關(guān)內(nèi)容 Related
- 為什么響應(yīng)式設(shè)計(jì)需要媒體查詢(xún)2016/8/5
- 虛擬主機(jī)被搜索引擎爬蟲(chóng)訪問(wèn)耗費(fèi)大量流量解決方法2016/8/3
- 網(wǎng)站建設(shè)中如何創(chuàng)建完美的顏色組合2016/8/1
- 什么是長(zhǎng)尾關(guān)鍵詞?2016/8/1
- 建設(shè)企業(yè)或個(gè)人網(wǎng)站的好處2016/7/8
- 前端開(kāi)發(fā)者需要知道的常識(shí)2016/7/6
- 12種方法為您拓展業(yè)務(wù)通道2016/7/27
- SEO優(yōu)化的三大技巧2016/7/24
- 10的方法來(lái)提高你的網(wǎng)站設(shè)計(jì)2016/7/24
- 網(wǎng)站統(tǒng)計(jì)用哪個(gè)比較好,百度?cnzz?2016/7/21