爬行和索引是seo的兩個(gè)專業(yè)術(shù)語,當(dāng)很多新手接觸seo的時(shí)候,他們會將這兩個(gè)詞混合使用,認(rèn)為爬行就是索引。今天筆者就和大家仔細(xì)講述一些爬行好索引之間的區(qū)別是什么?
1、爬行
當(dāng)搜索引擎蜘蛛在站點(diǎn)中發(fā)生爬行時(shí),站點(diǎn)中有一個(gè)并且只有唯一一個(gè)url被抓取,搜索引擎可以從其他網(wǎng)頁的鏈接跟蹤爬行到這個(gè)站點(diǎn)中,所以對爬行的認(rèn)識就是搜索引擎按照鏈接對站點(diǎn)特定的url進(jìn)行抓取。
可能上面的概念比較抽象,我們舉例簡單說明,比如說,在很多時(shí)候蜘蛛在爬行站點(diǎn)的時(shí)候,站點(diǎn)中的有些鏈接就不能被抓取,比如:
(1)鏈接編碼是Javascript,因?yàn)檫@被稱為“蜘蛛陷阱”,爬行站點(diǎn)的時(shí)候,蜘蛛會自動屏蔽爬行這些鏈接。
(2)鏈接被標(biāo)記為robots.txt的 “禁止指令。
(3)孤立的鏈接(沒有人掛的情況下的sitemaps.xml,包括如鏈接)
(4)鏈接所在的頁面是一個(gè)包含鏈nofollow指令的頁面
(5)本來是要抓取的鏈接,但是因?yàn)榉⻊?wù)器不穩(wěn)定的原因無法進(jìn)行抓取。
2、索引
索引和爬行最大的區(qū)別就是,索引不是一個(gè)特定的url被抓取,而是頁面中的很多歌url,簡單的說就是當(dāng)搜索引擎確定好要索引哪個(gè)頁面之后,它就會這個(gè)頁面中的所有url進(jìn)行處理和抓取,在抓取的過程中,蜘蛛會根據(jù)頁面的內(nèi)容進(jìn)行適當(dāng)?shù)奶幚,舉一個(gè)簡單的例子,在有的頁面內(nèi)容中雖然存在一個(gè)url但這個(gè)url已經(jīng)加上了NOINDEX指令,那么搜索引擎是不會抓取這個(gè)頁面的。
站點(diǎn)頁面處于非索引狀態(tài)的原因:
(1)在頁面中含有NOINDEX指令()
(2)重復(fù)的內(nèi)容:具有相同內(nèi)容頁面可能無法被索引。
(3)其他原因:鏈接的年齡和鏈接流行
如果新手想知道站點(diǎn)中的哪些頁面已經(jīng)被索引了,那么可以通過“site+網(wǎng)站域名”的方式檢索,通過這樣的方式,搜索引擎將會顯示有多少個(gè)頁面已經(jīng)被蜘蛛所引并且是哪些頁面。
爬行和索引雖然表示的都是蜘蛛抓取站點(diǎn),但他們所包含的方向是不一樣的,這里筆者建議注意區(qū)分開。
本文原創(chuàng)http://www.jiaodahaiwai.net 網(wǎng)站,首發(fā)A5網(wǎng)站,轉(zhuǎn)載請保留有效的鏈接地址,謝謝!