2020-07-09 關(guān)鍵詞:SEO優(yōu)化中的爬行、抓取、索引、收錄 謝謝網(wǎng)絡(luò)大揭秘? 3327
爬行指的是搜索引擎蜘蛛從已知頁(yè)面上解析出鏈接指向的URL,然后沿著鏈接發(fā)現(xiàn)新頁(yè)面(也就是鏈接指向的URL)的過(guò)程。當(dāng)然,蜘蛛并不是發(fā)現(xiàn)新URL馬上就爬過(guò)去抓取新頁(yè)面,而是把發(fā)現(xiàn)的URL存放到待抓地址庫(kù)中,蜘蛛按照一定順序從地址庫(kù)中提取要抓取的URL。
抓取是什么?抓取是搜索引擎蜘蛛從待抓地址庫(kù)中提取要抓的URL,訪問(wèn)這個(gè)URL,把讀取的HTML代碼存入數(shù)據(jù)庫(kù)。蜘蛛的抓取就是像瀏覽器一樣打開(kāi)這個(gè)頁(yè)面,和用戶瀏覽器訪問(wèn)一樣,也會(huì)在服務(wù)器原始日志中留下記錄。
索引是什么?索引指的是將一個(gè)URL的信息進(jìn)行整理,存入數(shù)據(jù)庫(kù),也就是索引庫(kù),用戶搜索時(shí),搜索引擎從索引庫(kù)中提取URL信息并排序展現(xiàn)出來(lái)。索引的英文是index。索引庫(kù)是用于搜索的,所以被索引的URL是可以被用戶搜索到的,沒(méi)有被索引的URL用戶在搜索結(jié)果中是看不到的。
要注意的是,所謂“一個(gè)URL的信息“,并不限于蜘蛛從URL上抓取來(lái)的內(nèi)容,還有來(lái)自其它來(lái)源的信息,如外部鏈接、鏈接的錨文字等。有的時(shí)候,索引庫(kù)中關(guān)于這個(gè)URL的的信息,根本沒(méi)有從這個(gè)URL抓取來(lái)的內(nèi)容,但搜索引擎知道這個(gè)URL的存在,并且有一些其它信息。
抓取和索引不是一回事。
收錄是什么?我個(gè)人覺(jué)得收錄和索引沒(méi)有區(qū)別。只不過(guò)收錄是從搜索用戶角度看的,搜索時(shí)能找到這個(gè)URL,就是這個(gè)URL被收錄了。從搜索引擎角度看,URL被收錄了,也就是這個(gè)URL的信息在索引庫(kù)中存在。英文并沒(méi)有收錄這個(gè)詞,和索引用的是同一個(gè)詞index。
noindex的作用是什么?頁(yè)面頭信息中放上meta noindex標(biāo)簽是告訴搜索引擎不要索引這個(gè)URL,也就是用戶搜索時(shí)找不到這個(gè)URL的信息,這個(gè)URL不會(huì)返回在搜索結(jié)果列表中。
noindex不是告訴搜索引擎不要抓取這個(gè)URL,實(shí)際上,noindex要起作用,這個(gè)URL是必須先被抓取的,不然搜索引擎怎么看到頁(yè)面HTML代碼中有noindex標(biāo)簽?zāi)兀?
robots文件的作用是什么?robots文件是告訴搜索引擎,某些URL不要抓取。注意,這里說(shuō)的是不要抓取,沒(méi)說(shuō)不要索引。和noindex是正相反的。
nofollow的作用是什么?給鏈接加上nofollow屬性是告訴搜索引擎,不要沿著這個(gè)鏈接爬行,就當(dāng)這個(gè)鏈接不存在。注意,nofollow只是告訴蜘蛛不要爬這個(gè)鏈接,沒(méi)有說(shuō)不要抓取鏈接指向的URL,也沒(méi)有說(shuō)不要索引鏈接指向的URL,nofollow既沒(méi)禁止抓取,也沒(méi)禁止索引。
概念說(shuō)過(guò)后,指出幾個(gè)SEO們經(jīng)常弄不明白的情況:
沒(méi)有被抓取的頁(yè)面是可以被索引的,蜘蛛沒(méi)有訪問(wèn)和抓取這個(gè)頁(yè)面(比如被robots文件禁止抓?。?,這個(gè)頁(yè)面卻有信息存在索引庫(kù)中,用戶搜索時(shí)還能看到。180 1557 7818
基礎(chǔ)型網(wǎng)站建設(shè)營(yíng)銷(xiāo)型網(wǎng)站設(shè)計(jì)品牌型網(wǎng)站建設(shè)高端定制網(wǎng)站設(shè)計(jì)定制系統(tǒng)開(kāi)發(fā)
細(xì)致入微的前期服務(wù)
精準(zhǔn)的策劃服務(wù)
精湛的網(wǎng)頁(yè)設(shè)計(jì)
穩(wěn)定 可靠 極速的域名和服務(wù)器
任何問(wèn)題,24小時(shí)回復(fù)并處理
版權(quán)所有:蘇州謝謝網(wǎng)絡(luò)傳媒有限公司 蘇ICP備11087090號(hào)