搜索引擎如何運(yùn)作?
搜索引擎有三個(gè)主要功能:
抓取:在互聯(lián)網(wǎng)上搜索內(nèi)容,查看他們找到的每個(gè)網(wǎng)址的代碼/內(nèi)容。
索引:存儲(chǔ)和組織在爬網(wǎng)過(guò)程中找到的內(nèi)容。一旦頁(yè)面在索引中,它就會(huì)在運(yùn)行中顯示為相關(guān)查詢的結(jié)果。
排名:提供最能回答搜索者查詢的內(nèi)容,這意味著結(jié)果按最相關(guān)的順序排列。
什么是搜索引擎抓?。?/strong>
抓取是搜索引擎發(fā)送一組機(jī)器人(稱為爬蟲(chóng)或蜘蛛)以查找新的和更新的內(nèi)容的發(fā)現(xiàn)過(guò)程。內(nèi)容可能會(huì)有所不同 - 可能是網(wǎng)頁(yè),圖片,視頻,PDF等 - 但無(wú)論格式如何,內(nèi)容都是通過(guò)鏈接發(fā)現(xiàn)的。
那個(gè)詞是什么意思?
遇到本節(jié)中任何定義的問(wèn)題?我們的SEO詞匯表具有章節(jié)特定的定義,可幫助您保持最新速度。
Googlebot首先提取幾個(gè)網(wǎng)頁(yè),然后按照這些網(wǎng)頁(yè)上的鏈接查找新網(wǎng)址。通過(guò)沿著這條鏈路跳過(guò),爬蟲(chóng)能夠找到新的內(nèi)容并將其添加到名為Caffeine的索引中- 這是一個(gè)發(fā)現(xiàn)的URL的大型數(shù)據(jù)庫(kù) - 以便在搜索者查找該URL上的內(nèi)容的信息時(shí)進(jìn)行檢索。很好的匹配。
什么是搜索引擎索引?
搜索引擎處理并存儲(chǔ)他們?cè)谒饕姓业降男畔?,索引是他們發(fā)現(xiàn)并認(rèn)為足以為搜索者提供服務(wù)的所有內(nèi)容的龐大數(shù)據(jù)庫(kù)。
搜索引擎排名
當(dāng)某人執(zhí)行搜索時(shí),搜索引擎會(huì)在其索引中搜索高度相關(guān)的內(nèi)容,然后對(duì)該內(nèi)容進(jìn)行排序,以期解決搜索者的查詢問(wèn)題。搜索結(jié)果按相關(guān)性排序稱為排名。通常,您可以假設(shè)網(wǎng)站排名越高,搜索引擎認(rèn)為該網(wǎng)站對(duì)查詢的相關(guān)性就越高。
可以阻止部分或全部站點(diǎn)的搜索引擎抓取工具,或指示搜索引擎避免在索引中存儲(chǔ)某些頁(yè)面。雖然可能有理由這樣做,但如果您希望搜索者找到您的內(nèi)容,則必須首先確保爬蟲(chóng)可以訪問(wèn)它并且可以編制索引。否則,它就像看不見(jiàn)一樣好。
抓取:搜索引擎可以找到您的網(wǎng)頁(yè)嗎?
正如您剛剛了解到的那樣,確保您的網(wǎng)站被抓取并編入索引是顯示在SERP中的先決條件。如果您已經(jīng)擁有一個(gè)網(wǎng)站,那么最好先看看索引中有多少頁(yè)面。這將對(duì)Google是否正在抓取并查找您想要的所有頁(yè)面提供一些很好的見(jiàn)解,而不是您沒(méi)有。
檢查索引頁(yè)面的一種方法是“site:yourdomain.com”,一個(gè)高級(jí)搜索運(yùn)算符。前往Google并在搜索欄中輸入“site:yourdomain.com”。這將返回Google在其指定網(wǎng)站的索引中的結(jié)果:
Google顯示的結(jié)果數(shù)量(請(qǐng)參閱上面的“關(guān)于XX結(jié)果”)并不準(zhǔn)確,但它確實(shí)讓您清楚了解哪些網(wǎng)頁(yè)在您的網(wǎng)站上編制索引以及它們當(dāng)前如何顯示在搜索結(jié)果中。
要獲得更準(zhǔn)確的結(jié)果,請(qǐng)?jiān)贕oogle Search Console中監(jiān)控并使用“索引覆蓋率”報(bào)告。如果您當(dāng)前沒(méi)有,則可以注冊(cè)免費(fèi)的Google Search Console帳戶。使用此工具,您可以為您的網(wǎng)站提交站點(diǎn)地圖,并監(jiān)控實(shí)際添加到Google索引的已提交頁(yè)面的數(shù)量等。
如果您沒(méi)有在搜索結(jié)果中的任何位置顯示,則可能有以下幾種原因:
1.您的網(wǎng)站是全新的,尚未抓取。
2.您的網(wǎng)站未鏈接到任何外部網(wǎng)站。
3.您網(wǎng)站的導(dǎo)航使機(jī)器人難以有效地抓取它。
4.您的站點(diǎn)包含一些稱為爬蟲(chóng)指令的基本代碼,阻止搜索引擎。
5.您的網(wǎng)站因Google垃圾郵件策略而受到了處罰。
6.告訴搜索引擎如何抓取您的網(wǎng)站
如果您使用Google Search Console或“site:domain.com”高級(jí)搜索運(yùn)算符,并發(fā)現(xiàn)索引中缺少某些重要頁(yè)面和/或某些不重要的頁(yè)面被錯(cuò)誤編入索引,則可以進(jìn)行一些優(yōu)化實(shí)施以更好地指導(dǎo)Googlebot您希望如何抓取您的網(wǎng)絡(luò)內(nèi)容。告訴搜索引擎如何抓取您的網(wǎng)站可以讓您更好地控制索引中的內(nèi)容。
大多數(shù)人都會(huì)考慮確保Google能夠找到他們重要的頁(yè)面,但很容易忘記有可能是您不希望Googlebot查找的頁(yè)面。這些可能包括具有精簡(jiǎn)內(nèi)容的舊URL,重復(fù)的URL(例如電子商務(wù)的排序和過(guò)濾器參數(shù)),特殊促銷代碼頁(yè),登臺(tái)或測(cè)試頁(yè)等等。
要使Googlebot遠(yuǎn)離您網(wǎng)站的某些網(wǎng)頁(yè)和部分,請(qǐng)使用robots.txt。
robots.txt的
Robots.txt文件位于網(wǎng)站的根目錄(例如yourdomain.com/robots.txt)中,并建議您的網(wǎng)站搜索引擎應(yīng)該和不應(yīng)該抓取哪些部分,以及他們抓取您網(wǎng)站的速度,通過(guò)特定的robots.txt指令。
Googlebot如何處理robots.txt文件
1.如果Googlebot無(wú)法找到網(wǎng)站的robots.txt文件,則會(huì)繼續(xù)抓取該網(wǎng)站。
2.如果Googlebot找到某個(gè)網(wǎng)站的robots.txt文件,它通常會(huì)遵守這些建議并繼續(xù)抓取該網(wǎng)站。
3.如果Googlebot在嘗試訪問(wèn)網(wǎng)站的robots.txt文件時(shí)遇到錯(cuò)誤,但無(wú)法確定是否存在,則不會(huì)抓取該網(wǎng)站
優(yōu)化抓取預(yù)算!
抓取預(yù)算是Googlebot在離開(kāi)之前在您的網(wǎng)站上抓取的平均網(wǎng)址數(shù),因此抓取預(yù)算優(yōu)化可確保Googlebot不會(huì)浪費(fèi)時(shí)間瀏覽您不重要的網(wǎng)頁(yè),而忽略了您的重要網(wǎng)頁(yè)。抓取預(yù)算對(duì)于擁有數(shù)萬(wàn)個(gè)網(wǎng)址的超大型網(wǎng)站最為重要,但阻止抓取工具訪問(wèn)您絕對(duì)不關(guān)心的內(nèi)容絕不是一個(gè)壞主意。只需確保不阻止抓取工具訪問(wèn)您已添加其他指令的網(wǎng)頁(yè),例如規(guī)范或無(wú)索引標(biāo)記。如果Googlebot被阻止訪問(wèn)某個(gè)網(wǎng)頁(yè),則無(wú)法看到該網(wǎng)頁(yè)上的說(shuō)明。
并非所有網(wǎng)絡(luò)漫游器都遵循robots.txt。意圖不好的人(例如,電子郵件地址刮刀)會(huì)構(gòu)建不遵循此協(xié)議的機(jī)器人。實(shí)際上,一些不良演員使用robots.txt文件來(lái)查找您的私人內(nèi)容的位置。雖然從登錄和管理頁(yè)面等私有頁(yè)面阻止抓取工具似乎合乎邏輯,以便它們不會(huì)顯示在索引中,但將這些URL的位置放在可公開(kāi)訪問(wèn)的robots.txt文件中也意味著具有惡意意圖的人可以更容易地找到它們。NoIndex這些頁(yè)面更好,并將它們放在登錄表單后面,而不是將它們放在robots.txt文件中。