
有實(shí)力網(wǎng)站建設(shè)公司搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級(jí)別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r(shí)對(duì)這么多頁面分析相關(guān)性,計(jì)算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。網(wǎng)站建設(shè)公司多少錢因此抓取來的頁面必須經(jīng)過預(yù)處理,為Z后的查詢排名做好準(zhǔn)備。和爬行抓取一樣,預(yù)處理也是在后臺(tái)提前完成的,用戶搜索時(shí)感覺不到這個(gè)過程。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。

有實(shí)力網(wǎng)站建設(shè)公司位置(如頁面第一段文字等)。這樣,每一個(gè)頁面都可以記錄為一串關(guān)鍵詞集合,其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鏈詞形成詞表結(jié)構(gòu)存儲(chǔ)進(jìn)索引庫。網(wǎng)站建設(shè)公司多少錢簡化的索引詞表形式簡化的索引詞表結(jié)構(gòu) 每個(gè)文件都對(duì)應(yīng)一個(gè)文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實(shí)際上在搜索引擎索引庫中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID。這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。

有實(shí)力網(wǎng)站建設(shè)公司只有在深入了解搜索引擎蜘蛛爬行原理的基礎(chǔ)上,才能盡量使蜘蛛抓得快而全面。上面所舉的幾個(gè)例子,讀者看完搜索引擎原理簡介這一節(jié)后,會(huì)有更深入的認(rèn)識(shí)。搜索引擎與目錄,網(wǎng)站建設(shè)公司多少錢早期的網(wǎng)站優(yōu)化資料經(jīng)常把真正的搜索引擎與目錄放在一起討論,甚至把目錄也稱為搜索引擎的一種,這種講法并不準(zhǔn)確。真正的搜索引擎指的是由蜘蛛程序沿著鏈接爬行和抓取網(wǎng)上的大量頁面,存進(jìn)數(shù)據(jù)庫,經(jīng)過預(yù)處理,用戶在搜索框輸入關(guān)鍵詞后,搜索引擎排序程序從數(shù)據(jù)庫中挑選出符合搜索關(guān)鍵詞要求的頁面。

有實(shí)力網(wǎng)站建設(shè)公司站長通過搜索引擎網(wǎng)頁提交表格提交進(jìn)來的網(wǎng)址。蜘蛛按重要性從待訪問地址庫中提取URL,訪問并抓取頁面,然后把這個(gè)URL從待訪問地址庫中刪除,放進(jìn)己訪問地址庫中。大部分主流搜索引擎都提供一個(gè)表格,讓站長提交網(wǎng)址。網(wǎng)站建設(shè)公司多少錢不過這些提交來的網(wǎng)址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的??梢哉f提交頁面基本上是毫無用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁面。

指令處理。有實(shí)力網(wǎng)站建設(shè)公司查詢詞完成分詞后,搜索引擎的默認(rèn)處理方式是在關(guān)鍵詞之間使用“與”邏輯。也就是說用戶搜索“減肥方法”時(shí),程序分詞為“減肥”和“方法”兩個(gè)詞,搜索引擎排序時(shí)默認(rèn)認(rèn)為,用戶尋找的是既包含“減肥”,網(wǎng)站建設(shè)公司多少錢也包含“方法”的頁面。只包含“減肥”不包含“方法”,或者只包含“方法”不包含“減肥”的頁面,被認(rèn)為是不符合搜索條件的。當(dāng)然,這只是極為簡化的為了說明原理的說法,實(shí)際上我們還是會(huì)看到只包含一部分關(guān)鍵詞的搜索結(jié)果。

用戶搜索“歷史”、“分類”這些關(guān)鍵詞時(shí)僅僅因?yàn)轫撁嫔嫌羞@些詞出現(xiàn)而返回博客帖子是毫無意義的,完全不相關(guān)。有實(shí)力網(wǎng)站建設(shè)公司所以這些區(qū)塊都屬于噪聲,對(duì)頁面主題只能起到分散作用。搜索引擎需要識(shí)別并消除這些噪聲,排名時(shí)不使用噪聲內(nèi)容。網(wǎng)站建設(shè)公司多少錢消噪的基本方法是根據(jù)HTML標(biāo)簽對(duì)頁面分塊,區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對(duì)頁面進(jìn)行消噪后,剩下的才是頁面主體內(nèi)容。