
蜘蛛的爬行、頁面的收錄及排序都是自動(dòng)處理。網(wǎng)站目錄則是一套人工編輯的分類目錄,趙縣有實(shí)力做網(wǎng)站公司由編輯人員人工創(chuàng)建多個(gè)層次的分類,站長可以在不同分類里提交網(wǎng)站,目錄編輯在后臺(tái)審核所提交的網(wǎng)站,將網(wǎng)站放置于相應(yīng)的分類頁面。有的時(shí)候編輯也主動(dòng)收錄網(wǎng)站。做網(wǎng)站公司哪家好典型的網(wǎng)站目錄包括雅虎目錄、開放目錄、好123等。目錄并不是本書中所討論的SEO所關(guān)注的真正的搜索引擎。雖然網(wǎng)站目錄也常有一個(gè)搜索框,但目錄的數(shù)據(jù)來源是人工編輯得到的。

趙縣有實(shí)力做網(wǎng)站公司搜索引擎和目錄兩者各有優(yōu)劣。搜索引擎收錄的頁面數(shù)遠(yuǎn)遠(yuǎn)高于目錄能收錄的頁面數(shù)。但搜索引擎收錄的頁面質(zhì)量參差不齊,對(duì)網(wǎng)站內(nèi)容和關(guān)鍵詞提取的準(zhǔn)確性通常也沒有目錄高。限于人力,目錄能收錄的通常只是網(wǎng)蛄首頁,做網(wǎng)站公司哪家好而且規(guī)模十分有限,不過收錄的網(wǎng)站通常質(zhì)量比較高。像雅虎、開放目錄、好123這些大型目錄,收錄標(biāo)準(zhǔn)非常高。目錄收錄網(wǎng)站時(shí)存儲(chǔ)的頁面標(biāo)題、說明文字都是人工編輯的,比較準(zhǔn)確。搜索引擎數(shù)據(jù)更新快,而目錄中收錄的很多網(wǎng)站內(nèi)容十分陳1日,甚至網(wǎng)站可能已經(jīng)不再存在了。

趙縣有實(shí)力做網(wǎng)站公司同一篇文章經(jīng)常會(huì)重復(fù)出現(xiàn)在不同網(wǎng)站及同一個(gè)網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時(shí),如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗(yàn)就太差了,雖然都是內(nèi)容相關(guān)的。做網(wǎng)站公司哪家好搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識(shí)別和刪隙重復(fù)內(nèi)容,這個(gè)過程就稱為“去重”。去重的基本方法是對(duì)頁面特征關(guān)鍵詞計(jì)算指紋,也就是說從頁面主體內(nèi)容中選取Z有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率Z高的關(guān)鍵詞),然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。

有實(shí)力做網(wǎng)站公司位置(如頁面第一段文字等)。這樣,每一個(gè)頁面都可以記錄為一串關(guān)鍵詞集合,其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鏈詞形成詞表結(jié)構(gòu)存儲(chǔ)進(jìn)索引庫。做網(wǎng)站公司哪家好簡化的索引詞表形式簡化的索引詞表結(jié)構(gòu) 每個(gè)文件都對(duì)應(yīng)一個(gè)文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實(shí)際上在搜索引擎索引庫中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID。這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。

另外用戶輸入的查詢詞還可能包含一些高級(jí)搜索指令,如加號(hào)、減號(hào)等,搜索引擎都需要做出識(shí)別和相應(yīng)處理。有關(guān)高級(jí)搜索指令,后面還有詳細(xì)說明。有實(shí)力做網(wǎng)站公司寫錯(cuò)誤矯正。用戶如果輸入了明顯錯(cuò)誤的字或英文單詞拼錯(cuò),搜索引擎會(huì)提示用戶正確的用字或拼法,輸入的錯(cuò)拼、錯(cuò)字矯正,整合搜索觸發(fā)。某些搜索詞會(huì)觸發(fā)整合搜索,比如明星姓名就經(jīng)常觸發(fā)圖片和視頻內(nèi)容,做網(wǎng)站公司哪家好當(dāng)前的熱門話題又容易觸發(fā)資訊內(nèi)容。哪些詞觸發(fā)哪些整合搜索,也需要在搜索詞處理階段計(jì)算。

有實(shí)力做網(wǎng)站公司雖然搜索引擎在識(shí)別圖片及從Flash中提取文字內(nèi)容方面有些進(jìn)步,不過距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還很遠(yuǎn)。對(duì)圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容,詳細(xì)情況可以參考后面的整合搜索部分。做網(wǎng)站公司哪家好排名 經(jīng)過搜索引擎蜘蛛抓取頁面,索引程序計(jì)算得到倒排索引后,搜索引擎就準(zhǔn)備好可以隨時(shí)處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計(jì)算排名顯示給用戶,排名過程是與用戶直接互動(dòng)的。