為了更好地避免出現(xiàn)多次重復(fù)爬行和獲取網(wǎng)站地址,搜索引擎會創(chuàng)建一個地址庫,記錄查詢早已被看到、但都還沒獲取的網(wǎng)頁頁面,和早已被獲取的網(wǎng)頁頁面。搜索引擎蜘蛛在網(wǎng)頁頁面上看到鏈接后并不是立刻就去瀏覽,而是將URL存進地址庫,隨后統(tǒng)一安排獲取。
1.人工錄入的種子網(wǎng)站。
2.搜索引擎蜘蛛獲取網(wǎng)頁頁面后,從HTML中剖析出新的鏈接URL,與地址庫中的數(shù)據(jù)開展比照,如果是地址庫中沒有的網(wǎng)站地址,就存進待瀏覽地址庫。
3.網(wǎng)站站長通過搜索引擎網(wǎng)頁提交表格提交進來的網(wǎng)站地址。
4.網(wǎng)站站長通過XML網(wǎng)站sitemap地圖、站長平臺提交的網(wǎng)站地址。
搜索引擎蜘蛛按重要性從待瀏覽地址庫中提取URL,瀏覽并獲取網(wǎng)頁頁面,隨后把這個URL從待瀏覽地址庫中刪除,放進已瀏覽地址庫中。
絕大多數(shù)主流搜索引擎都提供一個表格,讓網(wǎng)站站長提交網(wǎng)址。不過這些提交來的網(wǎng)站地址都只是存進地址庫而已,能否收錄還要看網(wǎng)頁頁面重要性如何。搜索引擎所收錄的絕大部分網(wǎng)頁頁面是搜索引擎蜘蛛自己追蹤鏈接得到的。
淮南網(wǎng)站優(yōu)化可以說提交網(wǎng)頁頁面作用幾乎為零,搜索引擎更喜歡自己沿著鏈接看到新頁面。