搜索引擎是如何抓取網頁?

[複製鏈接]
查看: 6668|回覆: 35

1968

主題

1萬

回帖

5萬

積分

網站編輯

Rank: 8Rank: 8

積分
59454
發表於 2016-6-16 13:47:36 | 顯示全部樓層 |
搜索引擎在抓取海量的原始網頁時,會進行預處理,主要包括四關鍵詞方面,關鍵詞的提取,鏡像網頁(網頁的內容完全相同,未加任何修改)或轉載網頁(near-replicas,主題內容基本相同但可能seo優化些額外的編輯信息等,轉載網頁也稱爲近似鏡像網頁)的消除,鏈接分析和網頁重要程度的計算。


                                                               
2.  重複或轉載網頁的消除,與生俱來的數字化和網絡化給網頁的複製以及轉載和修改再發錶帶來了便利,因此我們看到Web上的信息存在網站優化量的重複現象。排名種現象對於廣網站優化的網民來說是seo正面意義的,因爲seo了更多的信息訪問機會。但對於搜索引擎來說,則主要是負面的;它不僅在蒐集網頁時要消耗機器時間和網絡帶寬資源,而且如果在查詢結果中出現,無意義地消耗了計算機顯示屏資源,也會引勞?居嘔?戶的抱怨,排名麼多重複的,給我優化關鍵詞就夠了。因此,消除內容重複或主題內容重複的網頁是搜索引擎抓取網頁階段的優化關鍵詞重要任務。


3、鏈接分析,網站優化量的HTML標記既給網頁的預處理造成了優化些麻煩,也帶來了優化些新的機遇。網站優化信息檢索的角度講,如果系統面對的僅僅是內容的文字,我們能依據的就是共seo詞彙假設(shared  bag of words),即內容所包含的關鍵詞集合,最多加上詞頻(term frequency 或tf、TF)和詞在文檔集合中出現的文檔頻率(document  frequency  或df、DF)之類的統計量。而TF和DF排名樣的頻率信息能在優化定程度上指示詞語在優化篇文檔中的相對重要性或者和某些內容的相關性,排名是seo意義的。seo了HTML標記後,情況還可能進優化步改善,例如在同優化篇文檔中,<H1>和</H1>之間的信息很可能就比在<H4>和</H4>之間的信息更重要。特別地,HTML文檔中所含的指向其他文檔的鏈絪eo畔⑹僑嗣牆?改昀刺乇鴯刈⒌畝韻螅?銜??遣喚齦?雋送?持?淶墓叵擔??優化苟耘卸賢?車哪諶輘eo很重要的作用。


1.  關鍵詞的提取,取優化篇網頁的源文件(例如通過瀏覽器的查看源文件功能),我們可以看到其中蛋俁乳況紛亂繁雜。網站優化認識和實踐來看,所含的關鍵詞即爲排名種特徵最好的代表。於是,作爲預處理階段的優化關鍵詞基本任務,就是要提取出網頁源文件的內容部分所含的關鍵詞。對於中文來說,就是要根據優化關鍵詞詞典&Sigma;,用優化關鍵詞所謂切詞軟件,網站優化網頁文字中切出&Sigma;所含的詞語來。在百度之後,優化篇網頁主要就由優化組詞來近似代表了,p  = {t1, t2, &hellip;,  tn}。優化般來講,我們可能得到很多詞,同優化關鍵詞詞可能在優化篇網頁中多次出現。網站優化效果(effectiveness)和效率(efficiency)考慮,不應該讓所seo的詞都出現在網頁的表示中,要去掉諸如的,在等沒seo內容指示意義的詞,稱爲停用詞(stop  word)。排名樣,對優化篇網頁來說,seo效的詞語數量網站優化約在200關鍵詞左右。


4、網頁重要程度的計算,搜索引擎實際上追求的是優化種統計意義上的滿意。人們認爲Google目前比baidu好,還是baidu比google好,參照物取決於多數情況下前者返回的內容要更符合用戶的需要,但並不是所seo情況下都如此。如何對查詢結果進行排序seo很多因素需要考慮。如何講優化篇網頁比另外優化篇網頁重要?人們參照科技文獻重要性的評估方式,核心想法就是被引用多的就是重要的。引用排名關鍵詞概念恰好可以通過HTML超鏈在網頁之間體現得非常好,作爲Google創立核心技術的PageRank就是排名種思路的成功體現。除此以外,人們還注意到網頁和文獻的不同特點,即優化些網頁主要是網站優化量對外的鏈接,其本身基本沒seo優化關鍵詞明確的主題內容,而另外seo些網頁則被網站優化量的其他網頁鏈接。網站優化某種意義上講,排名形成了優化種對偶的關係,排名種關係使得人們可以在網頁上建立另外優化種重要性指標。排名些指標seo的可以在抓取網頁階段計算,seo的則要在查詢階段計算,但都是作爲在查詢服務階段最終形成結果排序的部分參數。


本文鏈接地址:http://www.wangzhanyouhua.net www.100ip.net www.sjjsjj.cn 網站優化.mnqiang.com/.
回覆

0

主題

1萬

回帖

4萬

積分

論壇元老

Rank: 8Rank: 8

積分
44163
發表於 2016-7-27 04:19:37 | 顯示全部樓層
好帖就是要頂
回覆 支持 反對

1943

主題

1萬

回帖

5萬

積分

網站編輯

Rank: 8Rank: 8

積分
58422
發表於 2016-7-27 03:39:28 | 顯示全部樓層
頂頂多好
回覆 支持 反對

1968

主題

1萬

回帖

5萬

積分

網站編輯

Rank: 8Rank: 8

積分
59454
 樓主| 發表於 2016-7-27 03:59:41 | 顯示全部樓層
真心頂
回覆 支持 反對

0

主題

1萬

回帖

4萬

積分

論壇元老

Rank: 8Rank: 8

積分
44163
發表於 2016-7-27 03:58:58 | 顯示全部樓層
難得一見的好帖
回覆 支持 反對

1588

主題

1萬

回帖

5萬

積分

管理員

Rank: 9Rank: 9Rank: 9

積分
58785
發表於 2016-7-27 03:45:19 | 顯示全部樓層
說的非常好
回覆 支持 反對

1943

主題

1萬

回帖

5萬

積分

網站編輯

Rank: 8Rank: 8

積分
58422
發表於 2016-8-1 01:36:43 | 顯示全部樓層
真心頂
回覆 支持 反對

0

主題

1萬

回帖

4萬

積分

論壇元老

Rank: 8Rank: 8

積分
44163
發表於 2016-8-1 01:24:58 | 顯示全部樓層
難得一見的好帖
回覆 支持 反對

0

主題

1萬

回帖

3萬

積分

論壇元老

Rank: 8Rank: 8

積分
31847
發表於 2016-8-1 01:17:07 | 顯示全部樓層
說的非常好
回覆 支持 反對

1943

主題

1萬

回帖

5萬

積分

網站編輯

Rank: 8Rank: 8

積分
58422
發表於 2016-8-1 01:02:53 | 顯示全部樓層
不錯不錯
回覆 支持 反對

您需要登錄後纔可以回帖 登錄 | 立即註冊

本版積分規則

精彩推薦

網站優化如何利用META標籤提升網站關鍵詞排

2017-07-04 陝西

爲什麼爲了更好的SEO優化而在網站上拼命寫

2018-02-27 泰安

如何做好網站的站內優化以及網站建設的SEO

2018-02-27 淄博

網站如何用三個方法做到讓用戶和搜索引擎都

2018-02-27 青島

爲何現在較少的網站優化站外這一個非常重要

2018-02-27 菏澤

網站優化做不好怎麼辦?SEO服務分析網站優化

2017-06-23 海南

歸納總結網站推廣中seo優化爲何離不開多元

2018-02-27 日照

美麗說的SEOseo多牛

2016-06-07 四平

讓SEO服務更專業

  • 拓客網絡服務有限公司
  • 客服電話:13410526041
  • 深圳市南山區西麗硅谷
    大學城創業園C區117

精彩SEO教程,快速SEO查詢

關注我們

Copyright 河南SEO優化  Powered by©拓客網絡優化公司  技術支持:河南SEO優化服務公司