SEO思維進化論3之TF-IDF算法

我已經在博客說了學seo研究算法是愚蠢的行為,但是很多人仍舊來問se的算法問題,其中最多的就是問TF-IDF算法,為了能夠讓大家加深對這個的問題的認知,我因此就深度解析下這個算法的一些問題。

第一點,TF-idf是什么?

TF和IDF是兩個不同的概念,tf通過一個文檔內詞項的重復次數來表示這個詞項在所有詞項中的重要度,而另一個idf則是一個詞在所有文檔中出現次數表示這個詞項的重要程度,出現的越多也就是常用詞,由于主題性不強重復越多重要度越低。TF-IDF是一種統計方法,

用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。

這個百科的解釋加上我自己的描述,不知道大家是否很清楚了?總之TF-IDF是通過一定統計意義來表示詞項的重要度的。seo為何很關注他呢,因為他可能影響檢索詞和搜索詞的相關性,進而影響排名。

第二點,TF-IDF算法是解決什么的,能起到多大的作用?

其實我們既然研究了這個算法,就不能不去了解這個算法是解決什么的,其實我剛才也說了,它主要解決的就是一個文檔中詞項權重的問題(很多人都知道這個算法影響排名,卻不知道這個算法為何能影響排名的)。那么我們可以再問下,影響詞項權重的因素有多少呢?目測大約也就5、6個吧(但是我們都知道幾個呢?),TF-IDF在詞項中占據什么地位呢?重要度或許可以排在第三位、第四位的樣子(也不是最主要的因素嘛)。而且我一直說的,如果你真的要研究算法,就不僅要研究算法是什么,也要考慮下算法的特征和算法特征的處理,因為他們都影響最終的結果,比如這個TF-IDF的算法。

第三點,TF-IDF的算法特征是什么

這是人們很少關注的一點,算法的特征和算法特征的處理之所以重要,是因為凡是算法都會控制因素的影響,或者說進行平滑性處理。這個也不例外,很多人沒有注意到這個影響,或者對這個有了過激的思想,那么就會對很多的seo細節耿耿于懷,卻不得其解。想學會這點,我覺得那個谷歌的黑板報很多講算法的時候都說到了,很多實際應用模型和理論模型大多都有一定的差距,這就是現實。

第四點,TF-IDF算法再向上,問題的來源是什么,處于檢索的什么地位?

其實,我一直推薦的是跳出算法禁錮,放在更長遠的看待這個問題,比如TF-IDF要解決的問題的根源是什么,這個問題可以在檢索原理中處于什么樣的一個地位,會不會隨著時間而改變……。只要你向上思考,慢慢更多的seo浮出來,那個神馬的TF-IDF也可以慢慢地放棄了。

第五點,算法之外

TF-IDF是用來研究詞項權重的,早期用來進行相關性判斷,但是也并不一定一成不變的,比如BM25算法在很多方面都比他更加具有優勢。但是隨著檢索技術的進步,比如語義分析等技術的發展,這個算法也會被漸漸限制了起作用的范圍和影響力。這也不能不說研究算法的悲劇。而且,我一直說的是,我們完全可以跳出這個范疇,從問題本身出發去思考問題,或者更深層的站在檢索的角度觀察這個問題的意義,觀察解決這個問題可行性,觀察結果和我們所想的差距……嘎嘎,不能再深入……

PS:我最近一直四處飄,也在發力學些新東西,所以時間不是很充裕,你所看到的博客我幾乎都是有所想法的時候,花費了大約30多分鐘一氣呵成的,難免有很多瑕疵,萬勿見怪。我會繼續更新seo思維進化論系列,里面雖然沒有講技術,但是我覺得還是有些東西值得seoer去思考下的,下面我也打算寫一些seo入門的東西,希望能給一些新人有些幫助。我所做的一切,最主要的目的還是希望大家能冷靜地看待seo,慢慢地回歸正途。

上一篇:SEO算法:SEO的貝葉斯算法與偽命題
下一篇:計算機的數學與特征權重處理

網友回應

說點什么吧
  • 全部評論(0
    還沒有評論,快來搶沙發吧!

歡迎掃描關注我們的微信公眾平臺!

歡迎掃描關注我們的微信公眾平臺!

福彩3d天齐网