計算機的數學與特征權重處理

接著說特征權重的處理問題,無論se的多么復雜,其基礎都是一樣的,在抓取、分析、索引之后,進行預處理、進行排序等,其處理大量的數據都有一定的原則的:最高的性價比和機器自身的算法。在這里其結果處理就是計算機的數學。


計算機數學除了最復雜的向量算法,普通的或與非,還有最簡單的比較大小和加減計數。在考慮最終排名結果時候,一般會采用復雜的,因為這樣的效果是最好的,但不是最終結果時候更多采用簡單的算法。舉例來說,在特征權重處理時候最容易出現的是如果很多特征沒有出現怎么辦、有個權重值很大怎么辦、值異常如何處理、如何降低大量的復雜計算等,這估計也是搜索的一個主要的東西了。


首先說,一個值很大,最主要的處理是取對(連續性)和增加其他有效指標(離散型),第一個貌似還比較完美,第二個在實踐上就存在缺省值問題和指標選取問題等,而且也增加了計算的復雜度,因此可以想象蜘蛛一般會對重要的因素進行向量計算,而一般的則不會。

這里我覺得有一個折中的處理,比如外鏈,如果按照PR計算的方法,每個鏈接都是采用迭代算法,但由于鏈接特別復雜,谷歌在PR升級算法時候,特別強調了把一個網站作為整體,然后對首頁和內頁進行賦值,這樣把大量的網頁迭代變成了網站迭代,其他的頁面直接分配,大大降低了計算量。而在不久前谷歌再次算法升級,把同一個主域名的所有網站鏈接作為內鏈,why?其實是很明白了。


第二,除了數值很大的處理外,如何把特征值進行向量化是個大的問題。一般認為在特征值進行分類時候采用的是指紋技術,進行到二叉樹進行向量化。而特征值向量化和特征向量分類是有一定的淵源關系的,如果存在多維向量進行處理的話,其計算量也很大,該怎么通過簡單方式進行處理也是個大問題。


在詞項權重處理上,個人比較傾向于帶權計算的方式。不過,在詞項權重上問題也比較多的,比如詞性、微標簽處理、相關詞域、語義關系、粒度劃分等,都是需要大量計算的。


最后還有缺省值問題,如果se需要計算大量的因素來確定網站的排名,如果任何兩個網頁因素不一樣多時候就會出現很多問題,而且這是最普通存在的,以最簡單的例子,比如用戶一個有2個詞素構成的短語的時候,只有兩個網頁含有各自不同的一個,哪個應該排在前面?


這讓我想起一個人以前說seo排名一個重要的因素是誰在前面誰是重要的,比如“瀏覽器下載”中含有瀏覽器這個詞域更加重要是因為瀏覽器在前面,“下載”在后面,暈死的一個結論的。這個其實并不難,可以通過詞語分析來解決,如果有缺省值是比較解決的,但是一個比較復雜的,如果給兩個詞賦予一定的數值呢?如果是兩個負面因素該怎么判斷處理呢?


回到起點,搜索都是滿足一定的意義的搜索請求的,所以這里的含義是滿足一定的不追求完美,也要注意性價比,即使可以改善一定的效果如果代價大的話,搜索引擎也不會做的,這就是很多人說的人工有一定的關系了。


計算機數學是博大精深的,而復雜的事情都可以采用一定的策略在一定程度上完成,而在此之上的搜索引擎,萬變不離其宗,其實很多seo結論可以在計算上解決。

上一篇:SEO思維進化論3之TF-IDF算法
下一篇:李彥宏論搜索引擎三個定律

網友回應

說點什么吧
  • 全部評論(0
    還沒有評論,快來搶沙發吧!

歡迎掃描關注我們的微信公眾平臺!

歡迎掃描關注我們的微信公眾平臺!

福彩3d天齐网 钓鱼模拟世界怎么赚钱 什么虫子能赚钱软件 村官赚钱吗 英雄联盟达到王者可以赚钱吗 国标麻将单机 打电话卖商铺会赚钱吗 微信捕鱼达人技巧 南昌麻将一毛麻将群 共享平台怎么赚钱 神武3手游咋赚钱 易点彩票群 公务员业余时间打字赚钱 dnf哪个职业赚钱最快 金庸3加强怎么赚钱快 89国际彩票游戏 主播怎么利用粉丝来赚钱