2010年1月4日 星期一

透過代理伺服器做網頁內容分析?

http://bbs.orzkoo.com/viewthread.php?tid=22008

提供部落格與相簿服務的Pixnet,希望透過代理伺服器檢測封包的能力,和後端分析軟體合作,過濾使用者分享的內容。



Pixnet 是一個擁有90萬會員的相簿與部落格服務供應商,但是一直有一個問題困擾著他們,那就是使用者放在這些共享空間的內容,如果違法或是擁有一些敏感的關鍵 字,目前仍然難以控管。Pixnet創辦人暨技術長曾黃霖說:「每個月都必須收到很多來自法院和警方的使用者調閱需求,其實也是一種人力成本。」

半年前導入代理伺服器提升效能,進一步希望做到內容過濾
半年前,Pixnet導入了BlueCoat的ProxySG產品做為代理伺服器,以提升使用者在瀏覽網頁上的效能,結果十分良好,原本維護網頁效能的人力,也減少至1人。但這兩件看起來毫無關聯的事件,卻讓曾皇霖有了一個想法,是否能夠透過代理伺服器的功能,達到內容過濾的效果?

原 本Pixnet希望能夠直接在代理伺服器上達到這樣的功能,BlueCoat大中華區技術總監曾良駿表示,由於代理伺服器是使用者連上Pixnet前的網 路流量分流與快取設備,本身就具備有部分分析封包內容的能力,理論上,這是可行的。「但是代理伺服器的設計,並不針對使用者分享的內容做分析,所以這一點 我們必須找其他廠商合作,才能做到。」曾良駿說。

曾皇霖指出,Pixnet的需求是必須透過黑名單的方式,找出使用者分享內容中違法的關鍵字,如援交訊息等,從而自動將其阻擋或發出警告訊息。

曾良駿表示,現在正在和一家國內廠商合作,開發這樣的功能,但因為仍在開發中,暫時無法透漏廠商的姓名。未來的架構很有可能將會是把代理伺服器取得的封包資料,導向到提供內容分析軟體的伺服器上,由這家合作廠商的軟體做到內容分析的能力。

能否成功還未定,架構為代理伺服器撐效能、後端設備分析
過 去有此類需求的網頁服務供應商,往往必須透過類似Web應用防火牆(Web Application Firewall)中內容分析的能力做到,但因為內容分析相當耗費硬體資源,往往會使得網頁開啟的效能降低。而Pixnet目前正在開發的這個架構,則將 分為兩段,流量先透過Proxy過濾分析,找出新增的使用者分享內容,之後再將這些封包轉送給後端內容分析的伺服器,這樣一來就不需要處理全部的流量。

這個架構還有一個優點,就是整體建置的費用應該會遠比單純使用Web應用防火牆來得便宜。不過最重要的分析演算正在開發中,也使得Pixnet是否能夠成功部署這樣的架構,還是未定之天。如果成功,將能有效阻擋使用者的不當內容。

曾 皇霖指出,這樣的需求在Web 2.0的時代將會越來越高,當網頁的內容不易受到控制,提供服務的廠商將會面臨很多問題。「我們不求全面滴水不漏的抓到所有違法內容,但是只要這樣的架構 能夠成功阻擋多數的內容,就將會替我們省下很多檢視內容的人力。」曾皇霖說。文☉劉哲銘

沒有留言:

張貼留言

推到 Twitter!
推到 Plurk!
推到 Facebook!