聚類分析的網(wǎng)絡論壇社團探測算法探究論文
1引言
網(wǎng)絡論壇(BBS)由于具有及時性、交互性、開放性等特點,因而也是網(wǎng)絡輿論產(chǎn)生、形成和發(fā)展的主要場所,整個網(wǎng)絡論壇的參與者呈現(xiàn)一種特性—社團結(jié)構(gòu),即整個網(wǎng)絡由若干個社團構(gòu)成,每個社團內(nèi)部的節(jié)點之間的連接相對緊密,各社團之間的連接相對稀疏.研究網(wǎng)絡論壇的社團結(jié)構(gòu),對了解BBS中網(wǎng)絡輿論的傳播特點具有現(xiàn)實意義.
網(wǎng)絡論壇中成員根據(jù)興趣或背景而形成真實的社會團體,網(wǎng)絡中的這些社區(qū)有助于更加有效地理解其成員結(jié)構(gòu)和分析網(wǎng)絡輿論傳播特性.目前對網(wǎng)絡社團結(jié)構(gòu)研究主要有兩類主要的方法—社會學中的分級聚類和計算機科學中的圖形分割方法.分級聚類是探測網(wǎng)絡社團的傳統(tǒng)方法,基于各個節(jié)點間連接的相似性或強度將網(wǎng)絡劃分成子群,并根據(jù)劃分時是往網(wǎng)絡中添加還是移除邊可分為凝聚算法和分裂算法,Girvan和Newman提出基于邊介數(shù)的分裂算法(簡稱GN算法);Kemighan—Lin算法和譜平分法則是較為出名的圖形分割算法,其中Kernighan—Lin算法根據(jù)使社團內(nèi)部及社團間的邊最優(yōu)化的原則對原始的網(wǎng)絡進行分類,譜平分法是根據(jù)網(wǎng)絡圖的Laplace矩陣進行向特征向量空間的譜映射.該文算法是譜平分法的一種改進算法,將模塊度函數(shù)與聚類分析算法結(jié)合進行社團結(jié)構(gòu)探測.
2試驗及結(jié)果
海峽四川釣友聯(lián)誼會是海峽釣魚網(wǎng)的一個子板塊,其中參與者大部分為四川本地釣魚愛好者,論壇成員具有共同的興趣愛好.該板塊為四川釣魚愛好者的學習與交流提供了一條新途徑.針對相關主題,論壇成員可以提出問題、發(fā)表各自的觀點和看法,相互交流,相互幫助.
實際數(shù)據(jù)處理時,根據(jù)對己掌握的id對應關系,對部分id進行了特別處理,例如將“清涼油”和“151”這2個id合并處理,將“被草壓死的駱駝”與“駱駝”,“黑武器”與“黑版”視為同一個id.
2. 1連接權(quán)矩陣的生成
該文從6000余名在該論壇中發(fā)言的成員中篩選出滿足各種閾值條件的`成員1436人,并生成對應的連接權(quán)矩陣.
2. 2對比試驗
為驗證算法的有效性,該文將該論壇數(shù)據(jù)分別運用K-Means算法,CNN算法以及該文的基于模擬退火的社團探測算法.其中,K -Means算法是常見的聚類算法,是基于距離聚類中心最近法則為標準對個體進行分類的;而CNN算法則采用競爭型神經(jīng)網(wǎng)絡模型,進行無監(jiān)督學習的分類.這里要注意的是,這里所有的算法程序都用matlab編寫.
這里運行次數(shù)為得到最優(yōu)解的平均運行次數(shù),時間為平均運行時間.
表2給出了應用C - based SA算法模塊度在0.36以上的聚類結(jié)果,k=3,4,5時模塊度較高.
圖1給出了k =5,降溫速率為0.997時的探測算法的迭代過程,迭代到2300次左右就己經(jīng)求出了最優(yōu)解.
2. 3結(jié)果分析
通過對實際數(shù)據(jù)運行3種不同的社團探測算法,結(jié)果表明:K-Means算法速度較快,但受初始化條件影響較大,可靠性也比其他兩種算法差,網(wǎng)絡規(guī)模擴大對算法性能影響較大;CNN算法對初始化條件依賴程度較K-Means算法較低,但運算速度較慢,并且對數(shù)據(jù)預處理需要花較長的時間;三種算法中,C-based SA算法不依賴初始化條件的選取,直接使用模塊度函數(shù)作為目標函數(shù)對網(wǎng)絡進行社團探測,能保證達到全局最優(yōu)解,可靠性較其他兩種算法要高,該算法的復雜度依賴于系統(tǒng)降溫速率的設置,其缺點是運行時間較長.
3結(jié)束語
提出了針對網(wǎng)絡論壇的社交網(wǎng)絡的構(gòu)建方法,將組合優(yōu)化的方法與聚類分析的思想相互結(jié)合并應用到網(wǎng)絡論壇社團結(jié)構(gòu)的求取上,并提出了用模擬退火算法來求解,解決了實際工作實踐中遇到的問題.試驗結(jié)果驗證了算法的準確性,模擬退火算法與聚類分析的思想能有效的結(jié)合起來,對論壇社團結(jié)構(gòu)進行分析有較大的實用價值.
試驗結(jié)果同時說明,基于興趣的網(wǎng)絡論壇中的社交網(wǎng)絡社團結(jié)構(gòu)不太明顯,值得注意的是,該文使用的是非重疊性的社團探測算法,考慮到實際網(wǎng)絡中,個體往往具有多群體特性,因此,改進社團結(jié)構(gòu)的定義以及在此基礎上探索新的社團劃分方法是一個值得研究的方向.
【聚類分析的網(wǎng)絡論壇社團探測算法探究論文】相關文章:
算法類論文開題報告11-11
應用文寫作網(wǎng)絡化教學探究論文07-27
《路史》的寫作特征探究論文07-29
績效工資的算法10-13
失業(yè)保險的算法06-10
小學語文寫作教學探究論文04-03
關于教師備課探究開題報告的論文07-24
年假加班工資的算法10-10
高中英語寫作教學探究的論文06-19