Jake研究小組關注課題

出自集智百科
跳轉到: 導覽搜尋

本網頁提供了對於Jake研究小組多年積累的研究成果以及當前正在關注的研究問題一個縱覽,主要為Jake研究小組成員,以及即將加入的成員提供導航與幫助。

目錄

關注主題

網絡的空間嵌入

Attentionnetworkexampleindiana.png

複雜網絡是一種抽象建模複雜系統的強有力方法,它將任何一個系統簡化成了節點和連線。然而,當網絡的規模(通常是指節點的個數)大到一定程度以後,我們就無法用直觀的方式來了解這個網絡,取而代之的是計算一些網絡的指標。所以,將網絡嵌入到一個可視化的空間中,也就是給每個節點賦予一個坐標。近年來,人們發現了不少將網絡可視化的方法,它不但可以讓我們可以清晰地看出整個網絡的形態,而且還提供了很多好處,例如:

  • 如果我們選擇的空間合適,那麼空間的臨近性就能夠反映網絡本身的臨近性,這樣一些網絡上的動力學過程(例如信息的傳播)就可以在新的空間下獲得很好地表達,例如傳播的動力學過程就展示為一種空間中的擴散過程。
  • 每個節點的坐標可以看作是節點的抽象特徵,因此被嵌入的空間就是整個網絡每個節點的特徵空間。也就是說,我們可以用一組向量來編碼網絡中的聯繫。於是,我們可以將這些特徵向量輛輸入進神經網絡之中以完成分類或者預測。

近年來,隨着深度學習技術的火爆發展,使得發現事物隱含的特徵特別重要,深度學習在某種程度上來說也是一種表徵或者特徵學習。因此,尋找每個節點的向量表示就是一種特徵學習。近年來出現了幾種常用的方法。本組關注如下幾種方法:

DeepWalk

DeepWalk是從Word2Vec技術中發展出來的一種方法。其中Word2Vec是一種神經網絡算法,常常被用於自然語言處理,它的作用是根據上下文計算出每個單詞的特徵向量。而這個特徵向量的尋找完全是根據神經網絡訓練而成的。

DeepWalk算法則是通過在網絡上賦予一個隨機遊走的動力學,從而將這種隨機遊走轉化成了一個節點的序列。那麼,我們可以將節點比擬為單詞,將序列比擬為句子,於是便可以訓練Word2Vec模型,從而計算得到每個節點的嵌入坐標。

根據流距離嵌入

流網絡是本組長期關注的問題。流距離則是一種度量流網絡之中任意兩個節點之間距離的一種指標。那麼,我們可以根據這個流距離將所有的節點嵌入到一個空間中。它的原理是,我要讓每一對節點之間的歐氏距離能夠儘可能地等於這對節點之間的流距離。

詳情請見流距離的嵌入算法

兩種算法的比較

有趣的是,兩種算法得到的嵌入結果非常的相似。具體詳情請見Word2Vec與流網絡

嵌入到雙曲空間

在很多複雜網絡或者複雜系統中,層級性都是一個極其重要的概念。因此,我們在考慮將網絡嵌入到空間的時候,我們也可以將網絡的層級性考慮進去,這就要將雙曲空間的概念引進來。具體地,一個雙曲空間中的極徑方向可以表示層級,而極角則可以表示相似度。

複雜網絡的深度學習

Internet.gif

目前,隨着大數據的積累使得深度學習技術有了非常重大的突破。而這種機器學習技術主要面對圖像這種空間信息以及類似於人類語言的時間序列信息。

另一方面,複雜網絡是各式各樣的複雜系統的一種有力的抽象。而網絡這種數據明顯區分於圖像和時間序列,卻又介於圖像和時間序列之間。當我們用臨接矩陣表示網絡的時候,它就可以被看作一種二維的圖像;當我們用網絡上的隨機遊走序列描述網絡的時候,它就可以被看作一種時間序列數據。而無論是圖像還是時間序列,都無法對網絡進行簡潔而準確的描述。

因此,我們考慮的課題是,既然深度學習在圖像和時間序列數據上獲得了如此重大的突破,為什麼不能將這種技術應用到複雜網絡上呢?但是,我們知道的一個難點就是:我們無法套用現成的深度學習算法來對網絡進行學習,故而我們必須開發新的學習算法,以將深度學習技術應用到複雜網絡上。

進展

詳見複雜網絡分類器

前沿問題

複雜網絡的分類是一種比較簡單、直觀、實用性強的問題。如果我們將複雜網絡看作是各種複雜系統的表示,那麼我們可以用大量的數據訓練深度網絡,以便得到對不同網絡的分類器。從而通過網絡作為代理手段,我們便能對不同的複雜系統做分類。

參考文獻

  1. Niepert M, Ahmed M, Kutzkov K. Learning Convolutional Neural Networks for Graphs[J]. 2016.

國際貿易流網絡

Tradenetworkvegetable.PNG

如今的世界已經由於信息技術的發展形成了一個緊密連接的地球村,而國際貿易網絡為地球村的形成提供了巨大的推波助瀾的作用。聯合國、世界經合組織等機構長期以來收集了大量高質量、詳細的國籍貿易數據,這使得我們在這些數據的基礎上研究國籍貿易流的分配形態及其演化成為了可能。

本研究組從2012年以來就開始利用這組數據集研究國籍貿易網絡流。因此積累了一定的經驗。

聯合國的Comtrade數據集記錄了從1960年到現在所有年份的國際貿易數據,甚至包括每一種細分產品的數據。這就使得我們不僅能夠研究整個貿易網絡,而且可以研究細分的產品市場的情況。有關這套數據集的介紹,請參看國際貿易網

我們研究的問題主要包括:

產品多樣性

如果我們將國家出口產品看作一種國家這個經濟行為主體的一種投資,那麼一個有趣的問題就是國家將如何有效地分配他們的投資資源,從而決定應該出口什麼樣的產品。以及,隨着國家尺度的增長,它們出口的產品的多樣性會發生怎樣的變化。

對於第一個問題,我們發現運用最大化熵框架,可以給世界各國的貿易出口行為提供一個簡潔而統一的解釋;而對於第二個問題,我們發現了一種普適的國家GDP與出口產品多樣性之間的S形曲線。

參考文獻

網絡的層級性

我們可以分產品研究它們的貿易網絡特徵。我們發現,網絡的層級性實際上是與這種產品的生產工藝複雜度正相關的。具體的研究可以參看:

國際貿易網絡的演化

運用流網絡的技術研究國際貿易網的演化將能夠得到很多有意思的結果。包括各個國家的發展軌跡,整個世界經濟貿易生態系統等。

投入產出流網絡

投入產出網是描述了一個國家內部產業與產業之間經濟與技術聯繫的網絡,節點是產業,連邊是產業間的實物流,或者現金流,反映的是產業與產業間中間投入的關係。而投入產出網天生就可以轉化為一個開放流動網絡,並且其源、匯都有現實的經濟意義代表增加值和最終消費。

在OECD的數據官方網站上有各國每年的投入產出數據,所有產業被分為34個大類。利用該數據,構建出國家的投入產出流網絡後,我們主要關心以下幾個問題:

  1. 流距離與流量之間是否存在某種關係:實驗結果證明流距離比流量所包含的信息更多,主要是流距離還包含了投入產出網的一些拓撲性質。
  2. 如果體現國家投入產出網的結構:我們依託兩類特徵距離,從源距離和到匯距離刻畫了不同國家的投入產出網的結構,我們發現中美兩國投入產出結構有共同之處也有不同之處,並給與了相應的解釋。
  3. 如何刻畫某國某產業的演化規律:我們以中國房地產為例,探討了產業隨時間的演化,並給與了相應的現實事件做對應,發現我們的方法在一定程度上符合體現產業演化的規律。

具體結果及方法請參考 投入產出流網絡

集體注意力流

隨着人類進入信息時代,數據和信息的進一步泛濫反而促使了人類的注意力成為了一種稀缺。注意力經濟則是將注意力作為一種稀缺資源,研究它的分配和交換。然而,我們關注更多的則是從人機關係的視角來看,注意力資源起到了一種什麼樣的作用?答案是,注意力可以比擬為一種“能量流”,而計算機程序(網站、APP、應用等)則可以看作是競爭能量流的物種。有關這一觀點的詳細討論,請參看集智俱樂部的新書走近2050

走近2050

而另一方面,我們每個人在互聯網上的行為都已經被社交媒體大數據所記錄,這就使得我們可以獲得有關人類群體的注意力及其流動的數據。歷史上,惠普實驗室的Huberman研究組早在2009年就提出了Collective attention一詞來描述互聯網上大規模群體的注意力分配,並主張運用大數據方法來定量研究。

進一步,本研究組早在2013年就開始運用我們獨創的開放流網絡的方法研究集體注意力的流動

更多詳情請參看集體注意力詞條。


前沿問題

  • 概念空間與集體注意力:無論是知識圖譜還是概念地圖,它們都更關注知識之間的連接。而結合考慮了人類集體注意力之後,概念空間將變為一種動態的網絡,其中集體注意力流動不僅會沿着概念地圖流動,更可能塑造概念網絡。注意力與概念網絡之間的關係可以類比為水流和河道之間的關係。
  • 注意力流動與自然語言處理:由於人類的注意力在每一個時刻只能關注一個事物對象,因此,注意力在時間中的流動就構成了一個序列。與此類似,人類的語言也是一種符號的序列。因此,注意力流動與語言之間存在着深層次的聯繫。於是,可以將自然語言處理技術應用到集體注意力的研究之中。初步進展包括將流網絡中的流距離與深度學習中的Word2Vec技術作對比,參看Word2Vec與流網絡
  • 運用注意力流網絡預測社區發展:注意力流網絡可以從宏觀和聯繫的層面看到用戶流量在系統各個部分之間的分配和轉移。因此,如何運用機器學習的方法,運用注意力流網絡來預測一個社區或網站的未來發展成為了一非常有意義的問題。
  • 注意力流網絡的演化:河道可以引導水流的流動,水流反過來可以沖刷河道。我們關注集體注意力是如何沿着注意力網絡演化和發展的,以及如何塑造注意力網絡的。進一步,我們將嘗試通過當前時刻注意力網絡的狀態預測未來網絡的發展,例如什麼網站將可能成為黑馬,變得越來越重要?
  • 社會化推薦與注意力網絡之間的關係:當前的移動互聯網和社會媒體已經改變了人們的閱讀習慣,因此注意力轉移將會受到社會化推薦的重要影響。從模型的角度研究社會化推薦與注意力網絡之間的關係將是一個重要的理論問題。

主要參考資料

城市的形態與生長

Matchinggrowthspatialattractionlondon.png


2014年,人類已經有一半的人口居住到了城市,而城市化的進程將進一步快速增長。據稱,到了2050年,人類的城市化率將會達到70%。因此,研究城市的形態、生長與演化具有十分重要的意義。

本研究組關注的一個研究課題就是城市的建模以及利用大數據分析的方法研究城市。

城市生長模型

複雜性研究的一個巨大魅力就在於紛繁複雜的現象背後可能存在着極其簡單的規則。對於城市這樣複雜的系統來說,近年來的複雜性研究已經揭示出了包括Zipf律Gibrat定律異速生長律等定量化的、普適性極強的規律。甚至,人們也提出了各式各樣的可以解釋城市形態和生長的定量模型。

本研究組基於前人的研究提出了自己的城市生長模型。該模型基於一個非常簡單的假設:即人類進入城市定居後,需要相互連通在一起,從而使得人們可以便利地共享各種資源。除此之外,我們可以為城市道路,以及人們彼此之間的社會經濟交互制定簡單的規則,就可以創造出一個模型化的城市生長模型。該模型不僅可以解釋長期以來人們觀察到的各種異速生長律,還能夠定量化地給出人口、道路、GDP在空間分布的形態,並與實證數據高度吻合。有關,這一模型的詳細內容,請參看:匹配生長隨機幾何圖模型

參考文獻

基於大數據的城市研究

目前,基於大數據的方法研究城市問題也是目前科學界的一個主流研究方法。

本研究組做過的一個研究就是利用手機數據來度量人類的移動,並推測出路網的疏運效率,具體內容參見文章:

Lei Dong, Ruiqi Li,Jiang Zhang, Zengru Di: Population-weighted efficiency in transportation networks; Scientific Reports, 6: 26377

前沿問題

  • 城市生長模型的進一步探討:目前匹配生長隨機幾何圖模型已經在城市建模等方面取得了一定的進展,該模型可以給出城市的異速生長律、人口、交通路網、GDP等變量的空間分配情況。
  • 人類移動與自然語言處理:從本質上講,人類的移動行為和自然語言具有一定的相似性:它們都是一個抽象的符號序列。因此,將自然語言處理中的技術應用到人類移動行為上將會有比較有意思的結果。


基礎理論與方法

開放流網絡

開放流網絡示意圖

所謂的開放流網絡,是一種加權有向網,並且具有源和匯以表示環境。這種網絡是一種建模自然、社會中的開放流系統的一個有力理論工具,並且多年的積累使得我們形成了一套獨特的研究方法論。如上圖所示就是一個示意的流網絡。

有關這種網絡的進一步說明,請參看流網絡

流網絡的普適規律

通過分析積累的大量的流網絡數據,我們找到了屬於流網絡的普適性規律,包括流網絡的異速標度律流網絡的異速生長律流網絡的耗散律流網絡的引力定律等,以及包括流量的無標度分布。更多詳細內容請參看流網絡詞條

參考文獻

流距離與網絡嵌入

利用馬爾可夫鏈的性質,我們可以定義流網絡上任意兩點的平均流距離。這樣就可以為整個網絡賦予一種幾何結構。進一步,我們可以將整個網絡嵌入到一個歐氏空間中,就可以為每一個節點賦予一個向量。這樣,我們便可以直觀而清晰地看到每個節點的重要性程度以及它們的聚類。

具體的流距離概念,請參看流距離,以及根據流距離的流網絡嵌入

參考文獻

異速生長律

Life-pulse.gif

異速生長律(也叫異速標度律,Allometric scaling)是很多複雜系統,包括生命、城市、國家都具備的一種規律,它刻畫的是系統的宏觀變量(如新陳代謝)隨着系統規模(如生物體體重)生長而冪律生長的關係。有關異俗生長的詳細表述,請參看異速生長律

早期的異速生長起源於生物學。後來人們發現這套規律也適用於城市、網站等其它複雜系統。本研究組在異速生長方面的研究已經有很長時間的歷史。其中,主要分為了宏觀系統的異速生長,以及網絡,特別是流網絡的異速生長這兩部分。

宏觀系統的異速生長

我們將宏觀系統視為一個整體,研究系統兩個宏觀變量之間的冪律關係。主要從實證數據中找到這些冪律關係,並對冪律的指數進行系統化的分類研究。

例如,我們曾研究過國家的異速生長律,發現很多宏觀變量都與國家的GDP呈現穩定的冪律關係。

再比如說,對於網絡社區,用戶總產出的活動事件就與用戶數呈現超線性的冪律關係。

網絡的異速生長

另外一類研究就是針對某一個或者某一類網絡進行異速生長的研究。比如,我們花費了很大的精力研究流網絡的異速生長律問題,包括異俗標度律和異速生長律。


各個學生維護的頁面

請組內各位學生將自己維護的wiki頁面放到這裡:

用Levy Flight模型模擬在線社區中的用戶交互行為

請參看用Levy Flight模型模擬在線社區中的用戶交互行為

Word2Vec與流網絡

請參看Word2Vec與流網絡

服務器數據使用說明

請參看服務器公共數據

服務器使用說明

請參看服務器使用

複雜網絡分類器

請參看複雜網絡分類器

投入產出流網絡

請參看投入產出流網絡

相關wiki

個人工具
名字空間
動作
導覽
工具箱