2018年集智腾讯计算社会科学研读营

来自集智百科
跳转到: 导航搜索

目录

主题:文化与社会的几何学

“文化与社会的几何学”研读营是由集智俱乐部主办,腾讯研究院资助的系列活动的第一期。我们计划将于2018年12月举行的为期5天的前沿文献研读、讨论的活动,主题范围涵盖:复杂网络、社会学,文化,与机器学习。其目的是为了从这些前沿科学领域获得新的研究灵感以及促进集智科学家成员之间的彼此互动、交流,从而孕育全新的科研思想。

大目标

希望通过此研读营,重新认识文化,社会,与计算之间共同之处。

具体目标

1. 梳理学科脉络,特别是发掘社会学,文化社会学,社会网络分析等领域中的值得借鉴的文献,思想,和研究思路。巧妇难为无米之炊,这里我们希望实现的是为跨学科讨论提供源水,提供土壤。

2. 深入讨论最新的关于神经网络方面的文献,特别是文献与背景中列举的几篇。希望能够找到一到两个具体且有想象力的问题。(比如用神经网络和word2vec重新认识文本中的性别歧视;用神经网络发掘社会网络中潜在的结构)


3. 将想法在代码中实现。

理念与思路

本期研读营并不是:1)知识讲座;2)学术会议;3)空对空的论坛。研读营并不旨在拓展营员的知识,技能,和研究思路,也非个人成果展。入营之前,每位营员需要对神经网络和复杂网络有相当程度的认识和理解。我们建议每位营员都能大概的了解背景与文献中的文章。

1. 本期研读营中,我们建议每位核心成员在入营之前,围绕主题思考出一到两个研究命题, 并需要在开营的一二天内分别做讲座。讲座需要简要的文献综述,但讲座主题一定要有新意,有想象力,大胆提问。(但也忌讳问题过大,找不到切入点,如“社会即是一台计算机”)。研读营时间短,我们争取不做cumulative science。另,讲座的内容不需要与营员之前的研究经历相关,且最好能跳出之前研究的限制。

2. 所有营员需要对讲座内容进行讨论,补充,和建设性地评判,并给出具体的下一步建议。

3. 我们强烈提倡和鼓励营员之间的合作,沟通,分享代码。我们希望每位核心营员都持开放的态度,能与任何人合作,也能接受不一样的声音。如果对某个研究命题感兴趣,鼓励结对/组队,一起讨论研究计划,所需的代码结构,做简要的文献综述,并能和其他营员分享讨论。

文献与背景

将相关文献列于此。

人文与社会科学背景

社会网络

文化社会学

texts as data

McPherson, M., Smith-Lovin, L., & Cook, J. M. (2001). Birds of a feather: Homophily in social networks. Annual review of sociology, 27(1), 415-444.

技术与自然科学背景

神经网络入门

Pytorch Word2vec Tutorial: https://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html

Network Embeding
  • 双曲嵌入

Nickel, M., & Kiela, D. (2017). Poincaré embeddings for learning hierarchical representations. In Advances in neural information processing systems (pp. 6338-6347). 代码 https://github.com/facebookresearch/poincare-embeddings

  • 图注意力网络

Velickovic, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2017). Graph attention networks. arXiv preprint arXiv:1710.10903. 代码 https://github.com/PetarV-/GAT 主页 http://petar-v.com/GAT/

  • NodeVec

Grover, A., & Leskovec, J. (2016, August). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855-864). ACM.

Uprising Scholars

Maximilian Nickel: Geometric representation learning https://mnick.github.io/

Douwe Kiela: Geometric representation learning https://douwekiela.github.io/

Adriana Romero: Graph attention network https://sites.google.com/site/adriromsor/home

Petar Veličković: Graph attention network https://www.cl.cam.ac.uk/~pv273/

THOMAS KIPF: GRAPH CONVOLUTIONAL NETWORKS https://tkipf.github.io/

拟邀请人员

拟邀请的主要人员,每个人需要提供简历


  • 吴令飞,芝加哥大学计算中心知识实验室博士后,集智俱乐部核心成员、集智科学家,社会科学背景但自我定位成物理学家。研究兴趣:注意力动力学和知识生产(Attention dynamics and knowledge production)。目前在研究的项目是科学家的跨学科注意力流动。
  • 王成军,南京大学新闻传播学院助理研究员,集智俱乐部集核成员,集智科学家,集智俱乐部南京读书会成员、奥美数据科学实验室主任、计算传播学实验中心成员、香港城市大学互联网挖掘实验室成员,对复杂性科学和可计算方法(如机器学习)感兴趣,现在的研究主要集中于采用网络科学方法分析计算社会科学的研究问题,例如,采用重整化方法分析手机用户的注意力网络和移动网络。

研究方向1:Team Algebra (吴令飞)

How Teams Think: The Collective Nature of Intelligence

1. Life in society: success, innovation, creativity, and intelligence

In this part, we will join two lines of research, 1) Karl Pearson->Sandy Pentland->Barabasi: the history of measuring individual IQ, group IQ, and success; 2) David Hume - > Immanuel Kant -> Émile Durkheim -> Robert K. Merton: the prior structure of knowledge (also called "categories", including time, space, causality..) and the social nature of this structure. Also, we will talk about how to unpack the social process underlying variables, using Merton's paper on Mathew's effect as an example. In the two papers, he introduced scientific prizes as a systematic, designed misallocation of credit (1968) and the institutional bias towards precocity (1988).

Please briefly read how institutions think if you have time.

2. Can team performance scale up ?

In this part, we will revisit the theory of labor division by Adam Smith and its social life consequence as analyzed by Émile Durkheim, and review two kinds of multitasking: repeated tasks and role-switching by looking at some empirical papers on Github and other systems. We will also try to put together the studies on the performance of teams, cities (Luis Bettencourt et al), and countries (Cesar Hidalgo et al).

3. People2vec: strength and limitations

In this part, I will introduce GitHub data and share its Dropbox link. I will also demonstrate the results of some of my experiments in People2vec, and invite you to discuss the comment from Mark Granovetter on the idea of People2vec (when James introduced to this idea him). Can people be defined as vectors? How to understand the social/knowledge geometry of the vector representations of people? To engage in this part please make sure you read the embeddedness paper.

4. Q&A on data and open discussion for research opportunities.

基本信息

  • 时间:2016年10月8日-10月12日
  • 地点:古北水镇

日程安排

条目 第一天 第二天 第三天 第四天 第五天
第一单元(8:30~10:00) 小世界、无标度、网络重整化 统计物理,优化问题和统计推断 量子信息:从一到无穷 网络:结构、生长与流动 从量子重整化群到区块链智能网络
主讲人 张江 张潘 尤亦庄 吴令飞 韩锋
第二单元 (10:00~11:30) 微分几何、双曲几何初步 一些网络上问题的统计物理描述 张量网络:空间几何的量子织锦 流形学习 重整化群到区块链智能网络
主讲人 尤亦庄 张潘 尤亦庄 吴令飞 韩锋
第三单元 (13:30~15:00) 复杂网络的双曲模型 网络与随机矩阵 宇宙智能:机器学习与演生时空 几何遐思 自由讨论或待定
主讲人 张江 张潘 尤亦庄 吴令飞
第四单元 (15:00~16:30) 复杂网络的空间嵌入算法 从Ising模型到神经网络 Ignite Discussion Ignite Discussion 自由讨论或待定
主讲人 李嫣然 张潘
第五单元 (19:00~20:30) Ignite Discussion Ignite Discussion 休息 休息 自由讨论或待定
本日主持人 尤亦庄 吴令飞 张潘 张江 吴令飞

说明

  • 一个单元包含了讲解、讨论与休息,时间分配由主持人把握
  • Ignite Discussion:这种讨论是参与人在听过本日讨论内容后受到启发而提出来的新研究课题
  • 自由讨论:最后一天的自由讨论将由所有参与者自由、自愿发言,主题应与本研读营内容相关
  • 每日主持人:负责时间控制与协调

详细内容安排

研讨会前奏

读书会:微分几何与双曲几何入门


第一天

网络与几何,领读人:张江、尤亦庄

复杂网络基础与前沿
  1. 无标度、小世界、社团结构,各类网络
  2. 网络重整化
双曲几何
  1. 双曲几何基本介绍
  2. 复杂网络的双曲空间模型
  3. 后续发展
网络的空间嵌入
  1. 加权网络的空间嵌入
  2. 流网络的空间嵌入
参考文献
  • Papadopoulos F, Kitsak M, Serrano M Á, et al. Popularity versus similarity in growing networks[J]. Nature, 2012, 489(7417): 537-540.
  • Krioukov D, Papadopoulos F, Kitsak M, et al. Hyperbolic geometry of complex networks[J]. Physical Review E, 2010, 82(3): 036106.
  • Serrano M A, Krioukov D, Boguná M. Self-similarity of complex networks and hidden metric spaces[J]. Physical review letters, 2008, 100(7): 078701.
  • Brockmann D, Helbing D. The hidden geometry of complex, network-driven contagion phenomena[J]. Science, 2013, 342(6164): 1337-1342.
  • Allard A, Serrano M, García-Pérez G, et al. The hidden geometry of weighted complex networks[J]. arXiv preprint arXiv:1601.03891, 2016.
  • García-Pérez G, Boguñá M, Allard A, et al. Rethinking distance in international trade: World Trade Atlas 1870-2013[J]. arXiv preprint arXiv:1512.02233, 2015.

第二天

统计物理, 网络与机器学习,领读人:张潘
详细内容,参考书目和文献列表(逐渐更新): 2016研读营之统计物理,网络与机器学习

统计物理与信息处理
  1. Ising模型与最大熵分布
  2. 自旋玻璃与组合优化
  3. Boltzmann分布与贝叶斯统计
一些网络中问题的统计物理描述
  1. 网络中的流行病传播,网络鲁棒性与Percolation 相变
  2. 从四色地图问题到社区结构探测: Modularity, Stochastic Block Model及可探测相变
网络与随机矩阵
  1. 邻接矩阵, 随机行走矩阵,Laplacian矩阵及它们的简单谱性质
  2. Gaussian orthogonal ensemble, 谱密度,Wigner's Semi-cycle,
  3. 统计推断,消息传递与谱方法
从Ising模型到神经网络
  1. Ising自旋玻璃模型,平均场方法和副本对称破缺
  2. Ising模型反问题, Boltzmann Machine及Restricted Boltzmann Machine
  3. 深度神经网络与重整化群

第三天

张量网络,量子引力与机器学习,领读人:尤亦庄

具体计划与书目将逐步在此页面更新:2016研读营之张量网络

量子信息:从一到无穷
  1. 量子力学基础:量子比特,量子态,密度矩阵
  2. 量子信息基础:量子纠缠,纠缠熵,量子互信息
  3. 量子信息理论的几何化:张量网络图,面向关系的物理学
张量网络:空间几何的量子织锦
  1. 纠缠熵在张量网络中的几何意义
  2. 量子临界:双曲空间中的张量网络,量子重整化与深度张量网络
  3. 局域化与热化,空间撕裂与坍缩
宇宙智能:机器学习与演生时空
  1. 从测地线几何到复杂网络上的Ising模型
  2. 基于Boltzmann机的神经网络(此部分移到第二天详细讨论)
  3. 随机张量网络,纠缠特征学习,时空几何的演生
参考文献

科普介绍:

  • Jennifer Ouellette, How Quantum Pairs Stitch Space-Time, Quanta Magazine 2015 [1]
  • Beni Yoshida, Quantum Gravity from Quantum Error-Correcting Codes? Quantum Frontiers 2015 [2]

学术论文:

  • Roman Orus, A Practical Introduction to Tensor Networks: Matrix Product States and Projected Entangled Pair States, Annals of Physics 349 (2014) 117-158 arXiv:1306.2164
  • G. Evenbly, G. Vidal, Tensor Network States and Geometry, J Stat Phys (2011) 145:891-918 arXiv:1106.1082
  • Mark Van Raamsdonk, Building up Spacetime with Quantum Entanglement, Gen.Rel.Grav.42:2323-2329, (2010) arXiv:1005.3035
  • Brian Swingle, Entanglement Renormalization and Holography, Phys. Rev. D 86, 065007 (2012) arXiv:0905.1317
  • Xiao-Liang Qi, Exact Holographic Mapping and Emergent Space-Time Geometry, (2013) arXiv:1309.6282
  • Fernando Pastawski, Beni Yoshida, Daniel Harlow, John Preskill, Holographic Quantum Error-Correcting Codes: Toy Models for the Bulk/Boundary Correspondence, JHEP 06 (2015) 149 arXiv:1503.06237
  • Patrick Hayden et. al., Holographic Duality from Random Tensor Networks, (2016) arXiv:1601.01694
  • Yi-Zhuang You, Xiao-Liang Qi, Cenke Xu, Entanglement Holographic Mapping of Many-Body Localized System by Spectrum Bifurcation Renormalization Group, Phys. Rev. B 93, 104205 (2016) arXiv:1508.03635

第四天

机器学习中的几何问题,领读人:张潘 (不懂啊!而且第三天的内容可以在第四天专门进行讨论一天)

可以是综合前三天的内容,而且前三天都数学物理比较多,第四天可以有些网络生长和机器学习的讨论?--EverettYou讨论) 2016年4月13日 (三) 11:54 (CST)

第五天

真实世界的复杂系统:网络、流形学习、与几何,领读人:吴令飞

网络
  1. 网络结构:朋友网络,引文网络,超链网络
  2. 网络生长:日常出行,兴趣转移,城市扩张
  3. 网络流动:流行病传播
流形学习
  1. Isomap:人脸识别,手写字体识别
  2. LLE:人脸识别,单词归类
几何遐思
  1. 网络动力学的几何化理解
  2. 从测地线几何到Isomap
  3. 宇宙在思考,还是我们在模仿宇宙?网络生长(流动)与机器学习背后的几何原理
参考文献
  • Kunegis, J., Blattner, M., & Moser, C. (2013, May). Preferential attachment in online networks: measurement and explanations. In Proceedings of the 5th Annual ACM Web Science Conference (pp. 205-214). ACM.
  • Capocci, A., Servedio, V. D., Colaiori, F., Buriol, L. S., Donato, D., Leonardi, S., & Caldarelli, G. (2006). Preferential attachment in the growth of social networks: The internet encyclopedia Wikipedia. Physical Review E, 74(3), 036116.
  • Wang, D., Song, C., & Barabási, A. L. (2013). Quantifying long-term scientific impact. Science, 342(6154), 127-132.
  • Song, C., Koren, T., Wang, P., & Barabási, A. L. (2010). Modelling the scaling properties of human mobility. Nature Physics, 6(10), 818-823.
  • Zhao, Y. M., Zeng, A., Yan, X. Y., Wang, W. X., & Lai, Y. C. (2015). Universal underpinning of human mobility in the real world and cyberspace. arXiv preprint arXiv:1512.04669.
  • Zhang, J., Li, X., Wang, X., Wang, W. X., & Wu, L. (2015). Scaling behaviours in the growth of networked systems and their geometric origins. Scientific reports, 5.
  • Brockmann, D., & Helbing, D. (2013). The hidden geometry of complex, network-driven contagion phenomena. Science, 342(6164), 1337-1342.
  • Tenenbaum, J. B., De Silva, V., & Langford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction. science, 290(5500), 2319-2323.
  • Roweis, S. T., & Saul, L. K. (2000). Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500), 2323-2326.


问题凝练

  • 在一个平面网络上,对Boltzmann机做各种变异操作,希望找到更好的拓扑结构
  • 在GAN模型中,从信息论的角度达到的平衡是真正的平衡。
  • 逆ISING模型的求解,从能量的角度来分析GAN网络模型。
  • 因素网络、Compress sensing


  • 自然语言中,hierarchy和relevance之间的。
  • 科学系统的神经网络建模方法,比如如何确定层高和层中Size的变化。
  • 重整化群做网络的压缩问题,怎样跟神经网络的问题结合
  • 动力学和机器学习技术的结合,除了BP以外的学习方式


  • 如何利用机器学习中的一些压缩信息的方法,例如:压缩感知,Autoencoder、residual 网络来做物理学中的重整化群


  • 用薛定谔方程描述同态图(可能有量子芝诺效应)。
  • 如何量子化Boltzmann机?并做量子计算


  • 复杂网络中的高聚集系数不一定意味着有空间结构,也有可能是局域动力学造成的
  • 流形学习是否能放到低维的双曲空间中?


  • 蛋白质和神经的问题:关联容易测量,相互作用不清楚,高聚集系数的网络。
  • 唯一的网络结构可能意味着唯一的几何。如何形成的很有意义。发生功能的点会不会与网络节点的位置有没有关系。
  • 什么样的网络可以做重整化
  • 能不能用重整化方法把一个网络压缩到双曲空间中?


  • 可以基于一些LOCAL property来做重整化。从LOCAL的结构里recover dimension。用这种做重整化(尤亦庄)
  • 考虑Network redundance,比如Boltzman机,多个可以有相同的输出。
  • 寻找一般网络中的basic move。可以把任何平面图:re-triangle,及其可逆操作,包括flipflop,这样可以保输出一致。
  • 可以把贝叶斯推断用于Tensor network,也知道了如何量子化的几何。虚时间和实时间就是量子力学和统计力学的关系。
  • 城市(network和Geometry)。补充:实在的模型或算法:增强学习(policy network(gradient))。另一个:贝叶斯pragmatics reasoning(利用一些别的经验去辅助learning的过程)


  • 社会科学和TensorNetwork的结合如何应用。应用到复杂网络里面的研究。算法效率很低。
  • 回到社会科学问题:寻找问题的场景,几何意义究竟是什么


  • 纯粹的神经网络问题:有没有方法能学出来一种结构(大自然有可塑性),如何长出一个神经网络出来。
  • 把神经网络嵌入一个空间中,然后用一种gradient的方法把网络学习出来。拓扑结构的gradient的。


  • 网络的结构和几何的对应关系:网络的hierarchical structure决定了网络所在的双曲空间的曲率,以及如何把网络嵌套进双曲空间的法则。
  • 如果从其他角度找到了把网络嵌套进双曲空间的方法,也就找到了一种寻找hierarchical structure和community structure(即hierarchy的顶层分组)的方法。


  • 更加完善的双曲空间网络生长模型(考虑自然的densification),看看是否增长特性也符合实证
  • 开发一种新的网络嵌入算法:通过局域的重整化操作(收缩high clustering的节点团),得到重整化流做到网络的popularity维度上,然后再来根据聚类的情况确定similarity的维度和空间,也许算法会更加高效


  • 知识流形的问题
  • 是否可以利用动力学+机器学习的方式来做三维动画


讨论区

  1. 是否要加入如下议题?(by jake)

开放流网络 开放流网络的几何嵌入

  1. 对议题的讨论和补充(by 吴令飞)

一个是三者的联系介绍得不够深刻,我感觉是否可以从“局域性”来谈谈。所有的物理模型要几何化最后一定是局域性的。几何比如流形,当然是局域性的。而机器学习和复杂网络这两个方向,其中比较成熟的机器学习方法例如流形学习,SVD,各种降维,都是要获得一个局域的,连续的结构,以便切割;复杂网络方法例如BA网络,随机几何,prefrential return,这三类方程的rate equation解法,最核心的假设就是一个局域连续的节点序列,因为只有这样才能做微积分,才能把度k关于时间的方程变成累积概率方程。而这两个方法各自的新发现,深度学习与双曲网络,我认为还是有关局域性,是把这个问题又推向了更深刻的地方。 大量的物理方法,就是把不连续的,跳跃的,难以理解的,变成局域的,连续的,trivial的东西。复杂网络和机器学习,最后还是要走这条路的。 另外一个补充是,复杂网络这块的内容对于与会者可能太浅了。建议同时讨论BA网络,随机几何,prefrential return,重整化四个模型。

    1. “局域性”的观点很好,双曲网络的要点就在于原来一个无标度(非局域)的网络通过嵌入双曲空间就获得了局域化的连接。这也是AdS/CFT的思路,把一个临界系统(共形场论,CFT)对偶AdS空间局域的几何。而bulk geometry演生的过程实际上是一个重整化的过程,一个慢慢粗粒化细节从而把大尺度结构变得局域的过程。卷积神经网络对图像的识别也是这样一个过程。所以可以说这几个主题的共同点是背后的重整化思想。重整化从复杂的临界系统中铺呈出一套局域的演生几何,这个演生的几何维度就是重整化的标度。(by Everett)
  1. 是否需要准备入门知识?(by 苑明理)

(一)有无必要介绍一些微分几何的入门知识?我查阅了一些文献,觉得这些入门知识可以包括: 必要的数学工具:流形、微分流形、切从、微分形式、李群 涉及几何的基本概念:曲率、联络、平行移动、黎曼度量、测底线 (二)机器学习这部分的内容是否需要包括 Manifold Learning 的内容?毕竟 Word2Vec 还是嵌入到欧式空间。 (三)重整化貌似也是机器学习和AdS/CFT有关的共同话题,是否需要介绍? 另外在研讨的材料上,我有一个建议: 对于三个方向复杂网络、双曲几何与AdS/CFT、机器学习,分别定义出来: 最精简的入阶内容,以帮助不熟悉的成员快速掌握 有重点的前沿进展,以帮助研究者进入

  1. 建议在研读营之前开设基础知识(在线)讨论组,争取在研读营之前同步参与者在微分几何和张量网络方面的基础知识,以便在研读营中能够深入讨论。 (by 张潘)
个人工具
名字空间
操作
导航
工具箱