课程介绍

注:加助教小艾(微信ID:mooccai),了解更多课程信息。

社交网络和数据挖掘是计算机学科相关研究中的热点,其具体研究涵盖理论、关键技术以及互联网核心应用等各个方面。随着在线社交网络和物理社交网络的快速融合,社交网络正渗透到国家安全、经济发展和社会生活等各个方面,从大数据的产生、到基于群体智慧(如:众包)的数据加工、再到信息的消费,社交网络和数据挖掘的应用无处不在。社交网络分析的研究也逐渐从宏观的网络结构拓扑分析、发展到中观的社区发现等、再到更微观的社交关系、影响力以及用户行为建模等,然而社交网络数据的挖掘和分析还有很多本质上的挑战,包括用户交互、社交信息论的基础理论,社交数据挖掘的关键技术等。

本期CCF学科前沿讲习班《社交网络和数据挖掘》邀请到了社会网络分析和数据挖掘领域重量级的专家学者做主题报告。他们将对社交网络和数据挖掘的基础理论、关键技术方法以及当前热点问题进行深入浅出的介绍,并对如何开展本领域前沿技术研究等进行探讨。使参加者在了解学科热点、提高理论水平的同时,掌握最新技术趋势。

特邀讲者:


 

Jiawei Han  韩家炜,ACM院士和IEEE院士,伊利诺伊大学厄巴纳 - 香槟分校计算机科学系Abel Bliss教授。

报告题目:大规模语料库的多维分析

摘要:现实世界的大数据在很大程度上是以自然语言文本形式存在的非结构性的、相互关联的数据。对于这样的海量文本数据,从多维角度观看和分析是非常理想的。不过这也提出了一个重大的挑战,即如何将非结构化文本数据转换为结构化文本然后在多维空间中去分析这些数据。为了促进这样的分析,我们提出了一种文本立方体(textcube)建模方法,并讨论了如何从大量文本语料库构建这样的立方体,以及如何使用这种文本立方体进行多维OLAP分析。在过去的几年里,我们开发出一种文本挖掘方法,这种方法只需要远程的或最小的监督,而不是依靠大量数据。 在这个报告中,我将展示:

    (1)从海量文本数据中挖掘出高质量的短语;

    (2)通过远程监督从海量文本数据中提取类型;

    (3)通过元路径定向模式发现实体、属性和值;

    (4)从大量的语料库中构建分面分类法;

    (5)从大量文本构建文本立方体;

    (6)对这些立方体进行多维分析。

这里我们展示的范例——将大量的文本数据转化为结构化和有用的知识——将是一个非常有希望的方向。

 

Philip S. Yu,ACM/IEEE院士、美国伊利诺伊大学芝加哥分校特聘教授、清华大学软件学院客座教授。

报告题目:通过社交网络信息融合的“Broad Learning”

摘要:在大数据时代,以各种格式存在的数据资源非常丰富。一种有意思的想法就是将这些不同格式的资源融合在一起,来协同挖掘数据背后的信息,这将比单一的数据资源获得更多有价值的结果。“Broad Learning”正是这样一种新型的学习任务。但BL在将不同的数据资源有效融合的过程中仍然存在着巨大的挑战,这不仅取决于数据源的相关性,还取决于目标应用问题。在本次报告中,我们将探讨如何融合社交网络信息来改善各种应用场景中数据挖掘的效果。

 

唐杰,清华计算机系副教授、博导、CCF杰出会员、清华-工程院知识智能联合实验室主任。于2006年6月在清华大学计算机系获得博士学位,曾在康纳尔大学、香港科技大学、南安普顿大学、鲁汶大学进行学术访问。

主要研究兴趣包括:社会网络分析、数据挖掘、机器学习和知识图谱,提出基于话题的社会网络影响力度量模型,利用网络影响力度量结果有效提高了用户行为预测和信息推荐精度,在多个亿级用户的社交系统得到实际验证。发表论文200余篇,包括计算机学会(CCF) A类论文70余篇,论文引用9000多次。主持研发了研究者社会网络挖掘系统AMiner,从亿级文献数据挖掘科技知识,吸引了220个国家/地区800多万独立IP访问;核心技术应用于国家科技部、自然科学基金委、中国工程院、ACM、美国艾伦人工智能研究所、搜狗、阿里巴巴、腾讯等单位。获中国人工智能学会科技进步一等奖、牛顿高级学者基金、国家自然基金委优秀青年基金、计算机学会青年科学家奖;担任国际期刊ACM TKDD的执行主编和IEEE TKDE、ACM TIST、IEEE TBD编委,担任KDD’18大会副主席、CIKM’16、WSDM’15等国际会议PC主席。

报告题目:社会影响力与行为预测

摘要:社会网络已经成为沟通真实物理世界和虚拟互联空间的桥梁。我们在互联网络中的行为直接反映了我们在真实世界的活动和情感。我将介绍在大规模真实网络中(如:微信、微博、Twitter、 AMiner等网络)如何分析用户之间的交互影响力和基于网络拓扑的结构影响力,并基于影响力预测用户行为。模型同时考虑了网络结构、用户属性和网络用户的偏好。并设计了针对大规模网络的并行学习算法。在实际真实在线社交系统中得到了验证。

 

沈华伟,博士,中国科学院计算技术研究所研究员,中国中文信息学会社会媒体处理专委会副主任。研究方向为网络科学和社会计算。先后获得过CCF优博、中科院优博、首届UCAS-Springer优博、中科院院长特别奖、入选首届中科院青年创新促进会、中科院计算所“学术百星”。2013年在美国东北大学进行学术访问。2015年被评为中国科学院优秀青年促进会会员(中科院优青)。获得国家科技进步二等奖、北京市科学技术二等奖、中国电子学会科学技术一等奖、中国中文信息学会钱伟长中文信息处理科学技术一等奖。出版个人专/译著3部,在网络社区发现、信息传播预测、群体行为分析、学术评价等方面取得了系列研究成果,在Science、PNAS等期刊和WWW、SIGIR、CIKM、WSDM、AAAI、IJCAI等会议上发表论文80余篇,引用2000余次。担任PNAS、IEEE TKDE、ACM TKDD等10余个学术期刊审稿人和WWW、CIKM、WSDM等20余个学术会议的程序委员会委员。

报告题目:在线社交媒体中的信息传播预测

摘要:近年来,以微博、微信等为代表的在线社会媒体逐渐成为人们发布、传播和获取信息的主要媒介。社会媒体汇聚了大量的用户关系数据和信息传播数据,为分析和研究人类社会活动提供了弥足珍贵的数据资源。社会媒体中数据多源异构、个体间关系繁杂、信息传播突发等特点给社会媒体分析提出了科学技术挑战。分析社交网络的结构规律、挖掘用户行为的固有模式、探索网络信息传播的内在机理、研究高效的社交网络分析与网络信息传播预测方法,有利于提升对在线社会媒体的科学认知水平和有效利用能力。报告将从网络结构分析、网络表达学习、网络信息传播预测等几个方面介绍报告人近几年在在线社会媒体中的信息传播预测方面的研究成果。

 

宋国杰,北京大学信息科学技术学院副教授,智能交通系统研究中心副主任。主要从事数据挖掘、机器学习、社会网络分析和智能交通系统等方面的研发工作。主持20多项国家级纵向课题和横向课题。发表包括国际顶级期刊TKDE、TPDS、TITS、Scientific Report以及国际顶级会议 KDD、AAAI、WWW 等的相关论文70余篇。研究成果获“2012 年度中国公路学会科学技术奖一等奖”、“2012 年度山西省科学技术奖二等奖”和“2013 年度中国公路学会科学技术奖一等奖”。教学成果两度获得北京大学教学成果一等奖;国家级精品课程《数据结构与算法》主讲教师。

报告题目:社会网络信息传播影响最大化挖掘

摘要:网络信息传播挖掘研究是近年来社交网络分析领域的热点问题。报告将重点介绍两方面的研究工作:传播影响最大化(Influence Maximization)和网络推断(Network Inference)。前者主要研究在既定传播模型下,如何高效寻找社交网络中信息传播影响力最大的Top-k节点集合,而后者则是在给定观测到信息传播级联数据集的基础上,推断出隐藏的、不可直接观测的社交网络拓扑结构。报告将重点介绍这两类工作的代表性研究成果,并对未来发展进行展望。

Wei Wang   加州大学洛杉矶分校计算机科学Leonard Kleinrock首席教授,ScAi研究所主任,NIH BD2K中央合作中心的联合主任。

报告题目:动态网络的系统建模

摘要:含时网络(Temporal networks,即在网络中加入时间的成分)可以说是无处不在,因为众多的应用程序(包括微信、微博、twitter等)主要就是以时间依赖的方式生成的网络结构。近年来,在进化网络分析领域已经有了大量的研究工作,例如异常检车、链路预测、节点分类等。针对这些问题已经存在许多单独的解决方案,但是要想更广泛地解决类似的问题,我们需要考虑的是:我们是否可以直接把网络结构描述成时间的一个函数?在不同的应用环境中使用网络结构时,将其描述为时间的函数至关重要,因为这样的描述可以捕获非常丰富的关于底层网络结构的信息。在报告中,我将展示动态网络建模的一些困难以及我们的解决方案。

 

Dr. Xiangen Hu  胡先根博士是孟菲斯大学(UOFM)心理学系,电气与计算机工程与计算机科学系教授,UofM智能系统研究所(IIS)高级研究员,华中师范大学心理学院院长,UOFM高级分布式学习(ADL)合作实验室主任,中国教育部青少年网络心理与行为重点实验室高级研究员。

报告题目:Semantic Representation & Analysis (SRA) and potential applications (语义表示和分析(SRA)以及潜在的应用)

摘要:语义表示分析(SRA)是基于向量的语义分析的一般框架。 在这个框架内,自然语言的语义以诱导语义结构的形式表示。 SRA在信息检索、文本分析和智能辅导系统中有很大的应用。 在这个讲座中,我将会:1)介绍一个SRA的数学模型;2)介绍和展示一种生成个性化的、领域特定的、上下文敏感的语义表示的方法;3)介绍和展示作为局部学生模型的学习者特征曲线以及它在智能辅导系统中的应用。

石川,博士、北京邮电大学计算机学院教授、博士研究生导师、智能通信软件与多媒体北京市重点实验室副主任。主要研究方向: 数据挖掘、机器学习、人工智能和演化计算。近五年来,作为第一作者或通信作者发表高水平学术论文40余篇,英文专著一部,包括数据挖掘领域的顶级期刊和会议IEEE TKDE、ACM TIST、KAIS、DKE、KDD、SDM、EDBT、ECML、CIKM等。获得ADMA2011国际会议最佳论文奖、CCF-腾讯犀牛鸟基金及项目优秀奖,并指导学生获得顶尖国际数据挖掘竞赛IJCAI Contest 2015 全球冠军。获得北京市高等学校青年英才计划支持。

报告题目:异质信息网络建模与分析

摘要:当前的社会网络分析主要针对同质网络(即网络中结点类型相同),但是现实世界中的网络化数据通常包含不同类型的对象,并且对象之间的关联表示不同的语义关系。构建异质信息网络(即包含不同类型的结点或边的网络)可以包含更加完整的对象之间的关联信息,因此分析这类网络有希望挖掘更加准确的模式。本课题以异质信息网络为对象,深入分析异质网络的复杂结构和丰富语义对数据挖掘带来的挑战。本报告将介绍异质信息网络的基本概念、特点、和分析方法,以及在实际问题中的应用。

 

Peng Cui  清华大学副教授

报告题目:网络嵌入:在向量空间中启用网络分析和推理

摘要:现在,在应用当中出现越来越大的网络,网络数据也变得越来越具有复杂性和挑战性。为了有效地处理图谱数据,第一个关键的挑战就是如何表示网络数据,即如何正确表示网络以便在时间和空间上高效地进行模式发现、分析、预测等高级分析任务。 在这个报告中,我将回顾一下网络嵌入的最新思想和研究成果。 更具体地说就是,将讨论网络嵌入中的一系列基本问题,包括为什么需要重新考虑网络表示,网络嵌入的研究目标是什么,网络嵌入如何学习以及网络嵌入的主要未来方向。

 

刘知远,清华大学计算机系助理教授。主要研究方向为表示学习、知识图谱和社会计算。已在人工智能领域著名国际期刊和会议发表相关论文30余篇,Google Scholar统计引用超过2000次。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel青年学者提升计划。

报告题目:语言表示学习与计算社会科学

摘要:语言是人类交流的工具、人类文化的载体,是了解人类社会的重要视角。近年来随着表示学习在自然语言处理中的应用,语言表示学习也为社会科学研究提供了全新的技术工具,特别是面向在线社会媒体的大规模用户产生内容进行用户和内容分析,具有很大优势。本报告将介绍语言表示学习技术在计算社会科学方面的最新动态,探讨该方向的未来发展趋势

赵鑫,中国人民大学计算机副教授。研究领域为社交数据挖掘和自然语言处理,共发表CCF A/B、SCI论文50余篇,其中以第一作者发表的《Comparing Twitter and Traditional Media Using Topic Models》被引用700余次。入选第二届CCF青年人才发展计划。担任多个国际顶级期刊和学术会议评审,AIRS 2016出版主席、SMP 2017领域主席以及NLPCC 2017领域主席。

报告题目:面向社交媒体平台的商业数据挖掘

摘要:随着互联网技术的不断发展,各种社交媒体平台都得到了广泛的使用。社交网络平台中蕴含大量的用户信息,包括用户个人属性信息(如年龄、性别等等)、用户所发表的内容信息等等。如何充分利用社交媒体平台的信息来加强用户个性化建模,从而推动商业数据挖掘成了一个研究热点。本次报告试图系统梳理一些重要的商业大数据应用问题,如用户意图检测、用户画像构建以及推荐算法等。

 

杨洋,浙江大学计算机科学与技术学院助理教授。

报告题目:移民的城市梦——上海移民融合

摘要:前所未有的人类流动推动了全球高速的城市化进程。在中国,1978年至2012年间,城市人口居住比例从17.9%上升到52.6%。这种大规模的移民对政策制定者和研究人员来说既是重大的挑战,又是重要的问题。在这个报告中,我将介绍我们对移民融合过程的研究。

具体而言,我们采用了上海一个月的电信元数据完整的数据集,其中拥有5400万用户和6.98亿个通话记录。我们发现本地人和移民在移动通信网络和地理位置上存在有系统的差异。例如移民在定居后相比本地人会有更多的社会接触,在城市中的移动半径要大于本地人。通过区分新移民(最近移居上海)和定居的移民(在上海待了一段时间),我们发现了新移民在前三周的融合过程。此外,我们进一步调查了移民在第一周的行为,特别是他们的行为与最终提早离开之间的关系。我们发现最终离开的移民,在头几个星期往往都没有发展处多样性的联系,也没有在城市周围移动;他们活动区域的住房价格也高于那些最终留下来的移民的住房价格。

James A. Evans, 芝加哥大学社会学系教授,毕业于斯坦福大学,曾在哈佛等大学从事社会组织结构方面的研究。在芝加哥大学创立知识挖掘实验室。主要研究兴趣包括:群体智能、社会组织结构分析。最近专注科技创新产生和传播规律的研究,在Science等顶级期刊上连续发表多篇文章。

报告题目:Team Structure and Scientific Advance

摘要:Teams dominate the production of high-impact science and technology. Analyzing teamwork from more than 50 million papers, patents, and software products, 1954-2014, we demonstrate across this period that larger teams developed recent, popular ideas, while small teams disrupted the system by drawing on older and less prevalent ideas. Attention to work from large teams came immediately, while advances by small teams succeeded further into the future. Differences between small and large teams magnify with impact—small teams have become known for disruptive work and large teams for developing work. Differences in topic and research design account for part of the relationship between team size and disruption, but most of the effect occurs within people, controlling for detailed subject and article type. These findings suggest the importance of supporting both small and large teams for the sustainable vitality of science and technology. I also demonstrate the importance of modeling the team or hypergraph structure of science, rather than reducing it to simple, pairwise networks.

学术主任:

唐杰,清华大学计算机系长聘副教授、博导,首届国家优秀青年基金获得者,CCF青年科学家,英国牛顿高级学者奖。主要研究社会网络分析、数据挖掘和机器学习。发表200余篇论文,Google引用9400余次。研发了研究者社会网络ArnetMiner系统,吸引全球220个国家和地区832万独立IP的访问。获北京市科技进步一等奖、中国人工智能学会科技进步一等奖。

 

刘知远,清华大学计算机系助理教授。主要研究方向为表示学习、知识图谱和社会计算。已在人工智能领域著名国际期刊和会议发表相关论文30余篇,Google Scholar统计引用超过2000次。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel青年学者提升计划

 

课程须知
  • 本课程形式为线上录播。
  • 本课程由CCF独家授权,全网唯一,侵权必究
  • 学生可提前预定,课程上线即可观看回放
适合人群
  • 适合学术界研究人员,以及面对工业界前沿技术人员
  • 科研教学第一线的青年学者及企业从事技术工作的技术人员
  • 其他有兴趣的专业人士也可参加

相关课程

开课日期:录播回放,在线学习开始
机器学习 基础入门 19962
开课日期:2018-07-31 20:00开始
1873