内容简介
近年,在线社交网络快速发展,已成为人们获取信息、传递消息、交友娱乐的重要渠道。本书系统讨论了基于用户性格的社交网络在线行为规律;在用户层面上验证了在线社交网络用户行为的同质性;社交网络大数据的核心是预测,本书选择了选举预测和市场预测两个重要的问题进行了深入的研究,为在线社交网络个体心理研究、用户关系 研究对社会、经济预测研究提供了理论依据和应用指导。
作者介绍
周振坤,首都经济贸易大学统计学院数据科学系讲师,北京航空航天大学计算机博士,纽约城市大学联合培养博士。发表多篇SCI一区检索文章和计算机国际会议文章。主要工作围绕社交网络用户在线行为量化、分析与建模展开。目标在社交大数据环境下通过机器学习等计算机技术方法,揭示人类在线行为规律,并进行社会群体行为预测。
目录
前言 第1章 绪论 1.1 研究背景与意义 1.2 研究内容 1.3 本书结构 第2章 相关工作 2.1 在线社交网络概述 2.2 用户行为分析方法 2.3 用户行为分析应用 2.4 本章小结 第3章 基于用户性格的在线行为分析 3.1 引言 3.2 理论背景 3.3 数据和性格分类器 3.4 内外向性格用户行为差异 3.5 本章小结 第4章 用户行为同质性分析 4.1 引言 4.2 数据和行为定义 4.3 实验方法 4.4 验证同质性 4.5 同质性关键因素 4.6 本章小结 第5章 社交网络选举预测分析 5.1 引言 5.2 数据与意见分类 5.3 选举预测模型 5.4 本章小结 第6章 社交网络市场预测分析 6.1 引言 6.2 微博和股市数据 6.3 情绪波动性 6.4 情绪与市场:相关性和因果性 6.5 股票市场预测 6.6 本章小结 总结 参考文献 后记 图1 研究内容示意图 图2 有效用户调查问卷性格外倾性分数分布 图3 用户微博发布模式(小时级别) 图4 城市标记数量分布 图5 POI位置标记分布 图6 微博分享来源分布 图7 不同性格用户购买指数箱线图对比 图8 用户购买指数分布 图9 用户在线情绪概率分布 图10 用户拥有“淘宝”徽章与否的比例对比 图11 网易云音乐种子用户网站页面示意图 图12 用户历史听歌次数和微博发布条数分布(CCDF) 图13 网络拓扑结构示意图 图14 网易云音乐网络和微博网络度分布 图15 好友历史听歌记录相似度分布(CCDF) 图16 好友音乐偏好相似度分布(CCDF) 图17 好友“喜欢”歌曲相似度分布(CCDF) 图18 阿根廷总统选举每日推文量和用户量 图19 Twitter话题标签共现网络 图20 词云:已标注的两类话题标签 图21 阿根廷总统选举每日分类结果统计 图22 短期窗口模型预测结果(时间窗口为14天)和初选前综合民调结果 图23 历史累积模型预测结果 图24 细粒度分类下用户意见变化 图25 Twitter用户分布和真实人口分布 图26 2015年9月1日至月16日股市相关微博量 图27 2014年12月至2015年9月股票市场在线情绪时间序列 图28 2014年至2015年上海证券综合指数(上证指数) 图29 投资者粉丝数(nf)分布及分类 图30 不同类型投资者在线情绪滑动平均线(20天为窗口) 图31 不同类型投资者RJF变化(窗口为1天和20天) 图32 不同类型投资者情绪波动率均值与滑动平均线(窗口为20天) 图33 股票市场在线情绪与五种市场指标的Pearson相关系数 图34 随机后的在线情绪与五种市场指标的Pearson相关系数 图35 五种市场指标时间序列及离散化结果 图36 实际场景下基于SVM-ES股票市场预测系统框架 表1 性格预测模型准确率与F1值 表2 用户不同时段微博发布比例 表3 外向型和内向型用户微博发布的时间间隔 表4 不同性格用户微博发布时间间隔方差分析结果(ANOVA) 表5 互动特征与外倾性分数相关性分析结果 表6 两种性格用户购买指数方差分析结果(ANOVA) 表7 两种性格用户情绪指数方差分析结果(ANOVA) 表8 基于音乐偏好的用户分类 表9 用户分类:组用户量和组内组间距离 表10 多元回归分析结果:基于好友因子以预测simsong 表11 用户意见分类模型验证结果 表12 选举预测模型结果与真实选举结果 表13 股票市场在线情绪与五种市场指标的格兰杰因果检验结果 表14 交叉检验下股市预测模型的准确率 表15 模型SVM-ES和SVM-MR在实际应用中的准确率 表16 不同类型投资者作为模型输入时SVM-ES模型准确率