点击上图购买

股票大数据挖掘实战

[股票预测篇](上册)

>>>[股票分析篇](下册) <<<
详情请点击

本书围绕股票大数据挖掘技术展开,主要介绍数据挖掘的方法及其在股票大数据上的实战应用。

本书是国内少有的、甚至是首本关于股票大数据应用的著作。不同于一般的量化投资方法,本书更着重于数据挖掘方法、机器学习方法的创新改进和应用实战。本书始终以实际案例来讲解应用之下的技术和理论,让读者明白来龙去脉。

本书围绕股票挖掘所构建的知识体系非常全面完善。在技术上,不仅包含了数据挖掘中常见的方法,如匹配方法、关联分析、分类、聚类、预测、时间序列分析等,还包括自然语言处理方法、深度学习方法、舆情分析方法、行为金融学心理学等方法。在数据应用上,不仅包含了对场内每笔成交数据的分析,还包括财务数据、新闻数据、股吧论坛、机构研报、用户行为等方面的分析。

目录结构

第1章 数据挖掘基础 1
1.1 数据挖掘概述 1
1.1.1 数据挖掘的过程 2
1.1.2 数据挖掘的任务 3
1.1.3 数据挖掘的应用 5
1.1.4 数据挖掘的未来发展和挑战 6
1.2 常用的数据挖掘算法 8
1.3 数据挖掘工具 11
1.3.1 MATLAB 11
1.3.2 SAS 12
1.3.3 SPSS 13
1.3.4 WEKA 14
1.3.5 R 15
1.3.6 工具的比较与选择 16
1.4 数据挖掘与云计算 17
1.5 Mahout分布式框架 18
1.5.1 Mahout简介 18
1.5.2 Mahout算法集 18
1.5.3 Mahout系统架构 19
1.5.4 Mahout的优缺点 20

第2章 股票大数据挖掘 21
2.1 股票大数据 21
2.1.1 大数据概述 21
2.1.2 大数据的处理 25
2.1.3 大数据炒股 27
2.2 股票预测 31
2.2.1 预测基础知识 31
2.2.2 股票预测的结构 35
2.2.3 股票预测技术 36
2.3 量化投资 38
2.3.1 什么是量化投资 38
2.3.2 量化投资的特点 39
2.3.3 量化投资的方法 40
2.3.4 量化投资选股模型 42
2.3.5 多因子选股模型 43
2.3.6 量化模型的建立 45

第3章 股票数据的准备 46
3.1 股票相关数据 46
3.2 数据的获取源 49
3.2.1 从雅虎获取历史交易数据 50
3.2.2 从腾讯获取实时交易数据 51
3.2.3 从新浪获取交易数据 56
3.2.4 从网易获取成交明细数据 60
3.2.5 从巨潮资讯获取基础数据 62
3.2.6 多源获取UGC数据 64
3.3 数据获取技术 65
3.3.1 网络爬虫技术 65
3.3.2 HTML解析 74
3.3.3 XML解析 74
3.3.4 JSON解析 76
3.4 数据预处理 78
3.4.1 数据清理 78
3.4.2 数据集成 80
3.4.3 数据变换 81
3.4.4 数据归约 82

第4章 分类方法与股票买卖点判断 83
4.1 分类概述 83
4.2 朴素贝叶斯 83
4.2.1 朴素贝叶斯分类算法的概念 84
4.2.2 朴素贝叶斯分类器模型 84
4.2.3 朴素贝叶斯分类器的优缺点 86
4.2.4 朴素贝叶斯分类器的应用 87
4.2.5 扩展的分类器 89
4.3 决策树 91
4.3.1 决策树方法介绍 91
4.3.2 属性选择的度量方法 94
4.3.3 剪枝技术 97
4.3.4 常用的决策树分类算法 98
4.3.5 ID3算法 98
4.3.6 C4.5算法 99
4.3.7 CART算法 100
4.3.8 SLIQ算法 100
4.3.9 SPRINT算法 101
4.3.10 PUBLIC算法 102
4.3.11 算法比较 102
4.4 支持向量机 103
4.4.1 最优分类面 103
4.4.2 广义的最优分类面 105
4.4.3 序列最小最优化算法 106
4.4.4 核函数 108
4.4.5 SVM参数优化问题 109
4.4.6 SVM分类器 110
4.5 评价指标 112
4.6 基于SVM算法的股票买卖点判断 114
4.6.1 数据预处理 114
4.6.2 买卖点定义 116
4.6.3 买卖点判断 117

第5章 匹配方法与股票走势的预测 120
5.1目标概述 120
5.2 模式匹配 121
5.2.1 模式匹配概述 121
5.2.2 模式匹配的定义 121
5.2.3 BF算法 122
5.2.4 KMP算法 124
5.2.5 BM算法 126
5.2.6 BMH算法 129
5.2.7 AC算法 129
5.2.8 模式匹配算法总结 131
5.3 常用的相似性度量方法 132
5.3.1 基于距离的度量 132
5.3.2 基于相似/相关的度量 135
5.3.3 其他度量方式 140
5.4 新方法:相似走势匹配在股票预测中的应用 142
5.4.1 方法思想 142
5.4.2 相似匹配的计算步骤 142
5.4.3 基于最相似走势的股票短期走势预测方法 144
5.4.4 基于多相似股票投票统计的近期涨跌预测方法 147
5.4.5 基于近期预测涨跌幅及其一致性统计的股票推荐方法 150
5.4.6 基于同匹配日期相似走势的股票预测方法 153
5.4.7 基于强匹配排序的股票趋势分析与选股方法 157
5.4.8 基于股票预测走势进行分类和推荐的方法 160
5.5 新方法:自身历史相关在股票预测中的应用 165
5.5.1 基于自身历史相关时间点的股票趋势预测方法 165
5.5.2 基于自相关排序的股票趋势分析与选股方法 168
5.6 新方法:正负相关走势在股票预测中的应用 171
5.6.1 主要思想 171
5.6.2 计算步骤 172
5.6.3 方法步骤与创新特征 175
5.6.4 输出结果示例 176
5.7 新方法:自定义模式匹配在股票预测中的应用 178
5.7.1 主要思想 178
5.7.2 计算步骤 178
5.7.3 方法步骤与创新特征 181
5.7.4 输出结果示例 181
5.8 平台实战解析:搜索相似历史走势以替补老司机经验 182

第6章 相似股票判断与投资组合 186
6.1 目标概述 186
6.2 DTW动态时间规整算法 189
6.2.1 匹配模式 189
6.2.2 DTW算法原理 190
6.2.3 DTW算法改进 192
6.3 KNN算法 193
6.3.1 KNN算法简介 193
6.3.2 K值的选择 195
6.3.3 KNN算法的改进 196
6.3.4 KNN算法的实现 198
6.4 相似股票的判断和应用 204
6.4.1 新方法:用于辅助选股的股票分级活跃度计算方法 204
6.4.2 新方法:基于股票强相关分析的选股推荐方法 207
6.4.3 平台实战解析 211

第7章 股票盘面强弱状态的判断 215
7.1 目标概述 215
7.2 马尔科夫模型 216
7.2.1 马尔科夫模型概述 216
7.2.2 马尔可夫过程 218
7.2.3 马尔可夫链 219
7.2.4 状态转移概率 220
7.2.5 马尔可夫链在天气预报中的应用 222
7.2.6 马尔可夫链在人民币汇率上的实证分析 223
7.3 隐马尔科夫模型 225
7.3.1 隐马尔科夫模型概述 225
7.3.2 隐马尔科夫的数学模型 226
7.3.3 评估问题与前向算法 227
7.3.4 解码问题与Viterbi算法 230
7.3.5 观察序列最大概率问题与Baum-Welch算法 232
7.3.6 隐马尔科夫模型在输入法中的应用 235
7.4 新方法:基于状态转移的股票长期走势预测与推荐方法 235
7.4.1 主要思想 235
7.4.2 计算步骤 236
7.4.3 方法步骤与创新特征 238
7.4.4 平台实战解析 239

第8章 股票间的延时联动涨跌规则 241
8.1 目标概述 241
8.2 贝叶斯 242
8.2.1 贝叶斯公式 242
8.2.2 贝叶斯推断 243
8.2.3 贝叶斯应用 244
8.3 关联规则挖掘 252
8.3.1 基本概念和模型 252
8.3.2 Apriori算法 255
8.3.3 FP-tree频集算法 264
8.3.4 关联规则的应用 268
8.4 关联规则在股票预测中的应用 269
8.4.1 新方法:基于时态联动挖掘的股票预测方法 269
8.4.2 新方法:基于股票间同现统计的股票推荐方法 276
8.4.3 平台实战解析 281

第9章 股票涨跌的幅值组合关系 283
9.1 目标概述 283
9.2 n-gram模型 284
9.2.1 自然语言处理 284
9.2.2 统计语言模型 285
9.2.3 n-gram模型简介 286
9.2.4 n-gram模型的数据平滑 287
9.2.5 n-gram模型的解码算法 288
9.2.6 利用n-gram来纠正中文文本错误 288
9.3 新方法:个股涨跌的幅值组合关系挖掘 289
9.3.1 基于类似n元语法统计的股票预测方法 289
9.3.2 基于类似关联规则统计的股票预测方法 295
9.3.3 基于局部及全局语法统计的股票推荐方法 301
9.3.4 用于股市运行逻辑理解的强关联规则挖掘方法 308
9.3.5 平台实战解析 312

第10章 股票的循环滚动预测方法 315
10.1 目标概述 315
10.2 回归分析与股票预测 315
10.2.1 回归分析概述 315
10.2.2 一元线性回归模型 316
10.2.3 多元线性回归分析模型 317
10.2.4 线性相关程度测定 320
10.2.5 非线性回归分析 321
10.2.6 用回归分析进行股票预测 323
10.3 神经网络与股票预测 325
10.3.1 神经网络的基本原理 325
10.3.2 BP神经网络算法 327
10.3.3 用BP神经网络进行股票预测 332
10.4 深度学习与股票预测 341
10.4.1 深度学习介绍 341
10.4.2 深度学习的理论基础 343
10.4.3 典型的深度学习模型 344
10.4.4 LSTM递归神经网络 350
10.4.5 新方法:用 LSTM网络进行股票预测 357
参考文献 363

关于作者

洪志令,美国加州大学尔湾分校访问学者/助理科学家、北京大学心理学/北京大学机器感知与智能教育部重点实验室博士后,厦门大学人工智能专业博士。先后曾任职于IBM、美国Comodo、厦门大学软件学院,现为股票挖掘网(stocktobe.com)创始人。厦门市高层次引进人才,厦门市思明区思明英才,厦门市思明区政协委员。近年以第一或通讯作者发表SCI/EI检索学术论文32篇。目前拥有11项授权的国家发明专利和超过32项的公开实审国家发明专利。

吴梅红,厦门大学副教授;美国加州大学洛杉矶分校与厦门大学联合培养博士,师从图灵奖获得者Judea Pearl教授;北京大学博士后,美国加州大学尔湾分校访问学者。福建省新世纪优秀人才,厦门市高层次引进人才。在智能科学领域有较深入的研究,并在国内外一流期刊发表多篇文章。

读者反馈

  • 本书基于股票大数据,系统地介绍了数据挖掘的理论、方法和股票应用案例,可以作为金融、统计、计算机等学科的本科专业教材或研究生教材。相比一般的数据挖掘教材,以股票挖掘投资作为切入点,更容易激发学生的学习兴趣,这对开展教学非常有利。

    厦门大学软件学院 副院长、教授、博导 王备战

  • 这本书介绍的方法具有很强的实战意义,全面介绍了如何将一个实际问题抽象和转化为数据挖掘的问题。先基础再方法最后实战应用的结构,让读者在学习数据挖掘技术和股票挖掘及投资的过程中有一个循序渐进的过程,对于读者来说具有较大的参考价值。

    中国科学院深圳先进技术研究院 教授、博导 姜青山

  • 对于从事股票挖掘及投资的专业人士来说,书中的数据挖掘技术是值得借鉴的。书中的股票挖掘实例基本都具有实战的背景,可以尝试将这些技术和策略融入自己的思想和策略中,以让自己的策略更强大。

    厦门市鑫鼎盛控股有限公司 总经理、执行董事 陈洪生

  • 这本书所构建的知识体系非常全面完善。在技术上,不仅包含了数据挖掘中常见方法,如关联分析、分类、聚类等,还包括自然语言处理方法、深度学习方法、舆情分析方法、行为金融学心理学等方法;在数据应用上,不仅包含每笔成交数据的分析,还包括财务数据、新闻数据、股吧论坛、机构研报、用户行为等方面的分析。

    天云大数据 首席执行官 雷涛

  • 在大数据时代,数据挖掘无疑是最炙手可热的技术。这本书结合了丰富的金融业数据资源,通过构建的股票大数据挖掘平台,介绍如何利用数据挖掘技术进行股票挖掘和投资实践。本书是当前国内股票数据挖掘体系最全的著作,希望能为从事投资工作的人士、在校师生提供参考和借鉴。

    福建通信信息报社 总编辑 刘红权

  • 本书的理论方法都配合股票的实战应用案例进行讲解,理论与实践相得益彰,能够为中国的基金、公募、私募以及个人投资者提高股票挖掘和股票投资水平起到抛砖引玉的作用。

    泉州金控集团 党委书记、董事长 蔡洪潮