北京工商大学嘉华学院【青年英才计划】系列四:张瑞亭
机器学习理论研究及其在金融领域的应用
随着互联网技术的日益发展,面对快速增长的海量数据,我们应该如何挖掘数据中蕴含的信息?数据只是数据,它的价值,是在我们进行数据挖掘和分析过程中体现出来的。
2012年10月,哈佛商业评论有一篇专题文章《数据科学家:21世纪最性感的职业》(Data Scientist: The Sexiest Job of the 21st Century)。文章指出,“数据科学家”是企业中新出现的一个职业,主要职责是进行整理数据、挖掘潜在信息。
机器学习是继专家系统之后人工智能应用的又一重要研究领域,是人工智能的核心,在金融、工业、商业、互联网以及航天等各个领域均发挥着重要的作用。对机器学习的研究,必将促进人工智能乃至整体科学技术的进一步发展。
近年来,研究人员将神经网络、遗传算法以及系统理论等诸多理论与方法应用于金融领域。机器学习理论及其在金融领域的应用成为了一个比较热的研究领域。基于目前机器学习中存在的问题,本研究课题拟整合参数估计方法和非参数估计方法的优势,改进支持向量机以使其适应金融数据挖掘领域,这无疑将为金融市场提供科学、有力的实践指导,对于促进金融研究与管理具有十分重要意义。
随着科学技术的飞速发展和数据获取方式的多样化,人类拥有的数据急剧增加,在大数据时代,数据已成为新型战略资源,是驱动创新的重要因素,如何获取隐藏在数据背后潜在的规律倍受研究人员关注。
数据挖掘是一门边缘应用学科,它的蓬勃发展源于它在各个领域的广泛应用。大数据时代下金融专业的教学应该重视以下方面应用:深度学习(Deep Learning)、机器学习和数据挖掘、分布式计算(如MR、Hadoop等)。在大数据中预测最先取得突破的技术环节将会是分析中的大数据挖掘与关联分析、存储结构和系统、数据采集和数据化。
目前金融问题的研究方向和发展趋势,主要集中在计量经济方法,例如,格兰杰因果分析、向量自回归、条件异方差、随机波动分析等。这些计量经济方法和技术大部分使用了线性技术,以及与金融市场不太吻合的理论假设,基于这些方法的结果,例如,资产预测价格、发展动态以及风险评估结果和实际出入较大,从而影响了金融管理的效率。
因而,抓住分析大数据的方法,就等于抓住了大数据的咽喉。如何将已有分析数据算法整合,让学生抓住重点,挖掘到比较可靠的信息或知识,将成为金融专业教学的研究目标和嘉华学院国际化发展的努力方向。
近年来,随着银行等金融机构信贷业务的发展,信用评估的重要性日益增强。信用评估就是授信者根据贷款申请人的可知信用信息,利用各种信用评估模型,对可能引起信用风险的因素进行定性和定量分析,以期得到贷款申请人的还款概率,据此决定是否授信及授信额度的过程。
信用评估本质上是一个非线性分类问题,为了提高信用评估的精确度,降低信用风险,近些年一系列统计方法和非统计方法被广泛应用到信用评估模型中来。
常用的统计方法有判别分析、Logistic回归等,这些常用的统计方法假定条件非常严格,在实际应用中很难达到理想效果。常用的非统计方法有分类树方法、K-近邻判别分析、神经网络、支持向量机等。基于这些常用非统计方法的信用评估模型,其预测能力较好,但不能量化解释指标的程度。例如,K-近邻判别分析,按照数据样本之间的距离或相关系数度量亲属关系,受少数异常数据影响较大。
支持向量机是一种基于结构风险最小化的非线性判别方法,特别是在解决小样本、非线性模式识别中表现出许多优势,推广能力较强,得到了研究者的高度关注,但支持向量机在解决高维数据时,容易导致高维小样本问题,从而造成比较差的预测结果。
为了克服支持向量机的这种不足,本研究课题提出了支持张量机这种新的机器学习方法,可以有效地减少模型中变量的个数,进而避免高维小样本问题。运用德国信用数据集将支持张量机与支持向量机进行实验分析,验证了支持张量机在解决信用评估问题上的有效性,进一步推动了信用评估的发展。