logo好方法网

融合文本信息的信用债发债主体违约风险评估方法


技术摘要:
本发明公开了一种融合文本信息的信用债发债主体违约风险评估方法,包括:构建违约词典;计算新闻舆情负面程度值;获取宏观数据、财务数据、是否发生违约的数据;构建训练样本和测试样本;以上一季度的宏观数据、新闻舆情负面程度值和财务数据为输入值,以下一季度是否  全部
背景技术:
目前债券违约现象日益升温,违约余额日渐增大,违约严重程度日益严重。在债券 市场信用风险加速暴露、违约事件发生趋于常态化的背景下,如何对发债主体违约风险进 行有效评估与提前预测成为当前面临的主要问题。 但已有的国内外信用评级体系均存在所考虑的信用评级要素侧重评估偿债能力 对偿还意愿分析不足、在评级信息上主要依赖容易量化分析的结构化数据,如财务指标等, 对一些难以量化的因素,如政策因素、管理水平等,则运用定性的方法进行评价,容易产生 依赖于专家的定性分析主观成分较大,难以建立统一的标准进行客观评价等问题。 因此,在财务分析的基础上,建立一种能够利用非结构化数据,并综合考虑传统方 法难以量化因素的违约风险评估方法是亟待解决的问题。
技术实现要素:
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。 本发明还有一个目的是提供一种融合文本信息的信用债发债主体违约风险评估 方法,融合文本信息,将难以利用结构化数据度量,且引入评估时存在较大的主观随意性的 指标,以更为客观的方式纳入风险评估过程中,增强评估方法的可信度。 为了实现根据本发明的这些目的和其它优点,提供了一种融合文本信息的信用债 发债主体违约风险评估方法,包括: 构建违约词典,所述违约词典包括多个违约风险类别,每个违约风险类别具有权 重,且所有违约风险类别的权重之和等于1,每个违约风险类别包括至少1个种子词和该种 子词的至少0个扩展词,所述种子词和所述扩展词构成对应违约风险类别的特征词,所述特 征词为负面词,每个特征词具有量化的风险程度值; 计算发债主体上一季度的新闻舆情负面程度值:获取上一季度期间内与发债主体 相关的新闻标题文本,计算新闻标题文本中特征词的词频,对发债主体所有特征词的词频、 违约风险类别的权重、特征词的风险程度值乘积累加,所得数值即为该发债主体的上一季 度的新闻舆情负面程度值; 获取上一季度的宏观数据和该发债主体的上一季度的财务数据,获取该发债主体 下一季度是否发生违约的数据; 以多个发债主体的上一季度的新闻舆情负面程度值和财务数据、上一季度的宏观 数据、发债主体下一季度是否发生违约的数据构建多个样本,选取其中一部分样本作为训 练样本,选取其中一部分样本作为测试样本; 以上一季度的宏观数据、发债主体的上一季度的新闻舆情负面程度值和财务数据 4 CN 111583012 A 说 明 书 2/6 页 为输入值,以该发债主体下一季度实际是否发生违约的数据为输出值,构建评估模型,并以 训练样本训练该评估模型,直至得到采用测试样本测试稳定的评估模型; 计算待评估发债主体上一季度的新闻舆情负面程度值,获取上一季度的宏观数据 和待评估发债主体上一季度的财务数据,输入至测试稳定的评估模型,输出得到该发债主 体在当前季度是否发生违约的评估数据。 优选的是,评估模型的公式如式1所示: 其中,Ωt-τ表示发债主体发生违约风险之前的新闻舆情负面程度值、宏观数据、财 务数据,t表示违约日期或到期日所在的季度,τ表示领先季度数;P(Yi=1|Ωt-τ)表示利用 发债主体发生违约风险之前的新闻舆情负面程度值、宏观数据、财务数据判断该发债主体 未来的发生违约的概率;xi为进入评估模型的解释变量,β为变量的回归系数;Yi取值0或者 1,代表评估模型中的两类结果,其中0表示发债主体i被判定为未违约,1表示发债主体i被 判定为发生违约。 优选的是,训练样本中违约发债主体与健康发债主体的比例为1:3,其中,健康发 债主体是指下一季度未发生违约的发债主体,训练样本输入时Y取值为0或1,输出时则为取 值在0~1之间的概率,并且以概率值0.647作为输出时的发债主体是否违约的分类分界点。 优选的是,违约风险类别包括监管品质、财务状况、投融资、经营管理、市场信息, 并且其权重分别为30%、20%、20%、10%、20%。 优选的是,所述特征词的风险程度值分为高风险、中风险、低风险三个等级,并且 其量化值分别为3、2、1。 优选的是,扩展词获取的方法为:对新闻标题和正文进行分词处理,利用word2vec 技术在分词处理过的新闻标题和正文中进行拓展,然后再采用金融情感词典筛除中性词和 正面词,计算剩余词语与每个种子词的向量相似度,根据向量相似度筛选得到每个种子词 的扩展词。 优选的是,宏观数据为每个季度的固定资产投资额增速; 财务数据为从第三方平台或公开媒体获得的发债主体的每个季度的财务报表,然 后根据财务报表计算得到的留存收益比率、销售利润比率、速动比率、运营资本比率、资产 负债比率、应收账款周转率。 本发明至少包括以下有益效果: 第一、过构建违约词典,收集发债主体相关的新联标题,构建新闻舆情负面程度指 标,可以将监管环境、企业品质、经营运作、治理水平、市场信息等难以利用结构化数据度 量,或者在传统评估中被排除在外或者引入评估时存在较大的主观随意性的指标,以较为 客观的方式纳入风险评估过程中,增强了评估方法的可信度和解释力。 第二、采用2019年一季度以来10家未进入训练样本的违约公司和随机匹配的30家 正常到期的健康公司作为测试样本集,对模型预测能力进行检验,所有违约样本都预测正 确,模型几乎未发生Ⅰ类(将违约公司误判为正常公司的概率)错误,总体正确率为77.5%。 第三、本发明融合宏观数据、财务数据和新闻数据三大类信息,显著提高了发债主 体违约风险评估的准确性和可解释性。 5 CN 111583012 A 说 明 书 3/6 页 第四,本发明使用逻辑回归模型,对于数据无需假定任何概率分布,也不要求等协 方差性,这与现实中发债主体的真实情况相接近,具有较强的实用性和可拓展性。 本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本 发明的研究和实践而为本领域的技术人员所理解。 附图说明 图1为本发明的其中一种技术方案的框架图。
下载此资料需消耗2积分,
分享到:
收藏