技术摘要:
本发明涉及文本信息审核技术领域,尤其是一种基于深度学习审核短信文本链接的方法及装置,本发明先调用第三方接口检查网址是否健康,再给短信链接页面截图,接着通过调用OCR接口提取截图页面中的字符,再清洗字符,最后进行审核;采用本发明的方法短信文本与网址可分开 全部
背景技术:
在短信发送平台,大多数短信都带有网址信息。当人工审核短信时,除了审核短信 文本内容外,还需要手动打开浏览器查看短信文本链接是否符合规范性。由于全过程需要 人工处理,这导致了审核效率低且准确率低。目前只有检测网址是否健康的第三方接口,但 是没有专门针对短信业务的审核工具,所以这类第三方接口无法直接作为短信文本链接的 审核工具。 综上所述,现有技术基于人工审核短信链接的准确率低且效率低,因此本发明提 出了一种基于深度学习审核短信文本链接的方法及装置可以解决上述缺陷。 现有技术相关知识点介绍: OCR接口:OCR(Optical Character Recognition,光学字符识别),对文本资料的 图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别, 并以文本的形式返回。它的处理过程为版面分析,预处理,行列切割,字符识别,后处理识别 矫正。把这种功能做成其它函数可以调用的接口,即为OCR接口。
技术实现要素:
针对上述现有技术中存在的不足,本发明的目的在于提供了一种基于深度学习审 核短信文本链接的方法及装置,解决现有技术准确率低且效率低的问题。 为解决上述问题,本发明公开了一种基于深度学习审核短信文本链接的方法,包 括以下步骤: S1.从待审核的含网站信息的短信文本中分离出文本信息和网址信息; S2.通过事先训练好的行业分类器对待审核的短信文本进行行业类别识别,对含 有网址信息的短信文本记作r_text; S3.调用第三方的接口检查网址是否健康;若不健康,则直接驳回该条短信文本; 若健康,则模拟浏览器打开该网址链接后截图整个页面; S4.调用第三方的接口对S3的截图进行文本信息识别; S5.对S4的文本信息进行数据清洗,只保留中文字符; S6.用行业分类器对清洗后的数据进行分类识别,对应结果记作r_url; S7.匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审 核通过,若不一致则直接驳回该条短信文本。 作为优先,S1所述的从短信文本中分离出文本信息和网址信息具体方法如下:通 过正则表达式从含有网址的短信文本中提取网址。 作为优先,S2所述的行业分类器生成方法如下:把短信文本集合按类别划分,然后 3 CN 111597805 A 说 明 书 2/5 页 利用基于语言模型的深度学习分类器进行训练,最后生成一个行业分类器。 作为优先,S4所述的第三方接口采用开源的Tesseract-OCR。 为解决上述问题,本发明公开了一种基于深度学习审核短信文本链接的装置,包 括: 文本分离模块,用于从待审核的含网站信息的短信文本中分离出文本信息和网址 信息; 行业分类模块,用于对待审核的短信文本进行行业类别识别,对含有网址信息的 短信文本记作r_text;对清洗后的数据进行分类识别,对应结果记作r_url; 接口检测模块,用于检查网址是否健康;若不健康,则直接驳回该条短信文本;若 健康,则模拟浏览器打开该网址链接后截图整个页面; 文本识别模块,用于对截图进行文本信息识别; 数据清洗模块,用于对文本信息进行数据清洗,只保留中文字符; 数据匹配模块,用于匹配r_text的行业类别与r_url的行业类别,如果一致则说明 该条短信文本审核通过,若不一致则直接驳回该条短信文本。 为解决上述问题,本发明还公开了一种计算设备,包括: 一个或多个处理器; 存储器;以及 一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所 述一个或多个处理器执行,所述一个或多个程序包括用于执行根据所述的方法中的任一方 法的指令。 为解决上述问题,本发明还公开了一种存储一个或多个程序的计算机可读存储介 质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行 根据所述的方法中的任一方法。 由于采用上述技术方案,本发明有着如下有益效果:本发明先调用第三方接口检 查网址是否健康,再给短信链接页面截图,接着通过调用OCR接口提取截图页面中的字符, 再清洗字符,最后进行审核。采用本发明的方法短信文本与网址可分开同时处理,能自动对 包含网址链接的短信文本进行审核,完全替代人工审核。因此可以提供高并发的短信链接 审核,提供高准确率的短信链接审核,提供持续的短信链接审核,极大的提高了短信审核的 准确率与效率。 附图说明 图1是本发明的整体流程示意图; 图2是本发明实施例的流程示意图。