logo好方法网

基于大数据的网销商品检验抽样方法


技术摘要:
本发明公开了基于大数据的网销商品检验抽样方法,该方法中针对某同类商品的情感得分计算步骤包括:B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据在内的数据信息;B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)  全部
背景技术:
在质量管理过程中,要对产品进行检测,以判断产品的总体质量状况。在检测中, 抽检的数量不仅密切影响着总体质量判断的准确性,同时也和时间成本、资金成本、人员成 本等密切相关。 随着社会生活的不断发展,网络销售模式亦在不断演变和进化,网购逐渐深入到 千家万户,越来越多的人接受和选择通过各种网络销售平台采买所需的商品和物资。但是, 对于网络平台商品而言,由于存在着品牌多、商品分类复杂、商品总数不确定、销售渠道不 固定等诸多问题,尤其是总体商品总数的不确定,使得传统的抽检方法难以很好地适用于 网销产品来确定适合的抽样概率或抽样数量。 网络销售商品的质量控制一直都是质量监管部门、网销平台关注的核心问题,如 何在商品总数不确定、销售渠道不固定、品牌多、商品分类复杂的情况下,获得适合的抽样 数量,或者如何确定适合的或较少的抽样数量,来获得较高的判断准确性,均是目前亟待解 决的问题。
技术实现要素:
发明目的:为了解决现有技术中的不足,本发明的目的是提供一种基于大数据的 网销商品检验抽样方法。 技术方案:为解决上述技术问题,本发明提供的一种基于大数据的网销商品检验 抽样方法,其包括情感得分计算步骤和抽样数据计算步骤; 其中针对某同类商品的情感得分计算步骤包括: B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、 评论数据、销售量数据在内的数据信息; B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链 接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分; B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商 品情感得分; 其中针对某同类商品的抽样数据计算步骤包括: C1)根据该同类商品下各网销商品链接的商品情感得分,结合品牌数据,计算得到 该同类商品下各品牌的各个网销商品链接的商品先验概率,以及该同类商品下各品牌的先 验概率; C2)结合该同类商品下的品牌数据,确定该同类商品下各品牌的入样概率; C4)结合该同类商品的待抽取商品总数,确定该同类商品下各品牌的商品抽样数 量。 7 CN 111612340 A 说 明 书 2/16 页 作为进一步优选的,所述步骤B1)为:采集网络平台上属于该同类商品的网销商品 链接及其对应的包括品牌数据、网销店铺数据、评论数据、销售量数据在内的数据信息; 所述步骤C2)后还包括步骤C3):结合该同类商品下的网销店铺数据和该同类商品 下各品牌的入样概率,确定该同类商品下各品牌在各网销店铺中的入样概率; 所述步骤C4)后还包括步骤C5):根据该同类商品的待抽取商品总数,确定该同类 商品下各品牌在各网销店铺中的商品抽样数量。 优选的,该方法还包括初始化步骤;其中初始化步骤包括:A0)基于网络平台上用 户对商品的多源评论数据,构建和/或更新商品的评论分析词典的步骤; 所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典; 其中情感词词典中包括若干情感词以及各情感词对应的情感词分值; 其中否定词词典中包括若干否定词; 其中程度词词典中包括若干程度词以及各程度词对应的程度词分值; 其中停用词词典中包括若干停用词。 作为进一步优选的,所述B2)通过基于评论分析词典的情感倾向分析方法,对步骤 B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评 论的情感得分的步骤中,基于评论分析词典的情感倾向分析方法对某一网销商品链接bij下 的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤: B21)子句分割:根据标点符号将条评论对应的评论文本c,拆分为若干子句 B22)修饰关系分析:根据评论分析词典,针对每个子句,识别该子句中的情感词 (a1,a2,…)、程度词(d1,d2,…)、否定词(h1,h2,…)和停用词,并记录其位置;结合停用词确 定各程度词、否定词所修饰的目标情感词,并结合评论分析词典中对应的程度词分值和情 感词分值,以及否定词的数量,确定该子句中各程度词、否定词与目标情感词之间的修饰关 系; B23)各子句情感得分计算:根据获得的修饰关系,确定各个子句的情感得分,其中 子句ci的情感得分为: 其中,|H|表示否定词出现的次数,D表示程度词分值, 表示情感词wk的情感词 分值,nw表示子句ci中情感词出现次数;其中,对si为正值的子句ci的情感得分用子句正向 情感得分 表示,对si为负值的子句ci的情感得分用子句负向情感得分用 表示; B24)该条评论情感得分计算:针对该条评论对应的评论文本c,将其所有子句中的 子句正向情感得分进行累加,得到该条评论的正向情感得分s ,将其所有子句中的子句负 向情感得分进行累加,得到该条评论的负向情感得分s-: 8 CN 111612340 A 说 明 书 3/16 页 其中,mc表示评论c的子句数量。 优选的,所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合标准 化和基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分; 其中,某一网销商品链接bij的商品情感得分为: 其中, 和 分别为该网销商品链接bij的正、负向情感标准分: 其中, nc是该网销商品链接bij下评论的总条数; 和 分别为该网销商品链接bij第k条评论ck的正、负向情感得分; 和 分别为该网销商品链接bij所有评论的正、负向情感得分的平均值; 和 分别为该网销商品链接bij所有评论的正、负向情感得分的标准差; 其中,α 和α-分别为正向权重和负向权重。 进一步优选的,针对网销商品链接b ,所述正向权重α -ij 和负向权重α通过如下步 骤获得: K1)将网销商品链接bij下的各条评论的正、负向情感得分分别进行min-max标准化 处理,使结果映射到[0,1]区间,包括: 将网销商品链接bij下所有评论中的正向情感得分转化为正向指标,其中,网销商 品链接bij第u条评论的正向指标 为: 以及,将网销商品链接bij下所有评论中的负向情感得分转化为负向指标,其中,网 销商品链接bij第u条评论的负向指标 为: 其中,u=1,2,…nc; 为网销商品链接bij第u条评论的正向情感得分;Max(S ) ,Min(S )分别为网销商 品链接bij所有评论中正向情感得分的最大值和最小值; 为网销商品链接bij第u条评论的负向情感得分;Max(S-) ,Min(S-)分别为网销商 9 CN 111612340 A 说 明 书 4/16 页 品链接bij所有评论中负向情感得分的最大值和最小值; K2)计算网销商品链接bij各条评论的正、负向指标的比重,其中,该网销商品链接 bij第u条评论的正、负向指标的比重分别为: K3)计算网销商品链接bij下所有评论的正向指标的熵值e 和负向指标的熵值e-: K4)计算网销商品链接bij下所有评论的正向指标的差异性系数g 和负向指标的差 异性系数g-: g =1-e g-=1-e- K5)计算得到网销商品链接b 的正向权重a ij 和负向权重a-: 优选的,所述步骤C1)根据该同类商品下各网销商品链接的商品情感得分,结合品 牌数据,计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率,以及该同类 商品下各品牌的先验概率中, 品牌Bi下网销商品链接bij的先验概率为: P(bij)=(Max(x)-xij)/(Max(x)-Min(x))×100% 其中,xij为网销商品链接bij的商品情感得分,Maxx(x)和Min(x)为该同类商品中 品牌Bi下所有网销商品链接中商品情感得分的最大值和最小值; 品牌Bi的先验概率为: 其中,wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重, ni为该同类商品下该品牌Bi的所有网销商品链接的数量。 优选的,所述步骤C2)确定该同类商品下各品牌的入样概率中, 同类商品G下品牌Bi的入样概率为: 10 CN 111612340 A 说 明 书 5/16 页 其中,P(G|Bi)为同类商品G下品牌Bi的销售量比重,nb为同类商品G下所有品牌的 数量; 所述步骤C4)结合该同类商品的待抽取商品总数,确定该同类商品下各品牌的商 品抽样数量中, 待检同类商品G下品牌Bi的商品抽样数量为: 其中,M为待检同类商品G的待抽取商品总数,其中符号 表示该符号中计算 出的数字向下取整。 优选的,所述步骤C3)结合该同类商品下的网销店铺数据和该同类商品下各品牌 的入样概率,确定该同类商品下各品牌在各网销店铺中的入样概率中, 同类商品G下品牌Bi在网销店铺Tk的入样概率为: 其中,P(Bi|Tk)为同类商品G下品牌Bi中网销店铺Tk的销售量比重,nt为同类商品G 下销售品牌Bi的网销店铺的数量; 所述步骤C5)根据该同类商品的待抽取商品总数,确定该同类商品下各品牌在各 网销店铺中的商品抽样数量中, 待检同类商品G下品牌Bi在网销店铺Tj中的商品抽样数量为: 其中符号 表示该符号中计算出的数字向下取整。 进一步优选的,通过所述步骤C2)确定该同类商品下各品牌的入样概率后,还包括 如下步骤: C2P1)结合质检历史数据,以优先数R5为比率对同类商品G下的选定品牌Bi , Bi 1,…,Bi h的入样概率进行加严处理,进而对同类商品G下所有品牌的入样概率进行归一 化处理: 其中, 此处,nb为同类商品G下所有品牌的数量; C2P2)更新同类商品G下所有品牌的入样概率为: P(Bk|G)=P′(Bk|G) 其中, 优选的,所述多源评论数据包括若干网络销售平台的评论数据。 优选的,所述步骤B2)中还包括异常值去除步骤,该步骤包括:通过基于评论分析 11 CN 111612340 A 说 明 书 6/16 页 词典的情感倾向分析方法对某一网销商品链接下的各条评论进行情感分析计算得到各条 评论的情感得分后,利用箱线图法,将该网销商品链接下的各条评论的正、负向情感得分中 的异常值去除。 优选的,所述步骤B3)后还包括步骤B4):结合步骤B3)得到的各网销商品链接的商 品情感得分和品牌数据,计算该同类商品下各品牌的情感得分; 其中该同类商品下某一品牌Bi的情感得分为: 其中, xij为网销商品链接bij的商品情感得分; wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重, ni为 该同类商品下该品牌Bi的所有网销商品链接的数量。 优选的,所述优先数 有益效果:本发明提供的基于大数据的网销商品检验抽样方法,通过将用户对网 销商品链接下的定性评论,转化为表示商品、品牌质量优劣的情感得分,进而转化为同类商 品下各个网销商品链接的商品先验概率,以及该同类商品下各品牌的先验概率,从而确定 出同类商品下各品牌的入样概率和商品抽样数量,以及同类商品下各品牌在各网销店铺中 的入样概率和商品抽样数量,与现有技术相比,包括如下优点: 1、基于大数据,将网销商品的用户评论转化为表示商品、品牌质量优劣的情感得 分,并以此作为先验概率为后续检验抽样提供计算基础,可以在商品总数不确定、销售渠道 不固定、品牌多、商品分类复杂的情况下,尤其是总体商品总数不确定的情况下,即可获得 相对适合的入样概率和抽样数量,使质量监控或抽检工作目标性更强,从而在有限的资源 下大幅提升抽样检测的效率。 2、通过本发明进行网销商品抽样检测前的抽样工作时,先将基于用户评论得到的 情感得分/情感倾向性分析,转化为表示网销商品链接对应的商品或品牌质量优劣的概率, 当各网销商品链接下的商品用户评价越差、对质量问题存在较多不满时,该网销商品链接 的商品情感得分就越低,先验概率就越大,则对应的商品抽样数量则越高,以加强抽检力度 进行重点关注;反之,当网销商品链接下的商品用户评价相对越好,其对应的情商品情感得 分就越高,先验概率就越低,则对应的商品抽样数量则越低,以相对降低抽检力度;抽样的 数据受到用户评论的影响而各不相同且各有侧重,更为科学合理。 3、通过将用户对网销商品链接下的定性评论,转化为表示商品、品牌质量优劣的 情感得分,放大差评(即负向情感得分)的作用,凸显更有问题的商品和品牌。 4、进一步提供以品牌为维度进行情感得分倾向的统计,可以避免由于网销商品对 应的网销商品链接名称复杂、散乱等带来的不利干扰影响。 5、进一步的,可大幅减弱刷单等现象带来的无用评价(如重复评价、套话评价等) 造成的数据影响和干扰,相比现有的好评率或好评度,提供更有参考意义的情感倾向得分, 供后续检验抽样提供参考。 6、进一步的,结合历史质检数据,引入以优先数为比率对同类商品下的某些选定 12 CN 111612340 A 说 明 书 7/16 页 品牌的入样概率进行加严处理的方法,使得检验抽样结合实时数据和历史数据,更合理更 有针对性。 7、实际应用场景下用户评论不断增加,本方法无需事先进行模型训练,克实时快 捷地适应评论数量变化,实现实时采集、实时计算,或滚动采集、 累积计算等各种方式,实时性强,灵活度高。 附图说明 图1为某网销同类商品的情感得分计算层次模型; 图2为评论分析词典中的情感词词典示意图; 图3为评论分析词典中的否定词词典示意图; 图4为评论分析词典中的程度词词典示意图; 图5为评论分析词典中的停用词词典示意图; 图6为网销商品链接下各条评论的情感得分计算流程示意图; 图7为箱线图去除异常值的示意图; 图8为某网销同类商品的分层抽样模型; 图9为实施例中给出的示例中同类商品(空调类)下各品牌的情感得分与各品牌的 先验概率的对照图; 图10为实施例中给出的示例中同类商品(空调类)下各品牌的情感得分、先验概率 以及入样概率的对照图; 图11为实施例中给出的示例中同类商品(空调类)下各品牌的入样概率在加严归 一化处理前后的对照图; 图12为实施例的举例中若干网销商品链接bij未进行标准化处理的的正向情感原 始得分(ScorePositive)和负向情感原始得分(ScoreNegative)数据对比图; 图13为实施例的举例中若干网销商品链接bij未进行标准化处理的正向情感原始 得分(ScorePositive)和进行标准化处理后的正向情感标准分(z_ScorePositive)的数据 对比图; 图14为实施例的举例中若干网销商品链接bij未进行标准化处理的负向情感原始 得分(ScoreNegative)和进行标准化处理后的负向情感标准分(z_ScoreNegative)的数据 对比图; 图15为实施例的举例中若干网销商品链接bij的好评度(Rate)与经过标准化和基 于熵的加权处理后的各网销商品链接bij的商品情感得分(z_Score)的数据对比图。
分享到:
收藏