一种基于聚类的常去地识别方法及装置、存储介质-好方法网

技术摘要：
本申请公开了一种基于聚类的常去地识别方法及装置、存储介质、计算机设备，该方法包括：获取用户行程数据，其中，所述用户行程数据包括目的地坐标；对所述目的地坐标进行聚类，得到至少一个目的地坐标簇，以使任一所述目的地簇中包含的目的地坐标的数量大于或等于最小全部
背景技术：
基于用户APP的GPS定位的数据，分析和推测用户的行为习惯、消费水平和家庭状况等，进而据此为用户提供更加个性化的服务和推荐，是目前LBS的常规应用方式。包括百度、阿里和腾讯在内的许多巨头，都在积极运用LBS类型的画像，强化客群的智能运营。在此过程中，通过处理和分析GPS打点数据识别用户的常去地点，是极其重要的一环。能准确识别客户的常去地点，对于改善用户画像的精准度，提升业务侧在用户运营方面的效率和满意度，都有非常积极的作用。在传统的用户常去地点识别方法中，一般需要先对单个用户的GPS打点区域进行分块，统计各块内GPS坐标点数量并据此对分块排序，然后取TOPn的块作为用户常去的n个地点块，最后再取块内中心点作为用户常去点坐标。传统方法存在明显不足，结果准确性也相当有限：首先，对不同用户的打点区域分块的粒度难以把握，过细则导致常去地一点多分的情况；过大则容易导致无法区分较近的多个常去地点。其次，分块边界容易对GPS打点数据造成分割，且对于边界附近坐标点的归属问题也没有很可靠解决方案，例如，高频打点的用户在常去地的打点数据非常容易被分块边界影响，导致一个常去地点的GPS打点数据被分割至多个分块，进而造成一点多分。
技术实现要素：
有鉴于此，本申请提供了一种基于聚类的常去地识别方法及装置、存储介质、计算机设备，得到的常去地与用户个体更加匹配，并且解决了现有技术中区域分块粒度难以把握的问题。根据本申请的一个方面，提供了一种基于聚类的常去地识别方法，包括：获取用户行程数据，其中，所述用户行程数据包括目的地坐标；对所述目的地坐标进行聚类，得到至少一个目的地坐标簇，以使任一所述目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一所述目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值；计算每个所述目的地坐标簇的聚类中心；基于所述聚类中心，识别用户的常去地。具体地，所述对所述目的地坐标进行聚类，得到至少一个目的地坐标簇，具体包括：步骤1，利用全部所述目的地坐标建立目的地坐标集合D，并将所述目的地坐标集合中的每个所述目的地坐标标记为未被访问；步骤2，选取一个未被访问的所述目的地坐标p，并将所选取的所述目的地坐标p标 4 CN 111611500 A 说　明　书 2/10 页记为已被访问；步骤3，从所述目的地坐标集合中获取所述目的地坐标p的邻域目的地坐标，并统计所述邻域目的地坐标中的所述目的地坐标的数量，其中，所述邻域目的地坐标与所述目的地坐标p之间距离可达；步骤4，若所述数量小于所述最小数量阈值，则将所述目的地坐标p标记为噪声点；步骤5，若所述数量大于或等于所述最小数量阈值，则根据所述目的地坐标p及其所述邻域目的地坐标建立候选集合N；步骤6，建立所述目的地坐标p的目的地坐标簇C，并将所述候选集合N中未被访问的所述目的地坐标加入所述目的地坐标簇C中；步骤7，重复上述步骤2至步骤6，直至所述目的地坐标集合D中不包括未被访问的目的地坐标。具体地，所述计算每个所述目的地坐标簇的聚类中心，具体包括：计算任一所述目的地坐标簇中的目的地坐标的平均值，将所述平均值作为所述目的地坐标簇的聚类中心。具体地，所述基于所述聚类中心，识别用户的常去地，具体包括：统计任一所述目的地坐标簇中包含的所述目的地坐标数据的数量；计算任一所述目的地坐标簇的目的地坐标的数量占所述目的地坐标总数量的第一比重；按照所述第一比重以及第一最小比重阈值和/或第一预设常去地数量，从所述聚类中心中识别出常去地坐标。具体地，所述基于所述聚类中心，识别用户的常去地之后，所述方法还包括：输出所述常去地坐标及其对应的所述第一比重。具体地，所述用户行程数据还包括与所述目的地坐标对应的停留时间；所述对所述目的地坐标进行聚类，得到至少一个目的地坐标簇，具体包括：获取停留时间大于或等于最小停留时间阈值的目标目的地坐标；对所述目标目的地坐标进行聚类，得到至少一个所述目的地坐标簇。具体地，所述基于所述聚类中心，识别用户的常去地，具体包括：统计任一所述目的地坐标簇中包含的所述目的地坐标对应的停留时间之和；计算任一所述目的地坐标簇对应的停留时间之和占所述目标目的地坐标对应的停留时间总和的第二比重；按照所述第二比重以及第二最小比重阈值和/或第二预设常去地数量，从所述聚类中心中识别出常去地坐标。根据本申请的另一方面，提供了一种基于聚类的常去地识别装置，包括：行程数据获取模块，用于获取用户行程数据，其中，所述用户行程数据包括目的地坐标；目的地聚类模块，用于对所述目的地坐标进行聚类，得到至少一个目的地坐标簇，以使任一所述目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一所述目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值； 5 CN 111611500 A 说　明　书 3/10 页聚类中心计算模块，用于计算每个所述目的地坐标簇的聚类中心；常去地识别模块，用于基于所述聚类中心，识别用户的常去地。具体地，所述目的地聚类模块，具体包括：坐标集合建立单元，用于执行步骤1，利用全部所述目的地坐标建立目的地坐标集合D，并将所述目的地坐标集合中的每个所述目的地坐标标记为未被访问；坐标选取单元，用于执行步骤2，选取一个未被访问的所述目的地坐标p，并将所选取的所述目的地坐标p标记为已被访问；邻域坐标获取单元，用于执行步骤3，从所述目的地坐标集合中获取所述目的地坐标p的邻域目的地坐标，并统计所述邻域目的地坐标中的所述目的地坐标的数量，其中，所述邻域目的地坐标与所述目的地坐标p之间距离可达；噪声点标记单元，用于执行步骤4，若所述数量小于所述最小数量阈值，则将所述目的地坐标p标记为噪声点；候选集合建立单元，用于执行步骤5，若所述数量大于或等于所述最小数量阈值，则根据所述目的地坐标p及其所述邻域目的地坐标建立候选集合N；坐标簇建立单元，用于执行步骤6，建立所述目的地坐标p的目的地坐标簇C，并将所述候选集合N中未被访问的所述目的地坐标加入所述目的地坐标簇C中；聚类单元，用于执行步骤7，重复上述步骤2至步骤6，直至所述目的地坐标集合D中不包括未被访问的目的地坐标。具体地，所述聚类中心计算模块，具体用于计算任一所述目的地坐标簇中的目的地坐标的平均值，将所述平均值作为所述目的地坐标簇的聚类中心。具体地，所述常去地识别模块，具体包括：数量统计单元，用于统计任一所述目的地坐标簇中包含的所述目的地坐标数据的数量；第一比重计算单元，用于计算任一所述目的地坐标簇的目的地坐标的数量占所述目的地坐标总数量的第一比重；第一识别单元，用于按照所述第一比重以及第一最小比重阈值和/或第一预设常去地数量，从所述聚类中心中识别出常去地坐标。具体地，所述装置还包括：常去地输出模块，用于基于所述聚类中心，识别用户的常去地之后，输出所述常去地坐标及其对应的所述第一比重。具体地，所述用户行程数据还包括与所述目的地坐标对应的停留时间；所述目的地聚类模块，具体用于：获取停留时间大于或等于最小停留时间阈值的目标目的地坐标；以及对所述目标目的地坐标进行聚类，得到至少一个所述目的地坐标簇。具体地，所述常去地识别模块，具体包括：时间统计单元，用于统计任一所述目的地坐标簇中包含的所述目的地坐标对应的停留时间之和；第二比重计算单元，用于计算任一所述目的地坐标簇对应的停留时间之和占所述目标目的地坐标对应的停留时间总和的第二比重； 6 CN 111611500 A 说　明　书 4/10 页第二识别单元，用于按照所述第二比重以及第二最小比重阈值和/或第二预设常去地数量，从所述聚类中心中识别出常去地坐标。依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述基于聚类的常去地识别方法。依据本申请再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于聚类的常去地识别方法。借由上述技术方案，本申请提供的一种基于聚类的常去地识别方法及装置、存储介质、计算机设备，依据用户行程数据中包含的目的地坐标，进行聚类分析，将目的地坐标划分为目的地坐标簇，使得每个目的地坐标簇中包含不小于最小数量阈值的目的地坐标，并且同一个目的地坐标簇之间的目的地坐标是可达的，从而保证聚类分析粒度不会过细也不会过粗，而后，分别求解每个目的地坐标簇的聚类中心，进而从聚类中心中识别出用户的常去地。本申请实施例与现有技术中基于地图进行区域分块，进而统计各块内的目的地坐标数量确定用户常去地的方法来说，通过对特定用户的目的地坐标聚类的方式划分坐标簇，从而基于坐标簇的聚类中心确定用户常去地，所得到的常去地与用户个体更加匹配，并且解决了现有技术中区域分块粒度难以把握的问题。上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的

下载此资料需消耗2积分，

相关推荐