基于机器学习的电信网络诈骗受害人群分析

#技术笔记 2025-04-16

• 核心任务： 1. 对用户描述信息（如年龄、职业、行为日志）进行聚类，识别高危人群类别。 2. 通过LDA主题模型挖掘每类人群的共性特征（如“老年群体-轻信保健品广告”）。 3. 构建用户画像与知识图谱，最终通过问答生成结构化报告。

• 创新点：从“数据驱动”的视角，将传统规则引擎升级为“聚类+主题模型+知识图谱”的动态分析框架。

二、各模块详细设计

• 数据特征：

◦ 描述信息：年龄、性别、职业、历史投诉记录。

◦ 行为特征：通话频率、短信关键词（如“验证码”“中奖”）、夜间活动占比。

• 聚类方法：

1. 标准化数据（归一化）。

2. 选择算法：K-means（需确定K值，可用轮廓系数优化）➕DBSCAN（处理噪声数据）。

◦ 输出：聚类标签（如Cluster_0: 高频国际通话+低社交活跃度）。

• 输入数据：

◦ 将用户行为日志转化为文本语料（例如：将“近7天访问赌博网站3次”编码为“赌博_3次”）。

• 主题建模：

◦ 参数设置：主题数=聚类数，超参数α/β调优。

◦ 结果解读：

▪ 每个主题的Top关键词（如主题1: ["中奖", "验证码", "转账"]）。

▪ 将主题映射到诈骗类型（如主题1=“虚假中奖诈骗”）。

• 画像维度：

• 输出形式：

◦ 每个聚类对应一个画像模板（如“老年高危群体：轻信保健品广告+夜间通话频繁”）。

• 本体设计：

◦ 实体：用户、诈骗类型、行为特征、社交关系。

◦ 关系：

▪ 用户 → 具有 → 高危行为（如“频繁访问赌博网站”）。

▪ 用户 → 关联 → 诈骗类型（如“虚假中奖”）。

• 工具与可视化：

◦ 使用Neo4j构建图数据库，

总体思路

围绕“数据融合驱动、模型智能研判、治理精准干预”的总体目标，构建“全要素感知-动态化推演-协同化治理”的社会稳定态势分析研判技术体系，具体分三阶段推进：

（1）多源数据融合：全面收集涵盖公安警情、人口、信访等多领域数据，搭建综合性数据资源池。对数据进行清洗、转换与加载，保障数据质量，为模型提供坚实数据基础。

（2）智能研判模型构建：基于大模型动态提取人员、事件特征标签，构建动态事件关系图谱、人事关系图谱以及人员稳态评估模型，建立“事件-人员”多维耦合分析框架，实现风险从“隐性关联”到“显性预警”的全链条预判。

（3）分析研判体系构建：基于智能研判输出结果，构建多维度分析研判体系。从人员稳定风险等级评估、事件风险等级评估、事故处置推荐等方面，为社会治理提供科学决策依据。例如，对群体性事件的衍生风险进行预测，并结合知识库提供推荐处置措施。 ## 逻辑视图