基于机器学习的电信网络诈骗受害人群分析
  1. 研究目标

• 核心任务: 1. 对用户描述信息(如年龄、职业、行为日志)进行聚类,识别高危人群类别。 2. 通过LDA主题模型挖掘每类人群的共性特征(如“老年群体-轻信保健品广告”)。 3. 构建用户画像与知识图谱,最终通过问答生成结构化报告。

• 创新点: 从“数据驱动”的视角,将传统规则引擎升级为“聚类+主题模型+知识图谱”的动态分析框架。

二、各模块详细设计

  1. 数据预处理与聚类分析

• 数据特征:

◦ 描述信息:年龄、性别、职业、历史投诉记录。

◦ 行为特征:通话频率、短信关键词(如“验证码”“中奖”)、夜间活动占比。

• 聚类方法:

1. 标准化数据(归一化)。

2. 选择算法:K-means(需确定K值,可用轮廓系数优化)➕DBSCAN(处理噪声数据)。

◦ 输出:聚类标签(如Cluster_0: 高频国际通话+低社交活跃度)。

  1. LDA主题分析

• 输入数据:

◦ 将用户行为日志转化为文本语料(例如:将“近7天访问赌博网站3次”编码为“赌博_3次”)。

• 主题建模:

◦ 参数设置:主题数=聚类数,超参数α/β调优。

◦ 结果解读:

▪ 每个主题的Top关键词(如主题1: ["中奖", "验证码", "转账"])。

▪ 将主题映射到诈骗类型(如主题1=“虚假中奖诈骗”)。
  1. 用户画像构建

• 画像维度:

• 输出形式:

◦ 每个聚类对应一个画像模板(如“老年高危群体:轻信保健品广告+夜间通话频繁”)。

  1. 知识图谱构建

• 本体设计:

◦ 实体:用户、诈骗类型、行为特征、社交关系。

◦ 关系:

▪ 用户 → 具有 → 高危行为(如“频繁访问赌博网站”)。

▪ 用户 → 关联 → 诈骗类型(如“虚假中奖”)。

• 工具与可视化:

◦ 使用Neo4j构建图数据库,

总体思路

围绕“数据融合驱动、模型智能研判、治理精准干预”的总体目标,构建“全要素感知-动态化推演-协同化治理”的社会稳定态势分析研判技术体系,具体分三阶段推进:

(1)多源数据融合:全面收集涵盖公安警情、人口、信访等多领域数据,搭建综合性数据资源池。对数据进行清洗、转换与加载,保障数据质量,为模型提供坚实数据基础。

(2)智能研判模型构建:基于大模型动态提取人员、事件特征标签,构建动态事件关系图谱、人事关系图谱以及人员稳态评估模型,建立“事件-人员”多维耦合分析框架,实现风险从“隐性关联”到“显性预警”的全链条预判。

(3)分析研判体系构建:基于智能研判输出结果,构建多维度分析研判体系。从人员稳定风险等级评估、事件风险等级评估、事故处置推荐等方面,为社会治理提供科学决策依据。例如,对群体性事件的衍生风险进行预测,并结合知识库提供推荐处置措施。 ## 逻辑视图

开发视图

运行视图