Power BI: 如何进行数据模糊匹配

发布时间 2023-09-15 00:49:22作者: 牛猫Data
问题描述:
业务同事反馈,最近在做一个送赠品的活动。发现有相当一部分用户有薅羊毛的嫌疑。
询问是否有方法可以找快递地址的相似度,业务同事会设置几个相似度百分比级别,把达到相似度级别的地址找出然后进行人工鉴定。
由于相关分析报告前期都是在Power BI中完成,所以询问是否可以在Power BI中完成类似操作?
 
解决方案:
整个项目较为复杂,通过这个问题背景,我们介绍一下如何通过Power BI模糊匹配找出相似度高的地址。
模糊匹配功能可设置两个对比列的阈值,然后便可把达到阈值的信息过滤出来。
 
操作步骤:
1,通过Power BI Desktop导入Excel版本测试数据;
 
2,进入Power query editor模式,点击【原始地址表】 -> 【Home】 -> 【Merge Querys】 -> 【Merge Querys as New】;
 
3, 在弹出框中,首先选择第一张表【原始地址】 -> 点击【Address】字段 -> 然后选择匹配的表【可疑地址】-> 点击【Address】字段-> 勾选模糊匹配【Use fuzzy matching to perform the merge】-> 输入相似度的阈值,我们举例写入【0.8】也就是80%-> 点击【Ok】;
 
4, 生成新表【Merge1】,多了一列'可疑地址'; 通过点击【<>】按钮,然后勾选全部列展示;
 
5, 选择全部列展示后,结果会发现展示区中,符合80%阈值的地址会关联匹配出来;
 
本篇仅为读者拓宽使用模糊查询的思路和操作方法,在大家使用工作中还会有其他的类似场景会用到。
建议大家亲自做一下练习,便于消化吸收。