基于对比学习的时间序列异常检测方法

2023-08-14 08:06:53 来源：程序员客栈

【导读】大家好，我是泳鱼。一个乐于探索和分享AI知识的码农！

时间序列异常检测是一项重要的任务，其目标是从时间序列的正常样本分布中识别异常样本。这一任务的最基本挑战在于学习一个能有效识别异常的表示映射。

它在许多领域中都有广泛的应用，例如工业设备状态监测、金融欺诈检测、故障诊断，以及汽车日常监测和维护等。然而，由于时间序列数据的复杂性和多样性，时间序列异常检测仍然是一个具有挑战性的问题。

(相关资料图)

在以往的时间序列异常检测中，使用最多的方法是基于Reconstruction（重建）的方法，但是在其表示学习可能会因其巨大的异常损失而损害性能。不同的是，对比学习旨在找到一种能明确区分任何实例的表示，这可能为时间序列异常检测带来更自然和有前景的表示。

日前，KDD 2023中，牛津大学与阿里巴巴联合发表的时间序列异常检测工作，提出了一种名为DCdetector的算法用于时间序列异常检测，这是一个多尺度双注意力对比表征学习模型（文末附原文及代码下载链接）。

DCdetector利用一个新颖的双注意力非对称设计来创建排列环境和纯对比损失，以引导学习过程，从而学习具有优越判别能力的排列不变表示。大量实验表明DCdetector在多个时间序列异常检测基准数据集上实现了不错的成果。本工作的主要贡献如下：

架构：基于对比学习的双分支注意结构，旨在学习排列不变表示差异的学习在正常点和异常点之间。同时，还提出了通道独立补丁来增强时间序列中的局部语义信息。在注意模块中提出了多尺度的算法，以减少补丁过程中的信息丢失。

优化：基于两个分支的相似性，设计了一个有效且鲁棒的损失函数。请注意，该模型是纯对比训练的，没有重建损失，这减少了异常造成的干扰。

性能和证明：DCdetector在6个多变量和一个单变量时间序列异常检测基准数据集上实现了与最先进的方法相媲美或优越的性能。我们还提供了理由讨论来解释我们的模型如何在没有负样本的情况下避免崩溃。

一、时间序列异常检测概述

在本文中，作者介绍了一些与DCdetector相关的工作，包括异常检测和对比学习。

检测时间序列中异常的方法多种多样，包括统计方法、经典机器学习方法和深度学习方法。统计方法包括使用移动平均、指数平滑和自回归综合移动平均（ARIMA）模型。机器学习方法包括聚类算法，如k-均值和基于密度的方法，以及分类算法，如决策树和支持向量机（SVMs）。深度学习方法包括使用自动编码器、变分自动编码器（VAEs）和循环神经网络（RNNs），如长短期记忆（LSTM）网络。最近在时间序列异常检测方面的工作还包括基于生成对抗网络（GANs）的方法和基于深度强化学习（DRL）的方法。一般来说，深度学习方法在识别时间序列中的异常方面更有效。（扩展阅读：1、深度学习时间序列的综述2、时序预测的深度学习算法介绍）

时间序列异常检测模型大致可以分为两类：有监督和无监督异常检测算法。当异常标签可用或负担得起时，有监督的方法可以表现得更好；在难以获得异常标签的情况下，可以应用无监督异常检测算法。无监督深度学习方法在时间序列异常检测中得到了广泛的研究。

对比表示学习：对比表示学习的目标是学习一个嵌入空间，其中相似的数据样本彼此保持靠近，而不相似的数据样本则相距较远。使用对比设计使两种类型的样本之间的距离更大具有启发意义。我们尝试使用经过精心设计的多尺度拼接注意力模块来区分时间序列异常和正常点。此外，我们的DCdetector也不需要负样本，并且即使没有“stop gradient”也不会失效。

图1：三种方法的体系结构比较。基于重构的方法使用表示神经网络来学习正常点的模式并进行重构。在异常变压器中，用高斯核学习先验差异，用变压器模块学习关联差异；MinMax关联学习也是至关重要的，并且包含了重构损失。DCdetector非常简洁，没有特别设计的高斯核或MinMax学习策略，也没有重构损失。

二、基于对比学习的时间序列异常检测方法

在DCdetector中，我们提出了一种具有双注意的对比表示学习结构，从不同的角度获得输入时间序列的表示。双注意对比结构模块在我们的设计中至关重要。它学习了不同视角下输入的表示。

我们的洞察是，对于正常点，它们大多数情况下即使在不同的视角下也会共享相同的潜在模式（强相关性不容易被破坏）。然而，由于异常点很少且没有明确的模式，它们很难与正常点或彼此之间共享潜在模式（即，异常点与其他点之间的相关性较弱）。因此，正常点在不同视角下的表示差异将很小，而异常点的表示差异将很大。我们可以通过一个精心设计的表示差异标准来区分异常点和正常点。至于异常标准，我们基于两种表示之间的差异来计算异常分数，并使用先验阈值进行异常检测。

图2：DCdetector框架的工作流程。DCdetector由四个主要模块组成：正向过程模块、双注意对比结构模块、表示差异模块和异常准则模块。

图3：基本补丁注意。将多元时间序列输入中的每个通道被视为一个单一的时间序列，并划分为斑块。每个通道共享相同的自注意网络，表示结果被连接为最终输出。

图4：关于如何进行上采样的一个简单示例。对于补丁分支，在补丁中重复（从补丁到点）。对于补丁内分支，从“一个”补丁到全部补丁（从点到补丁）进行重复。

三、实验结果

我们根据各种评估标准将我们的模型与 26 个基线进行比较。实验结果表明，与各种最先进的算法相比，DCdetector在七个基准数据集上实现了最佳或可比的性能。

表1：对真实世界的多变量数据集的总体结果。性能从最低到最高。P、R和f1是精度、查全率和f1分数。（所有的结果都是%的，最好的是粗体的，次之是下划线的。下同）

表2：在真实世界的多变量数据集上的多度量结果。Aff-P和Aff-R分别是隶属度度量[31]的精确度和查全率。R_A_R和R_A_P分别为Range-AUC-ROC和Range-AUC-PR [49]，分别表示基于ROC曲线和PR曲线下的标签转换的两个分数。V_ROC和V_RR分别是基于ROC曲线和PR曲线[49]创建的表面下的体积。

表3：NIPS-TS数据集的总体结果。性能从最低到最高。

表4：NIPS-TS数据集上的多指标结果。

表5：DCdetector中停止梯度的消融研究。

表6：DC检测器中正向过程模块的消融研究。

表7：单变量数据集的总体结果。

图5：对不同类型异常的DCdetector和异常变压器之间的地面-真实异常和异常得分的可视化比较。

图6：DCdetector中主要超参数的参数灵敏度研究。

图7：在不同??????大小的训练期间，平均GPU内存成本和100次迭代的平均运行时间。

四、结论

我们在DCdetector中设计了一个基于对比学习的双注意结构来学习一个排列不变表示。这种表示扩大了正常点和异常点之间的差异，提高了检测精度。此外，还实现了两种设计：多尺度和通道独立补丁，以提高性能。

此外，我们提出了一个无重构误差的纯对比损失函数，并通过经验证明了对比表示与广泛使用的重构表示相比的有效性。最后，大量的实验表明，与各种最先进的算法相比，DCdetector在7个基准数据集上取得了最佳的或可比较的性能。

更多精彩内容请点击：机器学习文章精选！

关注?公众号，后台回复【DC】即可下载原论文及代码

基于对比学习的时间序列异常检测方法

7月居民存款、贷款双降引发市场关注，存量房贷利率下调必要性上升

7月居民存款、贷款双降引发市场关注，存量房贷利率下调必要性上升

基于对比学习的时间序列异常检测方法

7月居民存款、贷款双降引发市场关注，存量房贷利率下调必要性上升

机关物业管理(对于机关物业管理简单介绍)

甄嬛传：5证母纯元不敢见皇上

从澜沧江到黄浦江，大山里的孩子在上海进行了一场游学

一住院患者坠楼死亡，洛阳市中心医院：已报警，配合公安机关调查

执着控股斐控泰克 罗博特科“押宝”半导体

碧桂园(02007)：“16碧园05”将自8月14日开市起停牌 复牌时间另行确定

《全员加速中2023》亮相岭南小镇，队员上演爱拼才会赢

北向资金增仓榜：44股持股量环比增加超50%

春节贺卡制作手工简单漂亮（春节贺卡）

2023年广西青少年网球锦标赛在邕开赛 280名青少年运动员挥拍竞技

七折甩卖，三次流拍！新华信托股权拍卖无人问津

​尼日利亚清真寺部分倒塌，至少10死25人受伤

黑科技！枸杞枝上长番茄，栽培季超19个月，高抗青枯病！市场售价50元/斤！

青甘两省联合开展卫生综合应急处置培训演练

喝一天的中药就要100元：有中药材涨幅超80%

新版国家基本公共服务标准出台

还记得《赌神》里的筛骰女神吗？没想到她身材这么惊艳，真的爱了

男篮溃败德国！李凯尔+乔帅心情不错，付豪微笑，施罗德打服周琦

高考没考好怎么办安慰（高考没考好怎么办）

德福考试多少分合格（德福考试时间）

日本再迎NBA球员？三连40+得分手，托马斯将影响亚洲格局？

四川如何更好应对“厄尔尼诺”

终端业务止跌，华为不只需要“稳健”

一般户和基本户的区别

以融媒力量赋能西部乡村振兴发展

化州月饼产业发展交流座谈会召开

Win7开始菜单无控制面板怎么办

阿里巴巴2024财年第一季度财报：营收2341.56亿元

邓亚萍：有关“涉嫌贪腐、被带走调查”等消息纯属造谣污蔑

武汉“豆皮大王”创立94年全国仅一家店，一份豆皮有50个步骤

当北控队面临困境，核心球员迎来变革！引揭晓，闵鹿蕾重塑战术！

21.8万元！领克08订单突破10000台：首发魅族车机+92寸HUD 综合续航1400km

秦皇岛市总工会举办军地单身青年联谊会

蒙古语人群的分子人类学溯源(关于蒙古语人群的分子人类学溯源简述)

江河集团08月11日被沪股通减持18.99万股

金卡智能：用5G生产5G智能终端

人民币兑美元中间价调贬11个基点

nike图标壁纸_nike图标

荣耀80充电设置方法

暑期“反向旅游”带火小众目的地

美孚一号的优缺点（美孚一号优缺点）

广州花都（广州花都岭南批发市场）

ms怎么读 ms

光线传媒：已具备每年推出2-3部动画电影的能力 且产能在持续提高

陈盆滨现身沙门镇第六届全民运动会 盼带动更多人参与体育事业

美元兑日元延续上行趋势，接近上方阻力短期谨慎看涨

富瑞特装：公司目前生产经营情况正常

鹤壁经开区：玉米防病不用急 飞防作业解难题

线上线下跌4.85% 2021年上市即巅峰超募3.4亿

梦幻西游：不同风格混搭，斗战胜佛锦衣各显神通

净利润23.1亿元 理想发布第二季度财报

顺发恒业：截至2023年8月10日，公司股东总人数为28,714户

蓝焰控股接待光大证券等多家机构调研

自由职业者，怎么样缴纳社保合适呢？

制氧机水箱什么原因会漏水（速腾水箱漏水是什么原因？）

琼海房价上涨，锦绣山庄二手房适合入手！

西青杨柳青镇宁福苑二期工程正在办理建设手续

引导金融资源更多流向民营经济

2024年北京工商大学717物理化学考研初试大纲

《孤注一掷》导演申奥：我喜欢用写实的手法拍现实题材

勇士有机会以库明加为核心筹码交易特纳

1至7月河北港口外贸货物吞吐量累计完成2.4亿吨 同比增长27.3%河北新闻网

比亚迪第500万辆新能源车下线，王传福泪洒当场，幸得坚持见月明

转基因蚊子是什么？为何要大面积释放，会带来危害吗？

8月10日基金净值：景顺长城景盈双利债券A最新净值1.2865，涨0.06%

吴京走出国门了！拿下史上票房最高的中外合拍片，总算是实至名归

牛津女博士研究100种动物“性生活”，只为发现人类相爱的秘密

国家认监委发布公告 完善强制性产品认证证书和标志管理

三年可领10万元！海宁这个补贴你有吗？

北仑区银行助力物流企业发展

圣农发展股票(002299圣农发展股票)

国内首个数字普惠领域金融行业标准正式发布

解读凯恩转会三大疑问：列维为何松口？为何仍然倾向于留队

华为Mate 50pro如何改变qq应用图标

西安市雁塔区市场监管局发布2023年第17期食品安全监督抽检信息

执着控股斐控泰克罗博特科“押宝”半导体

碧桂园(02007)：“16碧园05”将自8月14日开市起停牌复牌时间另行确定

尼日利亚清真寺部分倒塌，至少10死25人受伤

光线传媒：已具备每年推出2-3部动画电影的能力且产能在持续提高

陈盆滨现身沙门镇第六届全民运动会盼带动更多人参与体育事业

鹤壁经开区：玉米防病不用急飞防作业解难题

净利润23.1亿元理想发布第二季度财报

1至7月河北港口外贸货物吞吐量累计完成2.4亿吨同比增长27.3%河北新闻网

国家认监委发布公告完善强制性产品认证证书和标志管理

上大象找对象丨“山河一梦七夕遇见你”剧本杀专场开始报名

《博德之门3》MC媒体评分升至97分超越“王国之泪”

博德石油拟向中海信托申请融资以信托项目项下的信托资金向公司提供贷款总金额不超过1800万

全国医药反腐密集展开上海接连发文强化医疗医药监管影响几何？