1、数据集介绍
在开始介绍数据集之前,冷漠先帮大家理清一下涡扇发动机的数据(NASA提供,本文中称为数据集A)和PHM2008竞赛数据(本文称为数据集B)的关系。
之所以将数据集A和数据集B放在一篇文章中,是因为数据集A和数据集B都是利用MATLAB所搭建的航空发动机Simulink模型搭建的。换句话说,它们的试验平台是一致的,但是其输入是存在差异的,具体可查看参考文献1和2。借用文献2中关于数据的介绍,数据集A和数据集B之间的联系如下表所示:
从上表中能发现,数据集A由4个不同故障模式、不同条件的涡扇发动机数据集组成,而数据集B是由2个涡扇发动机数据集组成,这些涡扇发动机数据其实是相似的,仅仅是由于其条件和故障模式不同而已。
值得注意的是,数据集A中#1、#2、#3都是#4的特殊情况,即#4是最复杂的情况,故障模式多并且条件多。对比数据集A,数据集B并没有给出测试样本的剩余寿命值,这是其重要差异。数据集B中#5v的435个测试样本是用于最终不同选手模型的打分所用的,其也缺乏寿命预测真值。在比赛中,选手通过上传自己的模型RUL,来获得最终打分。
因此,在我看来,数据集A是完整的,可以全部使用,而数据集B则仅只有#5T的训练样本可以使用,数据集B的其他数据缺乏RUL真值,因此我们并不知道,无法在论文实验中使用。
综上所述,数据集B的价值不大,因此本篇文章主要解读数据集A。
2、试验说明
数据集A即C-MAPSS模拟数据,该数据是模拟大型商用涡扇发动机的数据, 发动机简图如上图所示。该数据的代码采用了MATLAB及其Simulink模块。该模型的详细细节参考文献1。
3、数据解读
1、所有数据均为txt文件,文件数量不多,大家可以手动读取,利用MATLAB“主页”菜单下的“导入数据”进行自行读取,不懂得大家可以百度。
2、文件分为三类:训练数据 train_FD00x.txt ;测试数据test_FD00x.txt,以及测试数据每个样本最后时刻时,其涡扇发动机的剩余使用寿命,对应文件RUL_FD00x.txt。(x可以为1、2、3,4,x取值不同,即改涡扇发动机的故障模式和条件不同)
3、训练数据 train_FD00x.txt与测试数据test_FD00x.txt内容想类似,其均为nX26的数值矩阵。该矩阵n表示不同样本的不同循环周期(循环周期可以理解成时间),26维度分别对应样本编号、时间循环、操作1、操作2、操作3、传感器1、传感器2、.......、传感器21。该矩阵从第一行到后,先是第一个样本的不同时刻的操作和传感器输出,然后是第二样本的,直至所有样本的。
4、剩余寿命预测数据RUL_FD00x.txt其大小为max(样本编号)X1,比如FD001数据集有100个样本,那么其RUL_FD001.txt的大小为100X1。该数据的含义为第i个样本的最后监测时刻其对应的剩余寿命预测值。
5、据集A网址:https://data.nasa.gov/Aerospace/CMAPSS-Jet-Engine-Simulated-Data/ff5v-kuh6
数据集A和B的网址(NASA):https://www.nasa.gov/content/prognostics-center-of-excellence-data-set-repository
4、附件
fv38
内容简介:
1、数据集A和数据集B所有数据。(数据集A即为CMAPSSData/原始数据/ 下的数据,数据集B即为PHM2008/Challenge_Data/ 下的数据。
2、所有参考文献。(文献1和2位于CMAPSSData/下,文献3、4和5位于CMAPSSData/PHM2008\比赛相关的获奖论文 下)
关注公众号“故障诊断与寿命预测工具箱”,每天进步一点点。