(Software School of Xiamen University,Xiamen 361005,China)
self-organization map(SOM); intra-class minimum similarity degree(IMSD); reservoir prediction
DOI: 10.6043/j.issn.0438-0479.201605006
备注
为了解决自组织映射(Self-organization map,SOM)神经网络算法部分神经元过度利用和欠利用的问题,提出基于类内最小相似度的SOM算法(SOM based on intraclass minimun similarity degree,SOM-IMSD),将类内相似度这一评价指标引入SOM神经网络学习过程中,通过调整类内最小相似度来指导SOM神经网络学习,使得平均类内最小相似度最大,提高SOM神经网络的聚类结果质量.将SOM-IMSD算法应用于储层预测,并与基本SOM算法进行对比,实验结果表明,SOM-IMSD算法的聚类结果更为准确.
Intra-Class similarity degree is a commonly used evaluation index to evaluate the quality of the clustering results.It can also be used to weigh the cluster result.In order to solve the problem of excessive use and less use of some neurons,we propose a self-organizing map algorithm based on intra-class minimum similarity degree(SOM-IMSD),which introduce intra-class similarity degree into the process of SOM neural network learning.Adjust IMSD to guide SOM neural network learning,which makes the average IMSD maximum and improves the quality of cluster result.Apply the SOM-IMSD and basic SOM to reservoir prediction and compare the results.The experiment shows that it has improved the clustering results.
引言
储层是有一定连通孔隙、能存储和渗滤油气的岩层,但并非所有储层都存储着油气.分析地震属性数据可得到储存中有关岩性和储层物性的信息,进而帮助石油勘探工作者更好地确定油田的位置,大大降低开发失败的可能性,节省开发费用.随着石油勘探开发的不断深入,需要对海量的地震属性数据进行归类和标定,高效且准确的归类和标定方法亟待提出.20世纪80年代以来,世界各国学者将多种数据挖掘技术应用于储层预测[1-5]:灰度关联分析是系统分析中比较简单、可靠的一种方法,对样本的数量没有太大要求,样本的分布也不需要是常规典型的,但该分析法需设置各项指标的最优值; 线性和非线性分类储层预测法比较成熟,抗噪能力强,但用少量的有标签数据难以对当前的主要勘探对象油气藏建立高准确的分类器; 模糊判别技术使用软划分概念,使储层预测更符合实际,但难以建立准确的隶属度函数; 神经网络是解决复杂非线性映射问题的有效手段,有较强的容错能力,常用于储层预测.
自组织映射(self-organization map,SOM)是神经网络算法中的一种无监督聚类算法.该算法不需要已知的类别信息,能自动对输入模式进行聚类; 且该算法采用赢家通吃(winner take all,WTA)竞争机制,对噪音数据不敏感; 另外,该算法将高维数据映射到低维数据时仍保持原拓扑结构,竞争层神经元经过训练后权重分布与输入模型的空间分布趋于一致[6].但其也存在很多不足,在训练过程中存在部分神经元过度利用和欠利用的问题,会影响SOM神经网络的性能,降低聚类结果的质量.在此基础上对地震属性数据进行分析,所获取的信息可能是不正确的岩性和储层物性的信息.为解决SOM模型神经元欠利用和过度利用的问题,已有研究中提出了SOM-CV、SOM-C、ESOM、TASOM、DSOM等具有代表性的改进算法[7].这些算法对SOM模型竞争学习规则提出了各自的改进方法,如SOM-C算法通过给输出层神经元设置一个阈值以减少经常获胜神经元获胜的机会,在一定程度上避免部分神经元欠利用和过度利用的问题,进而提高聚类结果质量.本研究针对SOM模型的这一问题,提出基于类内最小相似度的SOM算法(SOM based on intra-class minimum similarity degree,SOM-IMSD),在SOM模型的竞争环节中引入类内相似度聚类评价指标来指导SOM模型的训练,使竞争层中每个神经元得到充分利用,从而提高聚类结果的质量.
1 SOM算法
SOM神经网络训练过程通常包括竞争环节、合作环节和自适应环节:在竞争环节中,根据WTA竞争学习规则,计算输入向量与每个神经元的欧式距离,并将与输入向量的欧式距离最短的神经元作为竞争胜利者; 在合作环节中,竞争胜利神经元和以竞争胜利神经元为中心的邻域内神经元都按照一定的学习规则被激励,与竞争胜利神经元越邻近,激励程度越大; 在自适应环节中,适当调整竞争胜利神经元邻域内所有神经元的权值,使竞争层神经元的权向量随输入向量改变,对于之后相似的输入向量,该神经元有一个加强的响应[8].
基本SOM算法在训练神经网络时,每次输出层只有一个最强神经元获胜,且设定该神经元输出为1,其他神经元输出为0.因而使与输入模式相差甚远的输出层神经元在训练过程中始终不能获胜,成为“死神经元”; 而对于获胜次数过多的神经元则出现过度利用的问题.
2 SOM-IMSD算法
SOM是一种无监督的神经网络,基于相似度度量将相似的数据归为一类,不相似的数据分到不同类别中.在传统SOM算法的竞争环节中,通过计算输入向量与竞争层中每个神经元的欧式距离来度量输入向量与类别的相似度,然后将与输入向量最近的神经元定为竞争胜利神经元.该输入向量归属于这个竞争胜利神经元所代表的类别.由于每种类别中存在着一个相似度最小即与神经元的欧式距离最大的样本,该样本与神经元的欧氏距离大小会影响SOM算法聚类结果质量[9].因此,本研究提出SOM-IMSD算法,在SOM算法竞争环节中把类内最小相似度考虑进去,定义新的输入向量与竞争层中每个神经元的欧式距离的计算公式:
d(X,Wi)=d(X,Wi)×Dmin(Si),
其中,X表示输入向量,Wi表示第i个神经元的权向量,Si表示第i个类别空间,Dmin(Si)表示第i个类别空间的最小相似度.当Dmin(Si)增加时,d(X,Wi)也随之增加,这样第i个神经元获胜机会减少.
SOM聚类的目标是使类内离差尽可能小,类间离差尽可能大.本研究借鉴Sun等[10]提出的基于等离差理论的一种学习竞争规则改进算法,该算法以平均类内离差最小即平均类内相似度最大为目标,引入类内相似度来指导神经网络的训练,改进竞争学习规则,不仅提高了聚类结果质量,也解决了部分神经元欠利用和过度利用的问题.不同的是本研究使用类内最小相似度来表示类内离差.
SOM-IMSD算法的计算步骤如下:
1)用小随机数初始化竞争层神经元的权向量,并将每个神经元节点的类内最小相似度初始化为1,给定学习率和邻域半径初始值.
2)从样本空间中随机选取一个样本输入到神经网络中.
3)用新的欧式距离计算公式确定竞争胜利神经元.
4)更新竞争胜利神经元和以其为中心的邻域内所有神经元的权向量,调整学习率和邻域半径.
5)更新竞争层每个神经元的类内最小相似度.若竞争层神经元节点对应的类别空间内样本数非零,则按照下面公式更新此神经元的类内最小相似度:
Dmin(Si)=min{d(X,Wi)},X∈Si,
i=1,2,…,n1,
式中n1是对应的类别空间内样本数非空的神经元个数.若竞争层的神经元节点对应的类别空间内样本数为零,则按以下公式更新类内最小相似度[11]:
Dmin(Sl)=(∑n1i=1D(Si))/(n1),l=1,2,…,n2,
式中n2是对应的类别空间内样本数为零的神经元个数.
6)返回步骤2),直到达到最大迭代次数为止.
3 实验介绍
储层预测中,SOM算法可用来建立地震属性数据与储层类别之间的聚类关系.前人研究表明,一维SOM算法的聚类性能并不比二维SOM算法差,且与二维SOM相比,一维SOM算法更容易识别类边界,能更清楚地表达样本数据的相似度和类之间的相邻关系[12-13].因此,本文中用于储层预测的SOM算法使用一维神经网络结构.
本研究采用基本SOM算法和SOM-IMSD算法对塔里木盆地塔北某工区地震属性数据进行了分析.该工区位于奥陶系潜山背斜上的高部位,是石油聚集、运移的有利区域,主要储层为岩溶洞穴型,具有典型的“串珠状反射”特征,其典型的地震体剖面图如图1所示.本研究将该工区地震波数据经过数据变换推导出的地震属性数据[14]作为研究对象,共13个地震属性,包括10,20,30 Hz分频数据体和15°~25°,25°~35°,5°~15°叠加数据,以及15~40 Hz分频振幅差,纵波速度,横波速度,纵横波速度比,纵波阻抗,弹性阻抗,密度体.这13个地震属性数据为事先经过优选,与该工区地质紧密相关的数据.无关属性数据已被排除,减少了无关数据对聚类结果的干扰.
在实际应用中,还需对聚类结果进行评价,根据评价结果决定是否采用这次聚类结果,聚类结果的有效性关系到它所起作用的大小.本研究采用数据可视化技术和相对评价法评估聚类结果质量.数据可视化技术可构造聚类结果的二维可视化图,使聚类结果的质量可通过人的视觉观察来评价.图2分别给出了10 Hz分频数据体属性、纵波速度属性,5°~15°叠加数据属性以及弹性阻抗属性的可视化图.
另外,本研究所采用相对评价法的聚类评价指标[15-17]为Calinski-Harabasz(CH)指标、Dunn指标和Davies-Bouldin(DB)指标:其中CH指标和Dunn指标都是分离度和紧密度的比值,CH和Dunn指标越大,聚类结果越好; DB指标是类内分离度与类间分离度的比值,DB指标越小,聚类结果越好.因此,为与CH和Dunn指标保持一致,本文中使用DB指标的倒数(DB-1)来评价.
由于SOM神经网络为等距离度量算法,样本属性取值区间不同会影响算法对属性的偏好.通过标准化,将样本属性统一到同一数量级别上,即可以解决该问题.故在本实验中,首先对样本数据按最小-最大标准化方法进行标准化,再采用基本SOM算法和SOM-IMSD算法对数据进行聚类.最后,为了避免随机性对实验结果的影响,统计每个聚类评价指标的10次结果,取平均值.
实验环境:Window 7,Intel Core i7 四核处理器,主频 2.00 GHz,8 GB内存.
实验参数设置:竞争层神经元分布为7个神经元的一维阵列,初始学习率为0.9,初始领域半径为3.
(a)中的褐色离散点表示串珠储层分布,连续褐色区域表示古河道,(b)中的褐色区域表示古河道,红色区域表示层间岩溶台缘叠加区;(c)中的褐色区域表示古河道;(d)中的红色区域表示层间岩溶顺层岩溶叠加改造区,蓝色区域表示层间岩溶台缘叠加区.
4 实验结果及分析
本研究的实验结果如图3和表1所示.其中,图6~7分别是基本SOM算法和SOM-IMSD算法聚类结果的可视化图.本实验将地震数据聚类结果分为7类,在可视化图中用7种颜色表示.对比图3(a),图3(b)的中下部分黑色、灰色和黄色区域能刻画出该工区的层间岩溶台缘叠加区.这是由于SOM-IMSD算法引入等离差原理,以总类内离差最小为目标指导神经网络的训练,一定程度上解决了神经元欠利用和过度利用的问题,使聚类结果图中类边界更为清晰,串珠储层更为明显,更多油井落在红色表示的富油区,更利于石油勘探研究人员分析和判断储层位置.表1给出了基本SOM算法和SOM-IMSD算法聚类结果图中的“X”表示实际已开发的油井.图中上部分绿色、蓝色和红色3个
颜色混合的地区是层间岩溶顺层岩溶叠加改造区,中上部分红色区是富油区,多个油井落入该区域,左下部分褐色区是
古河道,零散分布的绿色区域是具有串珠状强反射特征的储层分布区域.
的评价指标,可见对于相同的样本集,SOM-IMSD算法3个指标均优于基本SOM算法.SOM-IMSD算法的CH、Dunn和DB-1指标分别比基本SOM算法的高12.1%,77.4%和62.3%,说明SOM-IMSD算法聚类结
表1 基本SOM算法和SOM-IMSD算法聚类结果评价指标对比
Tab.1 Comparison of evaluation indexes of cluster result of basic SOM and improved SOM models算法 CH指标/105 Dunn指标 DB-1指 基本SOM 1.603 8 0.173 9 0.693 2SOM-IMSD 1.798 1 0.308 5 1.124 9
果质量更好.因此,将类内最小相似度引入SOM算法学习过程中,可以提高SOM算法的性能.
5 结 论
本研究提出一种改进的SOM算法,在SOM算法竞争环节中引入类内最小相似度,即在网络学习过程中不断调整每个神经元的类内最小相似度,使平均类内最小相似度最大,从而提高聚类结果质量.实验上,采用结构简单固定,竞争层神经元为一维分布的SOM改进模型SOM-IMSD验证了改进后的聚类结果质量更高.在未来工作中,还可对竞争层神经元结构进行研究,进一步提高聚类结果质量.
- [1] 许宏尤,刘建,乔诚,等.灰色关联分析法在双河油田储层评价中的应用[J].油气藏评价与开发,2015(5):17-21.
- [2] 张静,王志章,赵永军,等.支持向量机在致密砂岩储层孔隙度预测中应用[J].河南科学,2015(6):993-997.
- [3] 杜波,于正军,韩建军.多元线性回归法在DX北带砂砾岩储层孔隙度定量预测中的应用[J].天然气勘探与开发,2012,35(4):36-40.
- [4] 刘正锋,燕军.模糊识别方法在储层识别中的应用[J].西南石油大学学报(自然科学版),1998,20(3):4-6.
- [5] 刁凤琴,诸克君,於世为.一种优化的BP神经网络算法在石油储层预测中的应用[J].系统管理学报,2008,17(5):499-503.
- [6] 杨黎刚,苏宏业,张英.基于SOM聚类的数据挖掘方法及其应用研究[J].计算机工程与科学,2007,29(8):133-136.
- [7] 杨占华,杨燕.SOM神经网络算法的研究与进展[J].计算机工程,2006,32(16):201-202.
- [8] DE A,GUO C.A vector quantization approach for image segmentation based on SOM neural network[C]∥International Conference on Advances in Neural Networks.Berlin,Heidelberg:Springer-Verlag,2013:612-619.
- [9] LIU F,ZHANG G L,SUN Y J,et al.Mapping the three-dimensional distribution of soil organic matter across a subtropical hilly landscape[J].Soil Science Society of America Journal,2013,77(4):1241-1253.
- [10] SUN A X.Improved SOM algorithm-hdsom applied in text clustering[C]∥2010 International Conference on Multimedia Information Networking and Security.Piscataway:IEEE,2010:42-44.
- [11] AKINDUKO A A,MIRKES E M,GORBAN A N.SOM:stochastic initialization versus principal components[J].Information Sciences,2015,364/365:213-221.
- [12] 陈善学,杜峰,吴立彬.一种改进的等误差自组织特征映射矢量量化算法[J].重庆邮电大学学报(自然科学版),2011,23(2):155-160.
- [13] 于鷃.基于一维SOM神经网络的聚类及数据分析方法研究[D].天津:天津大学,2009:1.
- [14] 杨培杰,印兴耀,张广智.模糊C均值地震属性聚类分析[J].石油地球物理勘探,2007,42(3):322-324.
- [15] TURKAY C,PARULEK J,REUTER N,et al.Integrating cluster formation and cluster evaluation in interactive visual analysis[C]∥Spring Conference on Computer Graphics.New York:ACM,2011:77-86.
- [16] 杨燕,靳蕃,KAMEL M.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632.
- [17] 刘燕驰,高学东,国宏伟,等.聚类有效性的组合评价方法[J].计算机工程与应用,2011(19):15-16.