基于扩散熵平衡估计提取短序列的自相似特征
VIP免费
!
!
摘 要
时间序列作为动力学系统输出结果,其隐含的非平凡结构特征可以作为复杂系
统的描述,它有很多可以定量描述的特征,如时间序列的混沌特征、分形特征、
长程关联与可预测等等。本文主要从探测序列的标度指数的准确性出发,旨在发
展有效方法。
尺度不变性在多领域有着广泛的应用,对基本理论和方法的建立做出了重要的
贡献。比如研究 DNA 序列可以得到对象的生理健康状态,也可以用户研究金融股
票序列之间的关联。传统的基于统计理论的方法对序列的长度要求很高,但是真
实序列往往很短,即便有很长的一段序列,我们也要研究序列的局部特征。使用
这些方法,会带来很大的涨落和误差。我们通过尽可能的降低系统误差和统计误
差,把香浓熵扩展成一个新的方法,叫做扩散熵的平衡估计。计算表明,它可以
很好的提取短时间序列的标度指数。
首先,本文研究了在线用户打分行为的长程关联性。视频网站 Movielens 和
Netflix 上,用户可以针对观看影片按照 1-5 分进行评级。每个电影都会有一个客
观分数,那么每个用户都会有两个序列,一个是主管打分序列;另一个是用户选
择电影的客观分数序列。本文利用扩散熵的平衡估计方法,对这两个序列进行深
入研究,发现用户的打分的选择行为都具有长程关联,两个序列的长程关联强度
也不一样,但是都与用户的活跃度有关。
其次,针对扩散熵的平衡估计一些缺点,主要是它要求序列必须是平稳,而且
忽略不同窗口之间的相互关联,本文提出了新的方法叫做叫做相关依赖的扩散熵
平衡估计。通过对大量分形布朗序列的研究来验证这种方法可以很有效的研究超
短时间序列(~102)的标度行为,可以把误差控制到非常低。
最后,本文还研究了人类行走时间间隔序列。尽管在实验中实验者做了很大的
努力保持状态不变,但是在不同步速状态下,志愿者的生理状态还是有很大的变
化。
关键词: 短时间序列 标度指数 长程关联 扩散熵平衡估计
!
!
ABSTRACT
As the output results of the dynamic systems, time series can be described for
complex systems. Time series have many features that can be quantitatively described,
such as the chaotic characteristics, the fractal, long-range correlation. The thesis aims to
develop a new method to evaluate scaling behaviors embedded in very short time series.
Time series’ scaling invariance is widely used in many fields and has been making
great contributions in diverse research fields, such as monitoring healthy state from
physiological signals, identifying DNA sequences’ genes, and long-persistence between
financial stocks. In literature there are several standard methods to evaluate scaling
behaviors. These methods are based upon probability and statistical theories, and
consequently require the sizes of time series are infinite or at least long enough.
However, real-world records have finite lengths. Sometimes, time series are long
enough, but in the duration phase transitions may occur. Finite length may induce
unacceptable bias and fluctuations to statistical quantities and consequent mistakes in
evaluating quantitatively scaling exponents. Our group has developed a method called
balanced estimation of diffusion entropy (BEDE), in which a new form is used to
replace the original Shannon entropy by minimizing the summation of bias and
fluctuation. Calculations show that it is a potential solution to the finite induced
mistakes in scaling estimations.
Firstly,the thesis finds for the first time the long-term persistence in online movie
series. In the MovieLens and Nefflix database one can download series of movies
watched by customers. Each movie has a sequence of rating score. Accordingly, for
each series every user has two corresponding series, the rating series by him/herself
called subjective rating series (SRS) and the averaged rating series from all the ratings
called objective rating series(ORS). By using the BEDE method, the scaling behaviors
embedded in rating series with lengths larger than several hundred are calculated.
Results show that there exist generally long- term persistence in the rating series.
Secondly,the thesis develops a new method named correlation-dependent Balance
Estimation of Diffusion Entropy to evaluate scaling behaviors embedded in very short
time series according the weakness of the BEDE, such as it requires the time series must
be stationary and ignore the correlation between different windows. Detailed
calculations show that the developed method can evaluate scaling exponent embedded
in a ∼ 102 length time series with ignorable bias and sharp confidence interval.
!
!
At last,the thesis also researches the human walking time interval sequences.
Although the great efforts have been keep conditions unchanged in the experience, the
physiological state of the volunteers still has the very big change in different velocity
condition.
Key Words: short time series analysis, scaling exponent, long-range
correlation, balanced estimation of diffusion entropy
!
!
目 录
摘要
ABSTRACT
第一章 绪论 .................................................................................................................... 1
1.1 课题背景及意义 .................................................................................................... 1
1.2 国内外研究现状 .................................................................................................... 2
1.2.1 短时间序列的研究现状 ............................................................................................. 2
1.2.2 时间序列的长程关联研究现状 ................................................................................. 6
1.2.3 人类行为动力学研究现状 ......................................................................................... 7
1.3 本文创新点和章节结构 ........................................................................................ 8
第二章 时间序列分析相关概念和方法介绍 .............................................................. 10
2.1 时间序列分析相关概念 ...................................................................................... 10
2.1.1 分数布朗运动 .......................................................................................................... 10
2.1.2 熵 ............................................................................................................................ 11
2.1.3 尺度不变性 .............................................................................................................. 12
2.2 方法介绍 ............................................................................................................. 12
2.2.1 重标极差分析 ........................................................................................................... 12
2.2.2 标准差分析 .............................................................................................................. 13
2.2.3 去趋势波动分析 ...................................................................................................... 14
2.2.4 二维序列交叉相关分析 ........................................................................................ 15
2.2.5 小波分析 ................................................................................................................... 16
第三章 在线用户选择行为的长程关联 ...................................................................... 18
3.1 前言 ..................................................................................................................... 18
3.2 方法与数据 ......................................................................................................... 18
3.2.1 方法介绍 .................................................................................................................. 18
3.2.2 数据处理 .................................................................................................................. 21
3.3 结论 ..................................................................................................................... 21
3.3.1 在线用户打分行为的记忆性 .................................................................................. 21
3.3.2 用户打分时间间隔对记忆性的影响 ...................................................................... 25
3.3.3 用户活跃度对记忆性的影响 .................................................................................. 27
!
!
3.4 本章小结 ............................................................................................................. 28
第四章 短时间序列尺度不变性的研究 ...................................................................... 29
4.1 前言 ..................................................................................................................... 29
4.2 方法和材料 ......................................................................................................... 30
4.2.1 扩散熵相关依赖的平衡估计介绍 .......................................................................... 30
4.2.2 两种去趋势方法的研究 .......................................................................................... 32
4.2.3 空假设介绍 .............................................................................................................. 33
4.2.4 数据处理 .................................................................................................................. 34
4.3 结论 ..................................................................................................................... 35
4.3.1 不同赫斯特的分数布朗运动 .................................................................................. 35
4.3.2 行走序列标度行为的研究 .......................................................................... 39
4.4 本章小结 .............................................................................................................. 42
第五章 总结与展望 ...................................................................................................... 44
5.1 总结 ..................................................................................................................... 44
5.2 展望 ..................................................................................................................... 45
参考文献 ........................................................................................................................ 47
研究生期间发表的论文和承担的科研项目及取得的成果 ........................................ 53
致谢 ................................................................................................................................ 55
第一章!绪论!
!
1!
第一章 绪论
1.1 课题背景及意义
近年来,时间序列的研究已成为国际上科学研究的前沿和热点,引起了物理
学、经济学、计算机科学、社会学及生命科学等众多领域科学家的广泛关注。时
间序列分析从系统的历史行为数据出发,根据动态数据揭示系统动态结构和规律
的统计方法,研究系统的结构特征,试图用有限的观察数据建立能够比较精确地
反映时间序列中所包含的动态依存关系的数学模型,并对系统的未来进行预测。
随着网络科学与计算机技术的发展,各个学科领域不断涌现出了海量的数据,
如何从这些数据中提取复杂系统的有效信息,是当前需要解决的首要任务。为加
深对复杂系统结构和动力学机制的认识,人们采用时间序列分析的方法,从复杂
系统的输出序列中提取结构特征。这种分析技术被广泛应用于环境、生物、经济、
金融、地震、社会等大量有次序时空数据的领域中分析,是多学科领域共同关心
的基本问题和焦点。物理理论是时间序列分析技术发展的一个基本源泉[1~3]。物理
学理论的每一个进步,往往首先被用于时间序列分析。分形、自组织临界、混沌、
少数者博弈、随机介质等理论的发展,为时间序列分析提供了新的技术手段和思
想方法,奠定了非线性时间序列分析的理论和思想基础。
作为动力学系统的输出结果,时间序列所隐含的非平凡结构特征不仅可以作
为复杂系统的描述[2],而且可以提供关于复杂系统动力学过程内部机制的信息。把
实证时间序列特征和动力学模型模拟得到的时间序列特征作比较,也是验证和改
进动力学模型的必经之路。比如,一个睡眠周期可以分为入睡、浅睡、眼球快速
转动(REM)和深睡四个阶段。研究者发现[4]入睡和 REM 状态有明显的长程关联性
质,而深睡状态并没有如此强的长程关联。这些关联性质的差异,为我们提供了
人脑睡眠机制的信息,也为我们继续探索大脑功能上提供的新思路。又如,对 DNA
序列中碱基对的研究结果表明[5],蛋白质编码区序列是随机分布,而非编码区序列
呈现长程关联特征。也就是说通过对碱基之间的关联关系的比较,可以识别 DNA
序列中编码区和非编码区。
目前,时间序列有很多可以定量描述的特征,如时间序列的混沌性质、分形
结构、长程关联与可预测性、复杂性、非广延性与超统计、序列之间长程关联、
多序列之间关联的复杂网络描述等等。大部分研究时间序列的方法都基于序列结
构的统计特征,因此隐含了概率统计和随机过程理论中需要满足的前提和要求。
相关推荐
作者:侯斌
分类:高等教育资料
价格:15积分
属性:57 页
大小:10.15MB
格式:PDF
时间:2025-01-09