不知道我是不是一个人在战斗。这方面的朋友不太好找。 我先发个问题。顺便看看这个方向上的朋友多不多。 多重分形和单分形研究方法的关键区别是 对分段统计量要加一个q阶的指数。我理解这个q阶的指数的变量是用来强化各种不同概率密度区域的数值的,是类似一个“权重”的设计。随q值的变化,给予不同概率密度的数值不同的"强化"效果。不知道对否。请朋友们发表下看法。
今天有些收货,搞明白了: q=0的时候,广义维度的极限对应的是盒维度。盒维度法是研究一维分形的工具,是用盒子数量去和尺度作对比,求得豪氏维度。 q=1 的时候,广义维度的极限对应的是信息熵,而信息熵和尺度作对比,得到的是信息维 q=2的时候,是关联积分和尺度做对比,得到的是关联维度。
Fisher于2001年拓展出iterative Markov-switching multifractal model. Thomas Lux于2006年进一步拓展该模型,使之适用于any continuous distribution with any number of volatility components. 附件是Lux的这篇论文。
您太客气了。 对时间序列数据的处理工具很多。如果感兴趣,可以从这三个工具中挑选。它们各有优劣。 1、SAS:商业软件、昂贵。庞大、自带数据库、近乎全能。 2、MATLAB:商业软件、较贵。人机界面较好,适合初学者。 3、R:免费、开源。适合DIY爱好者。通过丰富的扩展包,对最新学术成果的支持最及时。 事实上,其中任意一种软件,只用作“预处理”,都有点大材小用。 用熟了之后,出来的就是美味大餐。
windspeedo辛苦了。非常感谢!发的资料待我好好学习学习再来反馈。我现在手头的资料大多是关于多重分形理论上的研究,跟实战方面比较靠拢的比较少,最接近的是 f(a)的形态和股价波动异变之间的关系分析。在“使用多重分形辅助制定交易策略,对股价和仓位进行全程的监控”方面,不知道前沿的发展到了什么地步。这些论文我在一点点啃,比较吃力,要说入门,只能算跨入了个脚趾头。资料方面如果有朋友需要可以跟我要,没有可保密的。只是因为涉及到版权问题,怕给海洋带来麻烦,不方便贴出来。 希望有兴趣的朋友们都来冒个泡,大家加个群什么的,联合起来学习研究。
这两天通过构造数值算例,对q阶算法的物理意义有了点直观认识: 1、即使是均匀拆细,仍然会导致统计量的增加 2、非均匀拆细,统计量的增加更严重 3、均匀拆细的情况下,斜率与q值的关系是斜率值=(-q+1) 所以,对应地,在计算广义维的时候要除以(1-q)以消除q阶算法带来的影响。 4、q对不均匀拆细的作用:随q值不同,对大概率部分和小概率部分具有不同的放大作用。 总结:q阶算法的作用是可以发现细分后不均匀程度(复杂度)的变化。 若不均匀拆细发生在小概率部分,则q<<-1 的广义维值会有强烈反应 若均匀拆细发生在大概率部分,则q>>1 的广义维值会有强烈反应
对q阶方法的理解,最好的莫过于构造数值算例,例如: data2= [0.5 0.5] data4= [0.25 0.25 0.25 0.25] data8=[0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125 ] 代表了1:1的对等分裂 data2= [0.9 0.1] data4= [0.9*0.9 0.9*0.1 0.1*0.9 0.1*0.1] data8=[0.9*0.9*0.9 0.9*0.9*0.1 0.9*0.1*0.9 0.9*0.1*0.1 0.1*0.9*0.9 0.1*0.9*0.1 0.1*0.1*0.9 0.1*0.1*0.1] 代表了1:9分裂 可以以这些分裂模型为母板,引入新的分裂模式例如把1:9分裂的r=8级分裂的后4个1:1的对等分裂,通过修改算例,观察t(q),a(q),f(q)的表现,从而理解它们所能表达的含义。 主要验证以下几个概念: M=sum(Piq) t(q)是M对q的斜率 a(q)是t(q)对q的斜率 f(a)是Piq的归一化后的香农熵 由算例说明:f(a)的图形形态可以反应各个概率(或者密度)值所占的分量。f(a)越瘦,表明高密度点所占分量较大。 f(a)的左侧发生异变,表明小概率事件的进一步细分趋向对等分裂, f(a)的右侧发生异变,表明大概率事件的进一步细分趋向对等分裂,
关于香农熵,摘抄网上的一段说明: 马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?” 假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。 这样只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。 也就是说,可能的事件种类有32种,不确定的范围有32种。其复杂性(存储它需要花费的比特数 为 5 )为2^5. 有些读者此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军,因为象巴西、德国、意大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此,我们第一次猜测时不需要把 32 个球队等分成两个组,而可以把少数几个最可能的球队分成一组,把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程,根据夺冠概率对剩下的候选球队分组,直到找到冠军队。这样,我们也许三次或四次就猜出结果。因此,当每个球队夺冠的可能性(概率)不等时,“谁世界杯冠军”的信息量的信息量比五比特少。香农指出,它的准确信息量应该是 = -(p1*log p1 + p2 * log p2 + ... +p32 *log p32), 理解:事件有多种可能的时候,越多可能,就意味着猜想它的难度越大,也就是事件的复杂度越高、也就是变量可能的空间范围越大、存储它所需要的比特空间也越大。随着已知信息的增加,这个不确定空间范围会缩小。由最先的平均分布,变得有的事件概率大,有的事件概率小。香农熵可以对任意归一化的数列以概率分布来对待,并计算这个概率分布的复杂度指标。 在分形计算中,随着划分级别的深入,对应的事件也就越多,也就是划分本身造成了熵的增加,为了消除这个影响,可以对香农熵除以log(r) 。为什么是log(r)而不是r, 因为log(r)代表了r这个独立事件的香农熵(可以使用香农熵的定义公式对单个独立事件进行测算证明)。这是f(a)的含义重点。