基于多臂赌博机在线学习的频谱共享方法

发布时间：2019-09-11 09:27

【摘要】：针对频谱共享中信道状态建模为完全知识马尔科夫时,应用受限的问题,提出了不同信道下基于信道感知的在线学习。根据授权用户是否存在于当前信道来选择激进发送或保守发送,由于保守发送时,信道状态是不可观测的,因此将信道模型建模为部分可观测马尔科夫决策过程。将信道未知情况下的最优传输策略建模为多臂赌博机模型。仿真结果表明,在信道不完全可知情况下的多臂赌博机在线学习算法能获得最优K步策略,并通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。
【图文】：

信道建模,信道模型,信道

计算机工程与设计２０１４年１系统模型假设在授权用户网络中，每个信道只有两种状态Ｓ，即二值的Ｇｉｌｂｅｒｔ－Ｅｌｌｉｏｔｔ马尔科夫链：如图１所示，当Ｓ＝１时，表示当前信道空闲；当Ｓ＝０时，表示当前状态忙碌。图１中λ０为信道的状态从忙到空闲的转移概率，（１－λ１）为信道的状态从空闲到忙碌的转移概率。图１Ｇ－Ｅ信道模型１．１基于ＰＯＭＤＰ的信道建模的速率传输才能成功。转移概率为假设当前信道为Ｇｉｌｂｅｒｔ－Ｅｌｌｉｏｔｔ信道即具有二值状态的马尔科夫链，当Ｓ＝１时，表示当前信道处于空闲，对于ＳＵ而言信道状态较好，能够成功地高速传输数据；当Ｓ＝０时，表示当前信道忙碌，对ＳＵ而言信道状态较差，ＳＵ只有以较低Ｐ＝Ｐ００Ｐ０１Ｐ１０Ｐ［］１１＝１－λ０λ０１－λ１λ［］１（１）令α＝λ１－λ０，假设信道为正相关，则α＞０。在每一次时隙的开始，ＳＵ需要做出动作选择：（１）保守发送（ＳＣ）：ＳＵ低速数据传输。在该动作下，不管当前信道处于何种状态，ＳＵ传输数据均能取得成功，并取得回报Ｒ１。因此，在该动作下ＳＵ不能对信道状态进行学习。（２）激进发送（ＳＡ）：ＳＵ高速数据传输。如果信道状态好，ＳＵ高速数据传输获得成功，并得到回报Ｒ２，且有Ｒ２＞Ｒ１；如果信道状态差，高速数据传输将导致很高的错误率和丢包率，，并获得惩罚值Ｃ。因此，在该动作下ＳＵ可以通过学习获得信道下一时刻的状态。当保守发送时，信道的状态并不能直接观察，因此本文将该问题建模为ＰＯＭＤＰ模型。该ＰＯ

信道状态

计算机工程与设计２０１４年ｌｏｇｎｎｉｍｉｎ１４，Ｖｉ（ｎｉ｛｝i幔┭≡褡畲蟮模眨茫禄颍眨茫拢裕酰睿澹涞闹底魑鼻暗淖钣疟郏⒃诵械鼻白钣疟邸＃澹睿洌妫铮颍澹睿洌妫铮蚍抡娣治觯焊菀陨纤惴ú街璧贸鐾迹场迹丁Ｍ迹澄ü眨茫滤惴ǎ竦猛桓靓耍埃剑埃常逗挺耍保剑埃梗毙诺雷刺滤斜鄣谋硐郑渲械北畚笔笔歉眯诺雷刺碌淖钣疟郏孀旁诵惺奔湓黾樱郏北谎≈性诵械氖奔浔惹飨蛴冢保渌鄣氖褂寐是飨蛴冢埃佣业阶钣疟邸Ｍ姆椒ǹ傻玫狡渌耍昂挺耍倍杂Φ淖钣疟邸Ｍ迹诚嗤诺雷刺碌淖钣疟弁迹床煌诺雷刺碌淖钣疟弁迹迪嗤诺雷刺拢眨茫拢裕眨危牛暮蟮淖钣疟弁迹次ü眨茫滤惴ǎ竦貌煌摩耍昂挺耍毙诺雷刺露杂ψ钣疟鄣氖樟残裕油迹粗锌杉孀攀奔涞脑黾樱钣疟郾谎≈性诵械氖奔浔戎鸾デ饔冢薄Ｍ迹滴ü眨茫拢簦酰颍睿澹渌惴ǎ桓靓耍昂挺耍毙糯镒赐迹恫煌诺雷刺拢眨茫拢裕眨危牛暮蟮淖钣疟厶拢斜鄣谋硐郑胪迹担眨茫滤惴ㄏ啾冉希樟菜俣雀臁Ｍ迹段ü眨茫拢簦酰颍睿澹渌惴ǎ煌摩耍昂挺耍毙诺雷刺拢鄣氖樟残杂胪迹叮眨茫滤惴ㄏ啾冉希樟菜俣雀臁＃唇崾锏鼻靶诺雷钣糯浯蠖际腔谕耆抖孕诺澜＃疚恼攵匀现尴叩缁肪巢煌耆芍榭鱿拢诺澜Ｎ糠挚晒鄄饴矶品蚬蹋岢隽嘶诙啾鄱牟┗淖钣糯涞脑谙哐胺椒ā７抡娣治霰砻鳎谛诺啦煌耆芍榭鱿碌亩啾鄱牟┗谙哐八惴ㄓ肽芑竦米钣牛瞬讲呗浴Ｍ

本文编号：2534338

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/wltx/2534338.html

上一篇：SOA-FWM效应在RoF系统中的应用研究
下一篇：稀布阵列MIMO雷达成像技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|