当前位置:主页 > 科技论文 > 网络通信论文 >

基于多臂赌博机在线学习的频谱共享方法

发布时间:2019-09-11 09:27
【摘要】:针对频谱共享中信道状态建模为完全知识马尔科夫时,应用受限的问题,提出了不同信道下基于信道感知的在线学习。根据授权用户是否存在于当前信道来选择激进发送或保守发送,由于保守发送时,信道状态是不可观测的,因此将信道模型建模为部分可观测马尔科夫决策过程。将信道未知情况下的最优传输策略建模为多臂赌博机模型。仿真结果表明,在信道不完全可知情况下的多臂赌博机在线学习算法能获得最优K步策略,并通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。
【图文】:

信道建模,信道模型,信道


计算机工程与设计2014年1系统模型假设在授权用户网络中,每个信道只有两种状态S,即二值的Gilbert-Elliott马尔科夫链:如图1所示,当S=1时,表示当前信道空闲;当S=0时,表示当前状态忙碌。图1中λ0为信道的状态从忙到空闲的转移概率,(1-λ1)为信道的状态从空闲到忙碌的转移概率。图1G-E信道模型1.1基于POMDP的信道建模的速率传输才能成功。转移概率为假设当前信道为Gilbert-Elliott信道即具有二值状态的马尔科夫链,当S=1时,表示当前信道处于空闲,对于SU而言信道状态较好,能够成功地高速传输数据;当S=0时,表示当前信道忙碌,对SU而言信道状态较差,SU只有以较低P=P00P01P10P[]11=1-λ0λ01-λ1λ[]1(1)令α=λ1-λ0,假设信道为正相关,则α>0。在每一次时隙的开始,SU需要做出动作选择:(1)保守发送(SC):SU低速数据传输。在该动作下,不管当前信道处于何种状态,SU传输数据均能取得成功,并取得回报R1。因此,在该动作下SU不能对信道状态进行学习。(2)激进发送(SA):SU高速数据传输。如果信道状态好,SU高速数据传输获得成功,并得到回报R2,且有R2>R1;如果信道状态差,高速数据传输将导致很高的错误率和丢包率,,并获得惩罚值C。因此,在该动作下SU可以通过学习获得信道下一时刻的状态。当保守发送时,信道的状态并不能直接观察,因此本文将该问题建模为POMDP模型。该PO

信道状态


计算机工程与设计2014年lognnimin14,Vi(ni{}i幔┭≡褡畲蟮模眨茫禄颍眨茫拢裕酰睿澹涞闹底魑鼻暗淖钣疟郏⒃诵械鼻白钣疟邸#澹睿洌妫铮颍澹睿洌妫铮蚍抡娣治觯焊菀陨纤惴ú街璧贸鐾迹场迹丁M迹澄ü眨茫滤惴ǎ竦猛桓靓耍埃剑埃常逗挺耍保剑埃梗毙诺雷刺滤斜鄣谋硐郑渲械北畚笔笔歉眯诺雷刺碌淖钣疟郏孀旁诵惺奔湓黾樱郏北谎≈性诵械氖奔浔惹飨蛴冢保渌鄣氖褂寐是飨蛴冢埃佣业阶钣疟邸M姆椒ǹ傻玫狡渌耍昂挺耍倍杂Φ淖钣疟邸M迹诚嗤诺雷刺碌淖钣疟弁迹床煌诺雷刺碌淖钣疟弁迹迪嗤诺雷刺拢眨茫拢裕眨危牛暮蟮淖钣疟弁迹次ü眨茫滤惴ǎ竦貌煌摩耍昂挺耍毙诺雷刺露杂ψ钣疟鄣氖樟残裕油迹粗锌杉孀攀奔涞脑黾樱钣疟郾谎≈性诵械氖奔浔戎鸾デ饔冢薄M迹滴ü眨茫拢簦酰颍睿澹渌惴ǎ桓靓耍昂挺耍毙糯镒赐迹恫煌诺雷刺拢眨茫拢裕眨危牛暮蟮淖钣疟厶拢斜鄣谋硐郑胪迹担眨茫滤惴ㄏ啾冉希樟菜俣雀臁M迹段ü眨茫拢簦酰颍睿澹渌惴ǎ煌摩耍昂挺耍毙诺雷刺拢鄣氖樟残杂胪迹叮眨茫滤惴ㄏ啾冉希樟菜俣雀臁#唇崾锏鼻靶诺雷钣糯浯蠖际腔谕耆抖孕诺澜#疚恼攵匀现尴叩缁肪巢煌耆芍榭鱿拢诺澜N糠挚晒鄄饴矶品蚬蹋岢隽嘶诙啾鄱牟┗淖钣糯涞脑谙哐胺椒ā7抡娣治霰砻鳎谛诺啦煌耆芍榭鱿碌亩啾鄱牟┗谙哐八惴ㄓ肽芑竦米钣牛瞬讲呗浴M

本文编号:2534338

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2534338.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fc53f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com