нижнее белье для полных
მედიცინის კვლევები

   Велика Радянська Енциклопедія

Керований випадковий процес

   
 

Керований випадковий процес, випадковий процес, імовірнісні характеристики якого можна змінювати за допомогою керуючих впливів. Основна мета теорії В. с. п. = відшукання оптимальних (або близьких до них) управлінь, що доставляють екстремум заданому критерію якості. У простому випадку керованих марківських ланцюгів одна з математичних постановок завдання знаходження оптимального управління формулюється таким чином. Нехай Xd = (xn, ), n = 0, 1, ..., = сімейство однорідних марківських ланцюгів з кінцевим числом станів Е = {0, 1, ..., N} і матрицями перехідних ймовірностей P xy (d) = ?{x1 = у }, залежних від параметра d, належить деякому безлічі керуючих впливів D. Набір функцій a = {а0 (x0), a 1 (x0, x 1), ... } зі значеннями в D називають стратегією, а кожну з функцій an = ап (х0, ..., х п) = управлінням у момент часу n. Кожній стратегії a відповідає керована марковська ланцюг Xa = (хп, ), n = 0,? 1, ..., де

?(x0, x 1 ..., х п) = d (х0, х ) Рх 0х1(a0 (x0)) ... Px n-1 xn (a n-1 (x0, x 1, ..., x n-1 ))

Нехай: ?

де функція f ( d, х ) ? 0 і f ( d, 0) = 0 (якщо точка {0} є поглинаючим станом і f ( d, x ) = I, d I D, x = 1, ..., N, то Va (x) є матем. очікування часу попадання з точки х в точку 0). Функцію


називається ціною, а стратегію а * = оптимальною, якщо ? = V (x) для всіх х I Є.

При досить загальних припущеннях про безліч D встановлюється, що ціна V (x ) задовольняє наступному рівнянню оптимальності (рівняння Беллмана):

,

де

.

У класі всіх стратегій найбільший інтерес представляють т. н. однорідні марковские стратегії, що характеризуються однією функцією а (х) такий, що an (x0, ..., xn) = a (xn) при всіх n = 0, 1, ...

Отже, критерій оптимальності (або достатня умова оптимальності ) може бути використаний для перевірки того, що дана однорідна марковська стратегія є оптимальною: хай існують функції a* = а * (х) і V * = V * (x) такі, що для будь-якого d I D

0 = f ( x, a * (x)) + L a * V * ? f ( x, d ) + L d V * (x)

(Ld = T d = I, I = одиничний оператор), тоді V * є ціною (V * = V) і стратегія a * = a * (х) є оптимальною.

Літ.: Ховард Р.-А., Динамічне програмування і марковские процеси, пров. з англ., М. 1964.

© А. М. Ширяєв.





Виберіть першу букву в назві статті:

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ ы э ю я

Повний політерний каталог статей


 

Алфавітний каталог статей

  а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ ы э ю я
 


 
енциклопедія  біляші  морс  шашлик  качка