«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010
Ишалина М.А., Постовалов С.Н.
Исследование распределений статистик критериев однородности по многократно цензурированным выборкам фиксированного объема
Факультет прикладной математики и информатики Новосибирский государственный технический университет[email protected], [email protected]
2
Сравнение двух кривых жизни Сравнение двух кривых жизни на сегодняшний день не
является какой-то новой проблемой, так как уже на протяжении многих лет встречается в анализе выживаемости и теории надежности.
К примеру, в анализе выживаемости - это сравнение действенности лекарственного препарата на двух группах больных, причем это может быть сравнение двух разных препаратов.
Также, может быть сравнение разных доз одного препарата, а возможны и такие опыты, когда одной группе заболевших совсем не дают никаких лекарств.
В теории надежности - это сравнение двух групп деталей на надежность, когда необходимо определить является ли новая модель или модификация какой-либо детали надежней своей предшественницы.
2
3
Критерии сравнения двух кривых жизней
3
Основная проблема анализа данных выживаемости в том, что часто нет возможно наблюдать каждый объект на протяжении всего времени, до конца. Таким образом, мы имеем цензурирование или неполные данные. Для таких случаев требуются специальные статистические методы.
Рассматриваемые критерии: Критерий Гехана (1965)
Логарифмический ранговый критерий (1972)
Критерий Кокса-Мантела (1966)
4
Проверяемая гипотеза
4
1
1 1 11 1 2( , ,..., )nT t t t
2
2 2 22 1 2( , ,..., )nT t t t
1n 2n
: ( ) ( )0 1 2
H S t S t
- функция выживаемость для1( )S t 1T
2 ( )S t 2T
Основная гипотеза имеет вид
и альтернативы к ней
: ( ) ( )1 1 2
H S t S t : ( ) ( )2 1 2
H S t S t : ( ) ( )3 1 2
H S t S t
jit
Пусть имеется две выборки
и
объемами и
Где это полное или цензурированное наблюдение.
- функция выживаемость для
соответственно.
(1)
5
1 2( , ,..., )nT t t t
1
2
0,
1, ,i
i
i
if t Tv
if t T
1,
0, i
ii
если t цензурированное наблюдениеc
если t полное наблюдение
Вычисление статистик критериевОбъединим выборки T1 и Т2 и отсортируем полученную выборку по возрастанию.
где n=n1+n2
Пусть
и
(2)
(3)
5
6
Критерий Гехана
6
,Затем вычислим величины:
Окончательная статистика критерия имеет вид:
1, & 0 & 0 & 1
1, & 0 & 0 & 1
0,
i j j i j
ij i j i i j
if t t c
h if t t c
иначе
1
.n
i j ijj
h h
G
GG
US
I
1
(1 )n
G i ii
U h
21 2
1
(1 ) .( 1)
n
G i ii
n nI h
n n
Каждого больного из первой группы сравнивают с каждым больным из второй группы.
(4)
(5)
(6)
7
Логарифмический ранговый критерий
Статистика критерия имеет вид:
где:
1
1(1 ) ,
i
i ij
w cn j
,LL
L
US
I
1
,n
L ii
U w
1 2
1
1(1 )
( 1)
n
L ii
n i n nI c
n i n n
(7)
(8)
(9)
88
21
(1 )n
i ii
r c
( )
1 n
i jj i
An i
2 ( )1
(1 ) ,n
CM i ii
U r c A
( ) ( )1
(1 ) 1n
CM i i ii
I c A A
CMCM
CM
US
I
Критерий Кокса-Мантела
(10)
(12)
(11)
Статистика критерия имеет вид:
где:
9
Распределение статистик критериев
9
Предельный закон распределения статистик рассмотренных критериев - стандартное нормальное распределение с функцией распределения:
Таким образом, основная гипотеза отвергается, если:
где - ошибка первого рода.
2
2
0
1
2
t x
t e dxФ
(13)
(14)
211
ФS
10
Основная задача При каком размере выборки расстояние между распределением статистики и предельным законом не превышает заданного?
10
sup ( ) ( )n nx
D F x F x
?n
- функция распределения статистики при фиксированном n
( )nF xгде
( )F x - функция распределения статистики при n
(15)
11
Выбор
11
0.01
Для большинства задач проверки статистических гипотез, погрешность в определении достигнутого уровня значимости может быть равна 1%.
Итак, пусть
(16)
12
Компьютерное моделирование
В работе мы получаем распределение статистик критериев с помощью компьютерного моделирования.
Алгоритм: моделируем две полные или цензурированные выборки объема n = n1 =n2 по заданному распределению, затем вычисляем значение статистики критерия и повторяем этот процесс N раз.
12
1313
В работе выборки моделировались по закону распределения Вейбулла с функцией распределения:
( , ) 1 exp , 0x
F x x
где α=2 и λ=1.
Рассмотренная модель
(17)
14
Выбор N - объема выборки статистик
14
22
2 2
( )(1 ( )),
4n n
tF x F xN t N
, ( ) ( ) 2 ( ) 1 ,n N nP F x F x Ф N
2
11 t
Какое количество выборок нужно смоделировать, чтобы погрешность моделирования была не больше заданной?Согласно ЦПТ можем построить доверительный интервал
где , ( )n NF x - эмпирическая функция распределения
0.99, 0.001 1 658 944N
Пусть
Тогда
Следовательно
(18)
(19)
(20)
15
Исследования
15
Поскольку
, ,sup ( ) ( )n N n Nx
D F x F x
( )nF x неизвестно, будем наблюдать расстояние
(21)
16
Распределение статистики критерия Гехана при малых объемах выборок и без цензурирования
11
17
Распределение статистики критерия Гехана при малых объемах выборок с цензурирования
17
18
Статистика критерия Гехана при различных процентах цензурирования, n1 = n2 = 20
18
19
Dn,N для статистики Гехана (различных объем и степень цензурирования)
Объемвыборки
Степень цензурирования
0 5 10 15 20 25 30 35 40 45 50
9 0,020 0,020 0,020 0,012 0,012 0,011 0,011 0,014 0,014 0,016 0,016
10 0,017 0,017 0,009 0,009 0,010 0,010 0,011 0,011 0,012 0,012 0,014
11 0,015 0,015 0,008 0,008 0,008 0,008 0,009 0,009 0,011 0,011 0,011
12 0,014 0,014 0,007 0,007 0,008 0,008 0,008 0,009 0,009 0,010 0,010
13 0,012 0,012 0,007 0,007 0,006 0,007 0,007 0,008 0,009 0,009 0,010
14 0,011 0,011 0,005 0,006 0,006 0,006 0,007 0,007 0,008 0,009 0,010
15 0,010 0,010 0,006 0,005 0,006 0,006 0,006 0,007 0,009 0,009 0,009
16 0,009 0,009 0,004 0,005 0,005 0,006 0,006 0,007 0,008 0,009 0,010
17 0,009 0,009 0,004 0,004 0,004 0,005 0,006 0,006 0,007 0,009 0,009
18 0,008 0,008 0,003 0,004 0,004 0,005 0,006 0,007 0,008 0,009 0,009
19 0,007 0,007 0,003 0,003 0,004 0,005 0,006 0,007 0,007 0,008 0,009
20 0,007 0,003 0,003 0,003 0,005 0,006 0,006 0,007 0,008 0,008 0,009
21 0,006 0,003 0,003 0,004 0,004 0,005 0,006 0,007 0,007 0,008 0,009
22 0,006 0,002 0,003 0,004 0,004 0,005 0,006 0,006 0,007 0,008 0,009
23 0,006 0,003 0,003 0,003 0,004 0,004 0,005 0,007 0,008 0,008 0,008
24 0,006 0,002 0,003 0,003 0,003 0,005 0,006 0,006 0,007 0,008 0,009
25 0,005 0,002 0,002 0,002 0,004 0,005 0,006 0,006 0,007 0,008 0,008
20
Зависимость Dn,N от n статистики критерия Гехана
y = 0,372x-1,33
R² = 0,997
0
0,002
0,004
0,006
0,008
0,01
0,012
0,014
0,016
0,018
0,02
10 100 1000
Dis
tan
ce (D
n)
Sample size (n)
50%
0%
21
Dn,N для статистики логрангового критерия
Объем выборки
Уровинь цензурирования
0 5 10 15 20 25 30 35 40 45 50
10 0,014 0,014 0,009 0,009 0,009 0,009 0,011 0,011 0,013 0,013 0,015
11 0,012 0,012 0,008 0,008 0,008 0,008 0,011 0,011 0,012 0,012 0,014
12 0,012 0,012 0,008 0,008 0,008 0,010 0,010 0,012 0,012 0,014 0,015
13 0,011 0,011 0,007 0,007 0,007 0,009 0,009 0,011 0,013 0,013 0,014
14 0,010 0,010 0,007 0,007 0,007 0,008 0,010 0,010 0,012 0,014 0,015
15 0,010 0,010 0,007 0,006 0,008 0,008 0,010 0,011 0,013 0,013 0,015
16 0,009 0,009 0,006 0,006 0,007 0,009 0,009 0,011 0,012 0,014 0,016
17 0,009 0,009 0,006 0,005 0,007 0,009 0,010 0,010 0,012 0,014 0,015
18 0,008 0,008 0,005 0,005 0,006 0,008 0,010 0,011 0,013 0,015 0,016
19 0,008 0,008 0,005 0,005 0,006 0,008 0,009 0,011 0,012 0,014 0,015
20 0,008 0,005 0,004 0,006 0,007 0,009 0,010 0,012 0,013 0,015 0,016
21 0,007 0,005 0,004 0,005 0,007 0,008 0,009 0,011 0,013 0,014 0,016
25 0,006 0,005 0,003 0,004 0,007 0,008 0,009 0,011 0,013 0,015 0,016
100 0,002 0,001 0,002 0,004 0,005 0,007 0,008 0,009 0,011 0,012 0,013
200 0,002 0,001 0,002 0,003 0,005 0,006 0,007 0,008 0,009 0,009 0,010
300 0,001 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,008 0,008 0,009
400 0,001 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,007 0,007 0,008
22
Зависимость Dn от n для статистики логарифмического рангового критерия
Dn(n) = 0,0947n-0,8423
R2 = 0,9863
0,000
0,002
0,004
0,006
0,008
0,010
0,012
0,014
0,016
0,018
0,020
10 100 1000
Dis
tan
ce (
Dn
)
Sample size (n)
50%
0%
23
Dn,N для статистики Кокса-Мантела
23
Объем выборки
Уровень цензурироваия
0 5 10 15 20 25 30 35 40 45 50
5 0,029 0,029 0,029 0,029 0,020 0,020 0,020 0,020 0,017 0,017 0,017
6 0,023 0,023 0,023 0,023 0,011 0,011 0,011 0,007 0,007 0,007 0,008
7 0,018 0,018 0,018 0,009 0,009 0,009 0,002 0,002 0,002 0,005 0,005
8 0,015 0,015 0,015 0,008 0,008 0,001 0,001 0,001 0,006 0,006 0,009
9 0,013 0,013 0,013 0,006 0,006 0,001 0,001 0,006 0,006 0,009 0,009
10 0,013 0,013 0,006 0,006 0,001 0,001 0,006 0,006 0,009 0,009 0,013
11 0,011 0,011 0,006 0,006 0,001 0,001 0,005 0,005 0,009 0,009 0,012
12 0,010 0,010 0,005 0,005 0,001 0,004 0,004 0,008 0,008 0,012 0,015
13 0,010 0,010 0,005 0,005 0,002 0,004 0,004 0,008 0,011 0,011 0,014
14 0,009 0,009 0,005 0,002 0,002 0,004 0,007 0,007 0,010 0,014 0,016
15 0,009 0,009 0,005 0,002 0,003 0,003 0,007 0,010 0,012 0,012 0,015
16 0,008 0,008 0,005 0,002 0,003 0,006 0,006 0,009 0,012 0,014 0,017
17 0,008 0,008 0,005 0,002 0,003 0,006 0,009 0,009 0,011 0,014 0,016
18 0,008 0,008 0,004 0,002 0,003 0,005 0,008 0,011 0,013 0,015 0,017
19 0,007 0,007 0,004 0,002 0,003 0,005 0,007 0,010 0,012 0,014 0,017
20 0,007 0,004 0,002 0,002 0,005 0,007 0,009 0,012 0,013 0,015 0,017
21 0,007 0,004 0,002 0,002 0,004 0,006 0,009 0,011 0,013 0,015 0,016
22 0,006 0,004 0,002 0,002 0,004 0,006 0,009 0,010 0,012 0,014 0,017
50 0,004 0,003 0,002 0,002 0,004 0,005 0,009 0,011 0,011 0,013 0,016
100 0,002 0,001 0,002 0,002 0,004 0,005 0,008 0,009 0,011 0,012 0,013
150 0,002 0,001 0,003 0,002 0,004 0,005 0,007 0,009 0,010 0,010 0,011
200 0,001 0,001 0,002 0,002 0,004 0,005 0,007 0,008 0,009 0,010 0,011
500 0,001 0,001 0,002 0,002 0,004 0,005 0,005 0,007 0,008 0,008 0,008
24
Зависимость Dn,N от n для ститисики критерия Кокса-Мантела
24
50%
0%
25
Функция распределения статистики Кокса-Мантела при малом объеме выборок и проценте цензурирования 50%
26
Рекомендуемый объем выборки
26
Степень цензур.Объем выборки
Гехан Логранговый Кокс-Мантел0% 16 20 165% 16 19 1610% 10 12 1015% 10 12 820% 11 15 825% 11 21 830% 12 90 10035% 12 180 20040% 12 300 Более 50045% 13 300 Более 50050% 19 400 Более 500
Для того, чтобы использовать предельное распределение в критериях однородности (с заданной погрешностью 0.01) мы должны взять выборку соответствующего объема
27
Выводы Мы исследовали распространение статистик трех
критериев проверки гипотезы однородности и показали, что имеется сходимость к предельному распределению.
Эта сходимость быстрая при малом проценте цензурирования и медленная при большом проценте цензурирования.
Если объем выборки превышает полученные значения, то расстояние до предельного закона не превышает 0.01.
В противном случае мы рекомендуем определять достигаемый уровень значимости с помощью метода Монте-Карло, вместо предельного закона.
27
28
Спасибо за внимание!
28
Top Related