«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ»...

Post on 12-Jan-2016

59 views 1 download

description

«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010. Исследование распределений статистик критериев однородности по многократно цензурированным выборкам фиксированного объема. Ишалина М.А., Постовалов С.Н. Факультет прикладной математики и информатики - PowerPoint PPT Presentation

Transcript of «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ»...

«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010

Ишалина М.А., Постовалов С.Н.

 

Исследование распределений статистик критериев однородности по многократно цензурированным выборкам фиксированного объема

Факультет прикладной математики и информатики Новосибирский государственный технический университетishalina@ngs.ru, postovalov@ngs.ru

2

Сравнение двух кривых жизни Сравнение двух кривых жизни на сегодняшний день не

является какой-то новой проблемой, так как уже на протяжении многих лет встречается в анализе выживаемости и теории надежности.

К примеру, в анализе выживаемости - это сравнение действенности лекарственного препарата на двух группах больных, причем это может быть сравнение двух разных препаратов.

Также, может быть сравнение разных доз одного препарата, а возможны и такие опыты, когда одной группе заболевших совсем не дают никаких лекарств.

В теории надежности - это сравнение двух групп деталей на надежность, когда необходимо определить является ли новая модель или модификация какой-либо детали надежней своей предшественницы.

2

3

Критерии сравнения двух кривых жизней

3

Основная проблема анализа данных выживаемости в том, что часто нет возможно наблюдать каждый объект на протяжении всего времени, до конца. Таким образом, мы имеем цензурирование или неполные данные. Для таких случаев требуются специальные статистические методы.

Рассматриваемые критерии: Критерий Гехана (1965)

Логарифмический ранговый критерий (1972)

Критерий Кокса-Мантела (1966)

4

Проверяемая гипотеза

4

1

1 1 11 1 2( , ,..., )nT t t t

2

2 2 22 1 2( , ,..., )nT t t t

1n 2n

: ( ) ( )0 1 2

H S t S t

- функция выживаемость для1( )S t 1T

2 ( )S t 2T

Основная гипотеза имеет вид

и альтернативы к ней

: ( ) ( )1 1 2

H S t S t : ( ) ( )2 1 2

H S t S t : ( ) ( )3 1 2

H S t S t

jit

Пусть имеется две выборки

и

объемами и

Где это полное или цензурированное наблюдение.

- функция выживаемость для

соответственно.

(1)

5

1 2( , ,..., )nT t t t

1

2

0,

1, ,i

i

i

if t Tv

if t T

1,

0, i

ii

если t цензурированное наблюдениеc

если t полное наблюдение

Вычисление статистик критериевОбъединим выборки T1 и Т2 и отсортируем полученную выборку по возрастанию.

где n=n1+n2

Пусть

и

(2)

(3)

5

6

Критерий Гехана

6

,Затем вычислим величины:

Окончательная статистика критерия имеет вид:

1, & 0 & 0 & 1

1, & 0 & 0 & 1

0,

i j j i j

ij i j i i j

if t t c

h if t t c

иначе

1

.n

i j ijj

h h

G

GG

US

I

1

(1 )n

G i ii

U h

21 2

1

(1 ) .( 1)

n

G i ii

n nI h

n n

Каждого больного из первой группы сравнивают с каждым больным из второй группы.

(4)

(5)

(6)

7

Логарифмический ранговый критерий

Статистика критерия имеет вид:

где:

1

1(1 ) ,

i

i ij

w cn j

,LL

L

US

I

1

,n

L ii

U w

1 2

1

1(1 )

( 1)

n

L ii

n i n nI c

n i n n

(7)

(8)

(9)

88

21

(1 )n

i ii

r c

( )

1 n

i jj i

An i

2 ( )1

(1 ) ,n

CM i ii

U r c A

( ) ( )1

(1 ) 1n

CM i i ii

I c A A

CMCM

CM

US

I

Критерий Кокса-Мантела

(10)

(12)

(11)

Статистика критерия имеет вид:

где:

9

Распределение статистик критериев

9

Предельный закон распределения статистик рассмотренных критериев - стандартное нормальное распределение с функцией распределения:

Таким образом, основная гипотеза отвергается, если:

где - ошибка первого рода.

2

2

0

1

2

t x

t e dxФ

(13)

(14)

211

ФS

10

Основная задача При каком размере выборки расстояние между распределением статистики и предельным законом не превышает заданного?

10

sup ( ) ( )n nx

D F x F x

?n

- функция распределения статистики при фиксированном n

( )nF xгде

( )F x - функция распределения статистики при n

(15)

11

Выбор

11

0.01

Для большинства задач проверки статистических гипотез, погрешность в определении достигнутого уровня значимости может быть равна 1%.

Итак, пусть

(16)

12

Компьютерное моделирование

В работе мы получаем распределение статистик критериев с помощью компьютерного моделирования.

Алгоритм: моделируем две полные или цензурированные выборки объема n = n1 =n2 по заданному распределению, затем вычисляем значение статистики критерия и повторяем этот процесс N раз.

12

1313

В работе выборки моделировались по закону распределения Вейбулла с функцией распределения:

( , ) 1 exp , 0x

F x x

где α=2 и λ=1.

Рассмотренная модель

(17)

14

Выбор N - объема выборки статистик

14

22

2 2

( )(1 ( )),

4n n

tF x F xN t N

, ( ) ( ) 2 ( ) 1 ,n N nP F x F x Ф N

2

11 t

Какое количество выборок нужно смоделировать, чтобы погрешность моделирования была не больше заданной?Согласно ЦПТ можем построить доверительный интервал

где , ( )n NF x - эмпирическая функция распределения

0.99, 0.001 1 658 944N

Пусть

Тогда

Следовательно

(18)

(19)

(20)

15

Исследования

15

Поскольку

, ,sup ( ) ( )n N n Nx

D F x F x

( )nF x неизвестно, будем наблюдать расстояние

(21)

16

Распределение статистики критерия Гехана при малых объемах выборок и без цензурирования

11

17

Распределение статистики критерия Гехана при малых объемах выборок с цензурирования

17

18

Статистика критерия Гехана при различных процентах цензурирования, n1 = n2 = 20

18

19

Dn,N для статистики Гехана (различных объем и степень цензурирования)

Объемвыборки

Степень цензурирования

0 5 10 15 20 25 30 35 40 45 50

9 0,020 0,020 0,020 0,012 0,012 0,011 0,011 0,014 0,014 0,016 0,016

10 0,017 0,017 0,009 0,009 0,010 0,010 0,011 0,011 0,012 0,012 0,014

11 0,015 0,015 0,008 0,008 0,008 0,008 0,009 0,009 0,011 0,011 0,011

12 0,014 0,014 0,007 0,007 0,008 0,008 0,008 0,009 0,009 0,010 0,010

13 0,012 0,012 0,007 0,007 0,006 0,007 0,007 0,008 0,009 0,009 0,010

14 0,011 0,011 0,005 0,006 0,006 0,006 0,007 0,007 0,008 0,009 0,010

15 0,010 0,010 0,006 0,005 0,006 0,006 0,006 0,007 0,009 0,009 0,009

16 0,009 0,009 0,004 0,005 0,005 0,006 0,006 0,007 0,008 0,009 0,010

17 0,009 0,009 0,004 0,004 0,004 0,005 0,006 0,006 0,007 0,009 0,009

18 0,008 0,008 0,003 0,004 0,004 0,005 0,006 0,007 0,008 0,009 0,009

19 0,007 0,007 0,003 0,003 0,004 0,005 0,006 0,007 0,007 0,008 0,009

20 0,007 0,003 0,003 0,003 0,005 0,006 0,006 0,007 0,008 0,008 0,009

21 0,006 0,003 0,003 0,004 0,004 0,005 0,006 0,007 0,007 0,008 0,009

22 0,006 0,002 0,003 0,004 0,004 0,005 0,006 0,006 0,007 0,008 0,009

23 0,006 0,003 0,003 0,003 0,004 0,004 0,005 0,007 0,008 0,008 0,008

24 0,006 0,002 0,003 0,003 0,003 0,005 0,006 0,006 0,007 0,008 0,009

25 0,005 0,002 0,002 0,002 0,004 0,005 0,006 0,006 0,007 0,008 0,008

20

Зависимость Dn,N от n статистики критерия Гехана

y = 0,372x-1,33

R² = 0,997

0

0,002

0,004

0,006

0,008

0,01

0,012

0,014

0,016

0,018

0,02

10 100 1000

Dis

tan

ce (D

n)

Sample size (n)

50%

0%

21

Dn,N для статистики логрангового критерия

Объем выборки

Уровинь цензурирования

0 5 10 15 20 25 30 35 40 45 50

10 0,014 0,014 0,009 0,009 0,009 0,009 0,011 0,011 0,013 0,013 0,015

11 0,012 0,012 0,008 0,008 0,008 0,008 0,011 0,011 0,012 0,012 0,014

12 0,012 0,012 0,008 0,008 0,008 0,010 0,010 0,012 0,012 0,014 0,015

13 0,011 0,011 0,007 0,007 0,007 0,009 0,009 0,011 0,013 0,013 0,014

14 0,010 0,010 0,007 0,007 0,007 0,008 0,010 0,010 0,012 0,014 0,015

15 0,010 0,010 0,007 0,006 0,008 0,008 0,010 0,011 0,013 0,013 0,015

16 0,009 0,009 0,006 0,006 0,007 0,009 0,009 0,011 0,012 0,014 0,016

17 0,009 0,009 0,006 0,005 0,007 0,009 0,010 0,010 0,012 0,014 0,015

18 0,008 0,008 0,005 0,005 0,006 0,008 0,010 0,011 0,013 0,015 0,016

19 0,008 0,008 0,005 0,005 0,006 0,008 0,009 0,011 0,012 0,014 0,015

20 0,008 0,005 0,004 0,006 0,007 0,009 0,010 0,012 0,013 0,015 0,016

21 0,007 0,005 0,004 0,005 0,007 0,008 0,009 0,011 0,013 0,014 0,016

25 0,006 0,005 0,003 0,004 0,007 0,008 0,009 0,011 0,013 0,015 0,016

100 0,002 0,001 0,002 0,004 0,005 0,007 0,008 0,009 0,011 0,012 0,013

200 0,002 0,001 0,002 0,003 0,005 0,006 0,007 0,008 0,009 0,009 0,010

300 0,001 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,008 0,008 0,009

400 0,001 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,007 0,007 0,008

22

Зависимость Dn от n для статистики логарифмического рангового критерия

Dn(n) = 0,0947n-0,8423

R2 = 0,9863

0,000

0,002

0,004

0,006

0,008

0,010

0,012

0,014

0,016

0,018

0,020

10 100 1000

Dis

tan

ce (

Dn

)

Sample size (n)

50%

0%

23

Dn,N для статистики Кокса-Мантела

23

Объем выборки

Уровень цензурироваия

0 5 10 15 20 25 30 35 40 45 50

5 0,029 0,029 0,029 0,029 0,020 0,020 0,020 0,020 0,017 0,017 0,017

6 0,023 0,023 0,023 0,023 0,011 0,011 0,011 0,007 0,007 0,007 0,008

7 0,018 0,018 0,018 0,009 0,009 0,009 0,002 0,002 0,002 0,005 0,005

8 0,015 0,015 0,015 0,008 0,008 0,001 0,001 0,001 0,006 0,006 0,009

9 0,013 0,013 0,013 0,006 0,006 0,001 0,001 0,006 0,006 0,009 0,009

10 0,013 0,013 0,006 0,006 0,001 0,001 0,006 0,006 0,009 0,009 0,013

11 0,011 0,011 0,006 0,006 0,001 0,001 0,005 0,005 0,009 0,009 0,012

12 0,010 0,010 0,005 0,005 0,001 0,004 0,004 0,008 0,008 0,012 0,015

13 0,010 0,010 0,005 0,005 0,002 0,004 0,004 0,008 0,011 0,011 0,014

14 0,009 0,009 0,005 0,002 0,002 0,004 0,007 0,007 0,010 0,014 0,016

15 0,009 0,009 0,005 0,002 0,003 0,003 0,007 0,010 0,012 0,012 0,015

16 0,008 0,008 0,005 0,002 0,003 0,006 0,006 0,009 0,012 0,014 0,017

17 0,008 0,008 0,005 0,002 0,003 0,006 0,009 0,009 0,011 0,014 0,016

18 0,008 0,008 0,004 0,002 0,003 0,005 0,008 0,011 0,013 0,015 0,017

19 0,007 0,007 0,004 0,002 0,003 0,005 0,007 0,010 0,012 0,014 0,017

20 0,007 0,004 0,002 0,002 0,005 0,007 0,009 0,012 0,013 0,015 0,017

21 0,007 0,004 0,002 0,002 0,004 0,006 0,009 0,011 0,013 0,015 0,016

22 0,006 0,004 0,002 0,002 0,004 0,006 0,009 0,010 0,012 0,014 0,017

50 0,004 0,003 0,002 0,002 0,004 0,005 0,009 0,011 0,011 0,013 0,016

100 0,002 0,001 0,002 0,002 0,004 0,005 0,008 0,009 0,011 0,012 0,013

150 0,002 0,001 0,003 0,002 0,004 0,005 0,007 0,009 0,010 0,010 0,011

200 0,001 0,001 0,002 0,002 0,004 0,005 0,007 0,008 0,009 0,010 0,011

500 0,001 0,001 0,002 0,002 0,004 0,005 0,005 0,007 0,008 0,008 0,008

24

Зависимость Dn,N от n для ститисики критерия Кокса-Мантела

24

50%

0%

25

Функция распределения статистики Кокса-Мантела при малом объеме выборок и проценте цензурирования 50%

26

Рекомендуемый объем выборки

26

Степень цензур.Объем выборки

Гехан Логранговый Кокс-Мантел0% 16 20 165% 16 19 1610% 10 12 1015% 10 12 820% 11 15 825% 11 21 830% 12 90 10035% 12 180 20040% 12 300 Более 50045% 13 300 Более 50050% 19 400 Более 500

Для того, чтобы использовать предельное распределение в критериях однородности (с заданной погрешностью 0.01) мы должны взять выборку соответствующего объема

27

Выводы Мы исследовали распространение статистик трех

критериев проверки гипотезы однородности и показали, что имеется сходимость к предельному распределению.

Эта сходимость быстрая при малом проценте цензурирования и медленная при большом проценте цензурирования.

Если объем выборки превышает полученные значения, то расстояние до предельного закона не превышает 0.01.

В противном случае мы рекомендуем определять достигаемый уровень значимости с помощью метода Монте-Карло, вместо предельного закона.

27

28

Спасибо за внимание!

28