В комментарии к переводу статьи Шухарта я упоминал теорему Чебышева, из которой следует, что в интервал +/- 3 сигмы попадает более 89% значений случайной величины практически для любого распределения. Результаты обширных расчётов, приведённые Уилером в публикуемом нами материале, косвенно подтверждают на практике этот вывод и показывают широчайшую применимость диаграмм поведения процесса (того, что изначально называлось контрольными картами).

 

Из книги: Donald J. Wheeler Twenty Things You Need To Know

Перевод: Георгий Лейбович, Светлана Ильина

 

ГЛАВА СЕДЬМАЯ

НУЖНЫ ЛИ НАМ НОРМАЛЬНЫЕ ДАННЫЕ?

Нет, не нужны.

Границы в три сигмы являются достаточно общими, чтобы  работать со всеми видами данных. Помните, цель состоит в том, чтобы отделить обычную вариабельность от особой вариабельности. Поскольку особая вариабельность является, по определению, доминантной, то чтобы отличить одну от другой, нам просто нужно отделить основную массу обычной вариабельности. Таким образом, нам нужны границы, включающие всю или почти всю обычную вариабельность.

Чтобы увидеть, как с этим справляются три-сигма границы, для описания обычной вариабельности можно использовать различные вероятностные модели. На рисунке 7.1 приведены шесть таких моделей, начиная с однородного и заканчивая экспоненциальным распределениями. Каждое из этих распределений стандартизовано так, чтобы среднее каждого из них равнялось нулю, а параметр стандартного отклонения равнялся 1.00. Рисунок 7.1 показывает три-сигма границы и ту  долю площади под каждой кривой, которая  лежит внутри этих три-сигма границ.

 

Рисунок 7.1: Как три-сигма границы отфильтровывают практически всю обычную вариабельность, вне зависимости от использованной вероятностной модели.

 

Из рисунка 7.1 можно извлечь четыре урока.

Первый урок Рисунка 7.1 состоит в том, что три-сигма границы будут отфильтровывать практически всю обычную вариабельность независимо от формы гистограммы. Эти шесть моделей коренным образом различаются, но несмотря на эти различия, три-сигма границы покрывают от 98 до 100 процентов площади под каждой кривой.

Второй урок Рисунка 7.1 состоит в том, что любое значение (точка), выходящее за три-сигма границы, является потенциальным сигналом наличия изменения в процессе. Поскольку маловероятно, что обычная вариабельность будет выходить за эти границы, то более вероятно, что любая точка, оказавшаяся вне этих границ, будет сигнализировать об изменении в процессе.

Третий урок Рисунка 7.1 состоит в том, что симметричные три-сигма границы работают с асимметричным распределением. Четыре из шести приведённых моделей являются асимметричными. Если просмотреть страницу до конца, мы увидим, что независимо от того, насколько асимметричной становится модель, параметр стандартного отклонения растягивается пропорционально хвосту распределения. Это означает, что в каждом случае длина вытянутого хвоста будет реально определять величину три-сигма, а также, что эти границы будут включать основную часть вытянутого хвоста вне зависимости от того, насколько асимметричными становятся эти данные.

«Но при этом другая граница смотрится совсем уж глупо.» Да, это так. Здесь нужно сделать паузу и подумать о тех ситуациях, где у нас имеются асимметричные данные. В большинстве случаев асимметричные данные имеются у нас тогда, когда данные скапливаются из-за барьера или  граничного условия. Всякий раз, когда граничное условие оказывается внутри рассчитанных границ, граница данной модели превалируют над рассчитанной границей, и в конечном итоге мы приходим к односторонней диаграмме. Когда такое происходит, оставшаяся рассчитанная граница охватывает длинный хвост и позволяет нам отделить обычную вариабельность от потенциальных сигналов отклонения за пределы границы. Тем самым, будучи симметричными, три-сигмы границы работают с асимметричными данными.

Четвёртый урок Рисунка 7.1 состоит в том, что какая-либо неопределённость в нанесении три-сигма линий не будет существенно влиять на покрываемую границами область. Все кривые настолько пологие при приближении к три-сигма границам, что любые допускаемые нами ошибки при оценке этих границ будут оказывать, от силы, минимальное влияние на то, как работает наша диаграмма.

Приведённые на Рис 7.1 шесть вероятностных моделей успешно суммируют то, что было обнаружено, когда автор проанализировал более 1100 вероятностных моделей, принадлежащих семи широко используемым семействам моделей. Эти 1143 модели охватили практически все формы, среди которых оказалось 916 колоколообразных, 182 J-образных и 45 U-образных форм. У 1112 из них более чем 97.5 процентов площади под кривой лежали в симметричных три-сигма границах.

Три-сигма границы «берут грубой силой». Они достаточно общие, чтобы работать со всеми типами и формами гистограмм. Они работают с асимметричными данными и они работают даже тогда, когда наши оценки основываются на малом количестве данных.

Поэтому, нам не нужно проводить  предквалификационный отбор данных перед нанесением их на диаграмму поведения процесса. Перед расчетом границ нам не нужно определять, к какому распределению их отнести. И нам также нет нужды преобразовывать данные перед нанесением их на диаграмму поведения процесса.

Любой, кто будет утверждать обратное, просто старается излишне усложнить вашу жизнь.

Комментарии   

+1 #1 Сергей Жаринов 22.09.2021 12:40
Позволю себе пару комментариев:

1. Конечно, в основе всего лежит неравенство Чебышева. Для многих типовых распределений оно даже слишком консервативно: для нормального в пределах 3сигм находится 99.7%, а для экспоненциально го 98.2%. Однако, например, для последнего вероятность того, что в выборке из N случайных чисел хотя бы одно окажется за пределами 3сигм составляет: при N=38 примерно 50%, а при N=100 уже 84% (то есть почти наверняка). Иными словами, применять Правило_1 следует весьма аккуратно. В соответствии со "вторым уроком" выход за контрольные границы это всего лишь "потенциальный сигнал" о возможном наличии аномалии. Поэтому только на таком основании делать вывод о наличии особых причин вариабельности было бы опрометчиво. Более надёжные результаты тут должен давать (дополнительный ) анализ размаха и правила для серий.

2. Неравенство Чебышева оперирует двумя первыми моментами, которые априори считаются известными. То есть для контроля процесса с заданными значениями среднего и дисперсии всё абсолютно корректно. Однако если распределение неизвестно и его моменты оцениваются по самой выборке размером N, то чем меньше N тем меньше надёжность этих оценок. Поэтому в практических руководствах обычно и рекомендуют N>30. Хотя "четвёртый урок", несомненно, справедлив и смещение тут не должно быть слишком существенным.
+1 #2 Георгий Лейбович 22.09.2021 21:32
Сергей, спасибо за полезный комментарий! Но ты сыплешь мне соль на раны. В книге Уилера Twenty things you need to know, которую, как ты знаешь, мы со Светланой давно перевели, есть разъяснения и по этому вопросу (гл. 11), и по ряду других, вполне естественных. Очень хочется разместить её всю, но ещё тлеет надежда на издание книги.
Попробую постепенно, по мере возможности, приводить материал на основе статей Уилера.
К сожалению, как сказал Юрий Тимофеевич Рубаник, в России сейчас читают мало.
#3 Александр Запорожцев 16.10.2021 11:01
На все проблемы измерений я последнее время смотрю с точки зрения книги Хаббарта "Как измерить все, что угодно" Основная мысль книги - измерение - это снижение неопределенност и. SCP - это инструмент управления, который используется при решении задачи - Как улучшить процесс? Меня заинтересовал вопрос о количестве измерений N, по которым можно делать практические выводы. В книге Хаббарта показывается, что даже очень небольшое количество измерений уже часто достаточно для снижения неопределенност и. В частности, он рекомендует использовать правило пяти, при использовании которого ранжированные значения позволяют по треьему числу определить среднее.