3.3: Встановлення функції розподілу до даних
- Page ID
- 28561
У цьому розділі розглядається використання даних при визначенні функції розподілу для моделювання випадкової величини, а також значень параметрів розподілу. Обговорюються деякі поширені труднощі при отриманні і використанні даних. Наведено загальні функції розподілу, що використовуються в імітаційних моделах. Закон (2007) передбачає глибоке обговорення цієї теми, включаючи додаткові функції розподілу. Представлено програмну методику використання даних при виборі функції розподілу.
3.3.1 Деякі поширені проблеми з даними
Нескладно припустити, що дані рясні і легко доступні в корпоративній інформаційній системі. Однак часто це не так. Обговорюються деякі проблеми з отриманням і використанням даних.
- Дані доступні в корпоративній інформаційній системі, але ніхто з команди проекту не має дозволу на доступ до даних.
Як правило, ця проблема вирішується отриманням необхідного дозволу. Однак своєчасно отримати цей дозвіл може бути неможливим. При цьому процедури визначення функції розподілу при відсутності даних повинні використовуватися хоча б спочатку до тих пір, поки дані не будуть отримані.
- Дані доступні, але повинні бути перетворені на значення, що вимірюють кількість інтересів.
Наприклад, припустимо, що час відвантаження вантажного автомобіля між заводом і замовником представляє інтерес. Інформаційна система компанії фіксує наступні годинники для кожної поїздки вантажівки: виїзд з заводу, прибуття до замовника, від'їзд від замовника, прибуття на завод. Наступні значення можуть бути обчислені прямо з цієї інформації для кожної поїздки вантажівки: час у дорозі від заводу до замовника, затримка часу у замовника, час у дорозі від замовника до заводу.
Цей приклад викликає деякі інші питання. Чи є підстави вважати, що час у дорозі від заводу до замовника відрізняється від часу в дорозі від замовника до заводу? Якщо ні, то два набори значень можуть бути об'єднані і один розподіл може бути визначено з усіх значень. Якщо є відома причина того, що час поїздки відрізняється, два набори даних повинні бути проаналізовані окремо. Звичайно, статистичний аналіз, такий як метод paried-t, розглянутий у розділі 4, може бути використаний для оцінки того, чи існує будь-яка статистично значуща різниця у середньому часі подорожі.
Який рівень деталізації входить в модель? Може знадобитися включити всі три рази, перераховані в попередньому пункті, в модель. Крім того, може бути включений лише загальний час поїздки в обидва кінці, різниця між від'їздом з заводу та прибуттям на завод.
- Всі необхідні дані доступні, але тільки з декількох джерел.
Кожне з декількох джерел може вимірювати величину по-різному або в різний час. Таким чином, дані з різних джерел повинні бути узгоджені один з одним. Про це говорять Standridge, Pritkser і Delcher (1978).
Наприклад, сума продажів хімічного продукту вимірюється в фунтах продукту в інформаційній системі продажів і в обсязі товару в інформаційній системі доставки. Модель повинна вимірювати кількість продукту або в фунтах, або в обсязі. Припустимо, були обрані кілограми. Дані в інформаційній системі доставки можуть бути використані після поділу їх на щільність продукту (фунти/галон).
Розглянемо ще один приклад. Прогноз продажів використовується для встановлення середнього обсягу попиту на товар, який використовується в моделі. Прогноз продажів по товару є єдиним значенням. Необхідний розподіл попиту на продукцію. Розподіл визначається з використанням історичних даних про продажі. Прогноз продажів використовується як середнє значення розподілу замість середнього, обчисленого за історичними даними. Це передбачає, що в майбутньому зміниться тільки середнє значення. Інші параметри розподілу, такі як дисперсія, а також конкретне сімейство розподілу, наприклад, нормальні, залишаться незмінними.
- Всі дані «брудні».
Спокусливо припустити, що дані з комп'ютерної інформаційної системи можуть бути використані без подальшої експертизи або обробки. Часто це не так. Багато механізмів збору даних не враховують аномалії, що виникають при щоденних операціях системи.
Наприклад, автоматизована система фіксує обсяг рідкого продукту, що виробляється щодня. Цей обсяг виробництва моделюється як одна випадкова величина. Зареєстрований обсяг виробництва за всі дні більше нуля. Однак на кілька днів це на два порядки менше, ніж в інші дні. Було визначено, що ці низькі обсяги означали, що рослина знизилася протягом дня. Таким чином, обсяг виробництва моделювався функцією розподілу за дні, коли завод працював, і нульовим за решту днів. Кожен день в імітаційній моделі був зроблений випадковий вибір щодо того, чи працює завод в той день. Імовірність того, що установка працювала, оцінювалася з набору даних у відсотках від днів експлуатації/загальної кількості днів.
3.3.2 Функції розподілу, які найчастіше використовуються в імітаційній моделі
У цьому розділі представлені функції розподілу, які найчастіше використовуються в імітаційних моделями. Описано типове використання кожного дистрибутива. Наведено короткий виклад кожного дистрибутива.
У розділі 3.2.1 були представлені функції розподілу, що використовуються за відсутності даних. Рівномірний і трикутний розподіли зазвичай використовуються лише в цьому випадку. Також використовується бета-дистрибутив. Бета-версія також корисна моделювання часу завдання проекту.
Крім того, було обговорено використання експоненціального розподілу для моделювання часу між прибуттями суб'єктів. Знову ж таки, умови використання експоненціального розподілу такі: є один прихід за раз, кількість прибуття в неспільних часових інтервалах незалежні, а середній час до наступного прибуття не змінюється протягом періоду часу моделювання. У деяких випадках останнє припущення не відповідає дійсності. Один із способів вирішення цієї ситуації проілюстрований у прикладному дослідженні щодо управління контакт-центром.
Якщо система здійснює певний контроль над надходженнями, ця інформація може бути включена в моделювання. Наприклад, надходження заготовок деталей до виробничої системи можуть відбуватися щогодини на годину. Час між заїздами становив би постійну 1 годину. Припустимо, що працівники зазначили, що заготовки насправді надходять десь між 5 хвилин до та 5 хвилин після години. Таким чином, процес прибуття може бути змодельований як з постійним часом між прибуттями 1 годину з подальшим рівномірно розподіленим затримкою від 0 до 10 хвилин до початку обробки.
Часто важливо включити вихід з ладу обладнання в імітаційну модель. Моделі часу до відмови можна взяти з теорії надійності. Експоненціальний розподіл також може використовуватися для моделювання часу до наступної поломки обладнання при дотриманні належних умов: є по одній поломці за раз (для кожної одиниці обладнання), кількість поломок в нероз'єднаних часових інтервалах незалежні, а середній час до наступної поломки не змінюється протягом періоду часу моделювання.
Припустимо, що справедливо одне з наведених нижче дій:
- Час відтепер і до виходу з ладу залежить від того, як довго працює обладнання.
- Збій виникає, коли перший з багатьох компонентів або точок відмови виходить з ладу.
У цих умовах розподіл Вейбулла є відповідною моделлю часу між невдачами. Weibull також використовується для моделювання часу роботи. Розподіл Вейбулла має нижню межу нуля і поширюється на позитивну нескінченність.
Розподіл Вейбулла має два параметри: параметр форми\(\ \alpha\) > 0 та параметр масштабу\(\ \beta\) > 0. Зауважте, що експоненціальний розподіл є окремим випадком розподілу Вейбулла для\(\ \alpha\) = 1. Короткий зміст розподілу Вейбулла наведено на малюнку 3-6.
Припустимо, невдача пов'язана з процесом деградації і математичною вимогою, що деградація в будь-який момент часу є невеликою випадковою часткою деградації до цього моменту часу є прийнятною. У цьому випадку доречно логнормальний розподіл. Логнормальний був успішно застосований при моделюванні часу до руйнування в хімічних процесах і при деяких типах росту тріщин. Це також корисно при моделюванні часу роботи.
Логнормальний розподіл можна придумати наступним чином. Якщо випадкова величина X слідує за логнормальним розподілом, то випадкова величина ln X слідує за нормальним розподілом. Логнормальні параметри розподілу - це середнє і стандартне відхилення результатів нормального розподілу від цієї операції. Логнормальний розподіл коливається від 0 до позитивної нескінченності. Логнормальний розподіл узагальнено на малюнку 3-7.
Враховуйте час експлуатації, огляду, ремонту та транспортування. При моделюванні автоматизованої діяльності ці часи можуть бути постійними. Постійний час також може бути доречним, якщо для завдання було призначено стандартний час. Якщо залучені людські зусилля, зазвичай слід включити деяку мінливість, і, таким чином, слід використовувати функцію розподілу.
Вейбулл і логнормальний - це можливості, як згадувалося вище. Гамма може бути використана, а також. Гамма-розподіл має два параметри: параметр форми\(\ \alpha\) > 0 та параметр масштабу\(\ \beta\) > 0. Це один з найбільш загальних і гнучких способів моделювання тимчасової затримки. Зауважте, що експоненціальний розподіл є окремим випадком гамма-розподілу для\(\ \alpha\) = 1.
Малюнок 3-6: Підсумок розподілу Вейбулла.
Параметри: | Параметр фігури\(\ \alpha\) > 0 та параметр масштабу\(\ \beta\) > 0. |
Діапазон: | [0,\ (\\ infty)) |
Середнє: | \(\ \frac{\beta}{\alpha} \Gamma\left(\frac{1}{\alpha}\right),\ where\ Gamma\ is\ the\ gamma\ function.\) |
Дисперсія: | \(\ \frac{\beta^{2}}{\alpha}\left\{2 \Gamma\left(\frac{2}{\alpha}\right)-\frac{1}{\alpha}\left[\Gamma\left(\frac{1}{\alpha}\right)\right]^{2}\right\}\) |
Функція щільності: | \(\ f(x)=\alpha \beta^{-\alpha} x^{\alpha-1} e^{-(x / \beta)^{\alpha}} ; x \geq 0\) |
Функція розподілу: | \(\ F(x)=1-e^{-(x / \beta)^{\alpha}} ; x \geq 0\) |
Застосування: | Розподіл Weibull використовується для моделювання часу між відмовою обладнання, а також часу роботи. |
Малюнок 3-7: Короткий зміст логнормального розподілу.
Параметри: |
середнє (\(\ \mu\)) і стандартне відхилення (\(\ \sigma\)) нормального розподілу, що є результатом взяття натурального логарифма логнормального розподілу |
Діапазон: | [0,\(\ \infty\)) |
Середнє: | \(\ e^{\mu+o^{2} / 2}\) |
Дисперсія: | \(\ e^{2 \mu+o^{2}}\left(e^{o^{2}}-1\right)\) |
Функція щільності: | \(\ f(x)=\frac{1}{x \sqrt{2 \pi o^{2}}} e^{\frac{-(\ln (x)-\mu)^{2}}{2 \sigma^{2}}} ; x>0\) |
Функція розподілу: | Немає закритої форми |
Застосування: | Логнормальний розподіл використовується для моделювання часу між відмовою обладнання, а також часу роботи. За центральними граничними теоремами логнормальний розподіл може бути використаний для моделювання величин, які є добутками великої кількості інших величин. |
Гамма-розподіл узагальнено на малюнку 3-8.
Малюнок 3-8: Короткий зміст гамма-розподілу
Параметри: | Параметр фігури\(\ \alpha\) > 0 та параметр масштабу\(\ \beta\) > 0. |
Діапазон: | [0,\(\ \infty\)) |
Середнє: | \(\ \alpha * \beta\) |
Дисперсія: | \(\ \alpha * \beta^{2}\) |
Функція щільності: | \(\ f(x)=\frac{\beta^{-\alpha} x^{\alpha-1} e^{-(x / \beta)}}{\Gamma(\alpha)} ; x>0\) |
Функція розподілу: | Немає замкнутої форми, окрім випадків, коли\(\ \alpha\) є додатним цілим числом. |
Застосування: | Гамма-розподіл є найбільш гнучким і загальним розподілом для моделювання часу роботи. |
Часто стверджується, що імітаційний експеримент повинен включати можливість тривалої експлуатації, огляду та транспортування часу. Один такий час може мати помітний вплив на роботу системи, оскільки наступні об'єкти чекають займаних ресурсів. У цьому випадку можна використовувати вейбулл, логнормальний або гамма-розподіл, оскільки кожне поширюється на позитивну нескінченність.
Контраргументом використання тривалого часу затримки є те, що вони представляють особливі зміни причин. Часто особливі зміни причин не враховуються на початкових етапах проектування системи і, таким чином, не будуть включені в експеримент з моделювання. На етапі проектування часто враховується тільки номінальна динаміка системи.
Елементи керування часто використовуються під час роботи системи, щоб пристосуватися до тривалого часу затримки. Наприклад, деталь, що вимагає тривалого часу обробки, може бути поза специфікацією та викинута після виконання попередньо визначеної кількості обробки. Такі елементи управління при бажанні можуть бути включені в імітаційні моделі.
Нормальний розподіл, в силу центральних граничних теорем (Закон, 2007), корисний для представлення величин, які є сумою великої кількості (принаймні від 25 до 30) інших величин. Наприклад, регіон продажів складається з 100 магазинів. Попит на той чи інший товар в цьому регіоні - це сума попиту в кожному магазині. Регіональний попит моделюється як нормально розподілений. Ця ідея проілюстрована в прикладному дослідженні з автоматизованого управління запасами.
Одна операція може бути використана для моделювання декількох завдань. У цьому випадку час операції являє собою суму разів для виконання кожного завдання. Якщо задіяно достатньо завдань, час роботи можна змоделювати за допомогою звичайного розподілу.
Параметрами нормальної функції розподілу є середнє (\(\ \mu\)) і стандартне відхилення (\(\ \sigma\)). На малюнку 3-8 показано кілька функцій нормальної щільності розподілу та підсумовується нормальний розподіл.
Деякі кількості мають відношення до кількості чогось, наприклад, кількості деталей у партії, кількості предметів, які клієнт вимагає від інвентарю, або кількість клієнтів, які прибувають між полуднем та 13:00 Такими кількостями можна моделювати за допомогою розподілу Пуассона.
На відміну від раніше розглянутих розподілів, діапазон розподілу Пуассона є тільки невід'ємними цілими значеннями. Таким чином, Пуассона є дискретним розподілом. У Пуассона є тільки один параметр - середнє значення.
Зверніть увагу, що якщо розподіл Пуассона використовується для моделювання кількості подій у часовому інтервалі, наприклад, кількості клієнтів, які прибувають між полуднем та 13:00, час між подіями, прибуття, розподіляється експоненціально. Крім того, нормальний розподіл може бути використаний як наближення до розподілу Пуассона. Розподіл Пуассона узагальнено на малюнку 3- 9.
Деякі величини можуть приймати одне з невеликої кількості значень, кожне з заданою ймовірністю. Наприклад, частина має тип «1» з ймовірністю 70% і типу «2» з 30% ймовірністю. У цих випадках функція імовірності маси просто перераховується, наприклад p 1 = 0,70 і p 2 = 0,30. Перерахована функція маси ймовірності підсумована на малюнку 3-10.
Малюнок 3-8: Короткий зміст нормального розподілу.
Параметри: | середнє (\(\ \mu\)) і стандартне відхилення (\(\ \sigma\)) |
Діапазон: | (-\(\ \infty\),\(\ \infty\)) |
Середнє: | \(\ \mu\) |
Дисперсія: | \(\ \sigma^{2}\) |
Функція щільності: | \(\ f(x)=\frac{1}{\sqrt{2 \pi o^{2}}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\) |
Функція розподілу: | Немає закритої форми |
Застосування: | За центральними граничними теоремами нормальний розподіл може бути використаний для моделювання величин, які є сумою великої кількості інших величин. |
Малюнок 3-9: Підсумок розподілу Пуассона
Параметр: | маю на увазі |
Діапазон: | Невід'ємні цілі числа |
Середнє: | заданий параметр |
Дисперсія: | маю на увазі |
Масова функція: | \(\ p(x)=\frac{e^{-\text {mean}} * \text {mean}^{x}}{\mathrm{x} !} ; x \text { is a non - negative integer }\) |
Функція розподілу: | \(\ F(x)=e^{-m e a n} * \sum_{i=0}^{x} \frac{m e a n^{i}}{i !} ; x \text { is a non - negative integer }\) |
Застосування: | Розподіл Пуассона використовується для моделювання величин, які представляють кількість речей, таких як кількість предметів у партії, кількість позицій, які вимагає один клієнт, або кількість прибулих за певний часовий проміжок. |
Малюнок 3-10: Резюме функції перелічених імовірностей маси
Параметр: | множина пар значення-ймовірність (x, pi), кількість пар, n |
Діапазон: | [мінімум х i, максимум х i] |
Середнє: | \(\ \sum_{i=1}^{n} p_{i} * x_{i}\) |
Дисперсія: | \(\ \sum_{i=1}^{n} p_{i} *\left(x_{i}-\text { mean }\right)^{2}\) |
Масова функція: | \(\ p\left(x_{i}\right)=p_{i}\) |
Функція розподілу: | \(\ F\left(x_{i}\right)=\sum_{k=1}^{i} p_{k}\) |
Застосування: | Перерахована функція маси ймовірності використовується для моделювання величин, які представляють кількість речей, таких як кількість предметів у партії та кількість позицій, які вимагає один клієнт, де відома ймовірність кожної кількості предметів, а кількість можливих значень невелика. |
Закон і МакКомас (1996) підрахували, що «можливо, одна третина всіх наборів даних недостатньо представлена стандартним розподілом». В даному випадку існує два варіанти:
- Сформувати емпіричну функцію розподілу з набору даних.
- Встановіть узагальнену функціональну форму до набору даних, яка має можливість представляти необмежену кількість фігур.
Перший може бути досягнутий за допомогою частотної гістограми набору даних для моделювання випадкової величини. Недоліками такого підходу є те, що моделювання враховує тільки значення в межах діапазону набору даних і пропорційно осередкам, які складають гістограму.
Одним із способів досягнення останнього є встановлення функції Безьє до набору даних за допомогою інтерактивної комп'ютерної програми на базі Windows, як описано Фланніган Вагнер і Вілсон (1995, 1996).
3.3.3 Програмний підхід до пристосування набору даних до функції розподілу
У цьому розділі розглядається використання комп'ютерного програмного забезпечення для встановлення функції розподілу даних. Для цієї мети завжди слід використовувати програмне забезпечення, і кілька програмних пакетів підтримують цю задачу. Наступні три заходи необхідно виконати.
- Вибір сім'ї розподілу або сім'ї, що цікавить.
- Оцінка параметрів окремих розподілів.
- Визначення того, наскільки добре кожен розподіл відповідає даним.
Функції розподілу, розглянуті в попередніх розділах, наприклад, бета-версії або звичайні, називаються сімействами. Індивідуальний розподіл задається шляхом оцінки значень за його параметрами. Існує дві можливості вибору однієї або декількох сімейств функцій розподілу як кандидатів для моделювання випадкової величини.
- Зробіть вибір на основі відповідності між модельованою ситуацією та теоретичними властивостями сімейства розподілу, представленими в попередніх розділах.
Наприклад, великий клієнт купує той чи інший товар у постачальника. Клієнт постачає численні магазини з кожної покупки. Час між покупками - випадкова величина. Виходячи з теоретичних властивостей раніше обговорюваних розподілів, час між замовленнями можна моделювати як за допомогою експоненціального розподілу, а кількість одиниць придбаного товару можна моделювати за допомогою нормального розподілу.
- Зробіть вибір на основі відповідності між зведеною статистикою та графіками, такими як гістограма, та конкретними функціями щільності. Програмні пакети, такі як ExpertFit [Law and McComas 1996, 2001] автоматично обчислюють та порівнюють, використовуючи відносну міру придатності, розподіли ймовірностей кандидата та їх параметри. У ExpertFit відносна міра придатності базується на власному алгоритмі, який включає статистичні методи та евристику.
Наприклад, зібрано 100 спостережень за часом роботи. З цих даних будується гістограма. Обчислюється середнє і стандартне відхилення. На малюнку 3-11 показана гістограма на тому ж графіку, що і логнормальний розподіл і гамма-розподіл, середнє і стандартне відхилення якого оцінювалися з набору даних. Зверніть увагу, що гамма-розподіл (пунктирна лінія), здається, підходить до даних набагато краще, ніж логнормальний розподіл (пунктирна лінія).
Для деяких розподілів оцінка значень параметрів проста. Наприклад, параметрами нормального розподілу є середнє і стандартне відхилення, які оцінюються за середнім вибіркою і стандартним відхиленням вибірки, обчисленим за наявними даними. Для інших розподілів оцінка параметрів є складною і може вимагати передових статистичних методів. Наприклад, див. Обговорення процедури оцінки параметрів гамма-розподілу в Законі (2007 р.). На щастя, ці методи реалізовані в розподільчих функціях фітингу програмного забезпечення.
Третя діяльність полягає в тому, щоб оцінити, наскільки добре кожен розподіл кандидатів представляє дані, а потім вибрати розподіл, який забезпечує найкращу відповідність. Це називається визначенням «добре-of-fit». Модельєр використовує статистичні тести, що оцінюють доброту придатності, відносні та абсолютні евристичні заходи придатності та суб'єктивне судження на основі інтерактивних графічних дисплеїв, щоб вибрати розподіл серед декількох кандидатів.
Евристичні процедури включають в себе наступне:
- Щільність/Гістограма над графіками — Покладіть гістограму набору даних та функцію розподілу кандидатів на тому ж графіку, що і на малюнку 3-11. Візуально перевірте відповідність функції щільності гістограмі.
- Порівняння частот - Порівняйте частотну гістограму даних з ймовірністю, обчисленою на основі розподілу кандидатів перебування в кожній клітинці гістограми.
Наприклад, на малюнку 3-12 показано графік порівняння частот, який відображає набір даних вибірки, гістограма якого показана на малюнку 3-11, а також логнормальний розподіл, середнє і стандартне відхилення якого оцінювалися з набору даних. Відмінності між логнормальним розподілом (суцільні стрижні) та набором даних (нетверді стрижні) легко помітні.
- Графіки різниці функцій розподілу — Побудуйте різницю сукупного розподілу кандидатів та частку значень даних, менших за x для кожного значення осі x на графіку. Чим ближче графік відстежує лінію 0 на вертикальній осі, тим краще.
Наприклад, на малюнку 3-13 показаний графік різниці функції розподілу, який порівнює вибірковий набір даних, гістограма якого відображається на малюнку 3-11 з гамма-і логнормальними розподілами, середні та стандартні відхилення яких оцінювалися за даними. Гамма-розподіл (суцільна лінія), здається, підходить до набору даних набагато тісніше, ніж логнормальний розподіл (пунктирна лінія).
- Графіки ймовірності — Використовуйте один із багатьох типів графіків ймовірності для порівняння набору даних та розподілу кандидатів. Один з таких видів виглядає наступним чином. Припустимо, що в наборі даних є n значень. Виводяться наступні точки, число n: (i /n процентна точка розподілу кандидатів, тобто найменша величина в наборі даних). Ці точки при нанесенні повинні слідувати за лінією 45 градусів. Будь-яке суттєве відхилення від цього рядка свідчить про те, що розподіл кандидатів може не відповідати набору даних.
Наприклад, на малюнку 3-14 показаний графік ймовірності, який порівнює вибірковий набір даних, гістограма якого відображається на малюнку 3-11, з гамма-і логнормальним розподілами, показаними на одному малюнку. Зверніть увагу, що гамма-розподіл (суцільна лінія) відстежує лінію 45 градусів краще, ніж логнормальний розподіл (пунктирна лінія), і обидва відхиляються від лінії більше до правого хвоста.
Статистичні тести формально оцінюють, чи відповідає набір даних, що складається з незалежних зразків, розподілу кандидатів. Ці тести забезпечують системний підхід для виявлення відносно великих відмінностей між набором даних та розподілом кандидатів. Якщо таких відмінностей не виявлено, найкраще, що можна сказати, це те, що немає доказів того, що розподіл кандидатів не відповідає набору даних.
Поведінка цих тестів залежить від кількості значень у наборі даних. Для великих значень n тести, здається, завжди виявляють значну різницю між розподілом кандидатів та набором даних. Для менших значень n тести виявляють лише грубі відмінності. Це слід мати на увазі при інтерпретації результатів тесту.
Наступні тести є загальними і, як правило, виконуються програмним забезпеченням для встановлення функції розподілу.
- Chi-квадратний тест — формально порівнює гістограму набору даних з розподілом кандидатів, як це було зроблено візуально за допомогою графіка порівняння частот.
- Тест Колмогорова-Сміронва (К-С) — формально порівнює емпіричну функцію розподілу, побудовану з набору даних, з кандидатом кумулятивного розподілу, що є аналогом різницевого графіка функції розподілу.
- Тест Андерсона-Дарлінга - формально порівнює емпіричну функцію розподілу, побудовану з набору даних, з кандидатом кумулятивної функції розподілу, але краще виявляє відмінності в хвостах розподілу, ніж тест K-S.
У цьому розділі розглядається, як визначити функцію розподілу, яку слід використовувати при моделюванні випадкової величини. Проілюстровано, як цей вибір може вплинути на результати імітаційного дослідження. Обговорювалися деякі питання з отриманням та використанням даних. Представлено вибір дистрибутива як з використанням набору даних, так і за відсутності даних.
Проблеми
- Перерахуйте дистрибутиви, які мають нижню межу.
- Перерахуйте дистрибутиви, які мають верхню межу.
- Перерахуйте дистрибутиви, які є безперервними.
- Перерахуйте дистрибутиви, які є дискретними.
- Припустимо, X - випадкова величина, яка слідує за бета-розподілом з діапазоном [0,1]. Потрібна випадкова величина Y, яка слідує за бета-розподілом з діапазоном [10, 100]. Дайте рівняння для Y як функції X.
- Припустимо, дані недоступні під час запуску проекту моделювання.
- Які три параметри зазвичай оцінюються без даних?
- Час роботи задається лише з двома параметрами: мінімальним і максимальним. Однак він повинен бути змодельований за допомогою трикутного розподілу. Що б ви зробили?
- Розглянемо наступний набір даних: 1, 2, 2, 3, 4, 5, 7, 8, 9, 10, 11, 13, 15, 16, 17, 17, 18, 18, 20, 20, 21, 24, 27, 29, 30, 37, 40, 40. Яка сім'я розподілу, здається, найкраще відповідає даним? Використовуйте зведену статистику та гістограму, щоб допомогти вам.
- Викладіть гіпотезу однієї або декількох сімей розподілів для кожного з наступних випадків:
- Час між клієнтами, які прибувають в ресторан швидкого харчування під час вечірньої вечері.
- Час до наступного виходу з ладу машини, частота відмов якої постійна.
- Час до наступного виходу з ладу машини, частота відмов якої збільшується з часом.
- Час ручного завантаження вантажівки на основі оперативної конструкції системи.
Ви запитуєте у розробників системи мінімальний, середній та максимальний час.
- Час для виконання завдання з тривалим часом завдання можливо.
- Розподіл типів вакансій в цеху.
- Кількість позицій, які вимагає кожен клієнт.
- Яке сімейство функцій розподілу, як видається, найкраще підходить для наступного набору даних? Використовуйте зведену статистику та гістограму, щоб допомогти вам. Перевірте свій вибір за допомогою графіків, розглянутих у розділі 3.3.2.
8.39 3.49 3.17 15.34 4.68 4.38 0,02 1.21 3.56 0,50 4.38 2.53 20.61 2.78 2.66 32.88 22.49 5.10 4.58 3.07 22.64 34.86 9.59 0,67 12.24 3.25 34.07 5.43 14.72 5.84 15.37 21.20 0,21 3.20 25.12 3.18 3.60 11.45 1.07 8.69 0,46 9.16 10.71 3.75 1.54 0,65 3.68 10.46 20.11 5.81 4.63 3.13 8.99 2.82 0,87 13,45 10.10 12.57 22.67 3.55 5.68 29.07 0,62 25.23 17.97 35.76 17.05 4.61 12.36 14.02 24.33 11.05 1.10 4.56 9.51 7.31 23.33 5.81 3.48 3.23 - Яке сімейство функцій розподілу, як видається, найкраще підходить для наступного набору даних? Використовуйте зведену статистику та гістограму, щоб допомогти вам. Перевірте свій вибір за допомогою графіків, розглянутих у розділі 3.3.2.
2373 2361 2390 2377 2333 2327 2380 2373 2360 2382 - Використовуйте програмне забезпечення для встановлення функції розподілу для вирішення проблем 7, 9 та 10.