Він має безліч застосувань, оскільки дозволяє здійснювати наближене уявлення заданої функції іншими більш простими. МНК може виявитися надзвичайно корисним при обробці спостережень і його активно використовують для оцінки одних величин за результатами вимірювань інших, що містять випадкові помилки. З цієї статті ви дізнаєтеся, як реалізувати обчислення методом найменших квадратів в Excel.
Постановка задачі на конкретному прикладі
Припустимо, є два показники X і Y. Причому Y залежить від X. Так як МНК цікавить нас з погляду регресійного аналізу (в Excel його методи реалізуються за допомогою вбудованих функцій), то відразу ж перейти до розгляду конкретної задачі.
Отже, нехай X — торгова площа продовольчого магазину, яка вимірюється у квадратних метрах, а Y — річний товарообіг, який визначається мільйонами рублів.
Потрібно зробити прогноз, який товарообіг (Y) матиме магазин, якщо в нього та чи інша торгова площа. Очевидно, що функція Y = f(X) зростаюча, оскільки гіпермаркет продає більше товарів, ніж ларьок.
Декілька слів про коректність вихідних даних, що використовуються для передбачення
Припустимо, ми маємо таблицю, побудовану за даними для n магазинів.
Згідно з математичною статистикою, результати будуть більш-менш коректними, якщо досліджуються дані щодо хоча б 5-6 об'єктів. Крім того, не можна використовувати "аномальні" результати. Зокрема, невеликий елітний бутік може мати товарообіг у рази більший, ніж товарообіг великих торгових точок класу «масмаркет».
Суть методу
Дані таблиці можна зобразити на декартовій площині у вигляді точок M 1 (x 1 y 1), … M n (x n y n). Тепер розв'язання задачі зведеться до підбору апроксимуючої функції y = f(x), що має графік, що проходить якомога ближче до точок M1, M2,.. Mn.
Звичайно, можна використовувати багаточлен високого ступеня, але такий варіант не тільки важко реалізувати, але й просто некоректний, тому що не відображатиме основну тенденцію, яку і потрібно виявити. Найрозумнішим рішенням є пошук прямої у = ax + b, яка найкраще наближає експериментальні дані, a точніше, коефіцієнтів – a та b.
Оцінка точності
При будь-якій апроксимації особливої важливості набуває оцінка її точності. Позначимо через e i різницю (відхилення) між функціональними та експериментальними значеннями для точки x i , тобто e i = y i - f (x i).
Очевидно, що для оцінки точності апроксимації можна використовувати суму відхилень, тобто при виборі прямої для наближеного уявлення залежності X від Y потрібно віддавати перевагу тій, у якої найменше значення суми e i у всіх точках. Однак, не все так просто, тому що поряд із позитивними відхиленнями практично будуть присутні і негативні.
Вирішити питання можна, використовуючи модулі відхилень або їх квадрати. Останній метод набув найбільш широкого поширення. Він використовується в багатьох областях, включаючи регресійний аналіз(В Excel його реалізація здійснюється за допомогою двох вбудованих функцій), і давно довів свою ефективність.
Метод найменших квадратів
В Excel, як відомо, існує вбудована функція автосуми, що дозволяє обчислити значення всіх значень, які розташовані у виділеному діапазоні. Таким чином, ніщо не завадить нам розрахувати значення виразу (e 1 2 + e 2 2 + e 3 2 + ... e n 2).
У математичному записі це має вигляд:
Оскільки спочатку було прийнято рішення про апроксимування за допомогою прямої, то маємо:
Таким чином, завдання знаходження прямої, яка найкраще описує конкретну залежність величин X та Y, зводиться до обчислення мінімуму функції двох змінних:
Для цього потрібно прирівняти до нуля приватні похідні за новими змінними a і b, і вирішити примітивну систему, що складається з двох рівнянь з двома невідомими видами:
Після нехитрих перетворень, включаючи поділ на 2 та маніпуляції із сумами, отримаємо:
Вирішуючи її, наприклад, методом Крамера, отримуємо стаціонарну точку з деякими коефіцієнтами a* та b*. Це і є мінімум, тобто для передбачення, який товарообіг буде у магазину при певній площі, підійде пряма y = a * x + b * , Що являє собою регресійну модель для прикладу, про який йдеться. Звичайно, вона не дозволить знайти точний результат, але допоможе одержати уявлення про те, чи окупиться покупка в кредит магазину конкретної площі.
Як реалізувати метод найменших квадратів в Excel
У "Ексель" є функція для розрахунку значення МНК. Вона має такий вигляд: «ТЕНДЕНЦІЯ» (відоме значення Y; відоме значення X; нові значення X; конст.). Застосуємо формулу розрахунку МНК Excel до нашої таблиці.
Для цього в комірку, в якій має бути відображено результат розрахунку за методом найменших квадратів в Excel, введемо знак = і виберемо функцію ТЕНДЕНЦІЯ. У вікні заповнимо відповідні поля, виділяючи:
- діапазон відомих значень для Y (у разі дані для товарообігу);
- діапазон x 1, … x n, тобто величини торгових площ;
- і відомі, і невідомі значення x, для якого потрібно з'ясувати розмір товарообігу (інформацію про їхнє розташування на робочому аркуші див. далі).
Крім того, у формулі є логічна змінна «Конст». Якщо ввести у відповідне їй поле 1, це означатиме, що слід здійснити обчислення, вважаючи, що b = 0.
Якщо потрібно дізнатися прогноз більш ніж одного значення x, то після введення формули слід натиснути не на «Введення», а потрібно набрати на клавіатурі комбінацію «Shift» + «Control» + «Enter» («Введення»).
Деякі особливості
Регресійний аналіз може бути доступним навіть чайникам. Формула Excelдля передбачення значення масиву невідомих змінних — «ТЕНДЕНЦІЯ» — можна використовувати навіть тими, хто ніколи не чув про метод найменших квадратів. Достатньо просто знати деякі особливості її роботи. Зокрема:
- Якщо розташувати діапазон відомих значень змінної y в одному рядку або стовпці, то кожен рядок (стовпець) з відомими значеннями x сприйматиметься програмою як окрема змінна.
- Якщо у вікні «ТЕНДЕНЦІЯ» не вказаний діапазон з відомими x, то у разі використання функції Excel програма буде розглядати його як масив, що складається з цілих чисел, кількість яких відповідає діапазону із заданими значеннями змінної y.
- Щоб одержати на виході масив «передбачених» значень, вираз для обчислення тенденції необхідно вводити як формулу масиву.
- Якщо не вказано нових значень x, то функція «ТЕНДЕНЦІЯ» вважає їх рівним відомим. Якщо вони не задані, то як аргумент береться масив 1; 2; 3; 4;…, який пропорційний діапазону з вже заданими параметрами y.
- Діапазон, що містить нові значення x, повинен складатися з такої ж чи більшої кількості рядків або стовпців, як діапазон із заданими значеннями y. Іншими словами він має бути пропорційним незалежним змінним.
- У масиві з відомими значеннями x може бути кілька змінних. Однак якщо йдеться лише про одну, то потрібно, щоб діапазони із заданими значеннями x та y були пропорційні. У разі кількох змінних потрібно, щоб діапазон із заданими значеннями y вміщався в одному стовпчику або в одному рядку.
Функція «ПЕРЕДСКАЗ»
Реалізується за допомогою кількох функцій. Одна з них називається «Предказ». Вона аналогічна «ТЕНДЕНЦІЇ», тобто видає результат обчислень методом найменших квадратів. Однак лише для одного X, для якого невідомо значення Y.
Тепер ви знаєте формули в Excel для чайників, що дозволяють спрогнозувати величину майбутнього значення того чи іншого показника згідно з лінійним трендом.
Знаходить широке застосування економетриці як чіткої економічної інтерпретації її параметрів.
Лінійна регресія зводиться до знаходження рівняння виду
або
Рівняння виду дозволяє за заданими значеннями параметра хмати теоретичні значення результативної ознаки, підставляючи в нього фактичні значення фактора х.
Побудова лінійної регресії зводиться до оцінки її параметрів аі в.Оцінки параметрів лінійної регресії можна знайти різними методами.
Класичний підхід до оцінювання параметрів лінійної регресії заснований на методі найменших квадратів(МНК).
МНК дозволяє отримати такі оцінки параметрів аі в,при яких сума квадратів відхилень фактичних значень результативної ознаки (у)від розрахункових (теоретичних) мінімальна:
Щоб знайти мінімум функції, треба обчислити часткові похідні по кожному з параметрів аі bта прирівняти їх до нуля.
Позначимо через S, тоді:
Перетворюючи формулу, отримаємо наступну систему нормальних рівнянь для оцінки параметрів аі в:
Вирішуючи систему нормальних рівнянь (3.5) або методом послідовного виключення змінних, або методом визначників, знайдемо оцінки параметрів, що шукаються аі в.
Параметр вназивається коефіцієнтом регресії. Його величина показує середню зміну результату із зміною фактора на одну одиницю.
Рівняння регресії завжди доповнюється показником тісноти зв'язку. При використанні лінійної регресії як такий показник виступає лінійний коефіцієнт кореляції. Існують різні модифікації формули лінійного коефіцієнта кореляції. Деякі з них наведені нижче:
Як відомо, лінійний коефіцієнт кореляції знаходиться у межах: -1 ≤ ≤ 1.
Для оцінки якості підбору лінійної функції розраховується квадрат
Лінійний коефіцієнт кореляції званий коефіцієнтом детермінації.Коефіцієнт детермінації характеризує частку дисперсії результативної ознаки у,пояснювану регресією, у загальній дисперсії результативної ознаки:
Відповідно величина 1 - характеризує частку диспер-сії у,викликану впливом інших не врахованих у моделі чинників.
Запитання для самоконтролю
1. Суть методу найменших квадратів?
2. Скільки змінних надається парна регресія?
3. Яким коефіцієнтом визначається тіснота зв'язку між змінами?
4. У яких межах визначається коефіцієнт детермінації?
5. Оцінка параметра b у кореляційно-регресійному аналізі?
1. Крістофер Доугерті. Введення в економетрію. – М.: ІНФРА – М, 2001 – 402 с.
2. С.А. Бородіч. Економетрики. Мінськ ТОВ "Нове знання" 2001.
3. Р.У. Рахметова Короткий курсз економетрики. Навчальний посібник. Алмати. 2004. -78с.
4. І.І. Елісєєва. Економетрика. - М.: «Фінанси та статистика», 2002
5. Щомісячний інформаційно-аналітичний журнал.
Нелінійні економічні моделі. Нелінійні моделі регресії. Перетворення змінних.
Нелінійні економічні моделі.
Перетворення змінних.
Коефіцієнт еластичності.
Якщо між економічними явищами існують нелінійні співвідношення, то вони виражаються за допомогою відповідних нелінійних функцій: наприклад, рівносторонньої гіперболи , параболи другого ступеня та д.р.
Розрізняють два класи нелінійних регресій:
1. Регресії, нелінійні щодо включених в аналіз пояснюючих змінних, але лінійні за параметрами, що оцінюються, наприклад:
Поліноми різних ступенів - ;
Рівностороння гіпербола -;
Напівлогарифмічна функція - .
2. Регресії, нелінійні за параметрами, що оцінюються, наприклад:
Ступінна -;
Показова -;
Експонентна - .
Загальна сума квадратів відхилень індивідуальних значень результативної ознаки увід середнього значення спричинена впливом безлічі причин. Умовно розділимо всю сукупність причин на дві групи: фактор, що вивчається хі інші фактори.
Якщо фактор не впливає на результат, то лінія регресії на графіку паралельна осі охі
Тоді вся дисперсія результативної ознаки обумовлена впливом інших факторів і загальна сума квадратів відхилень збігатиметься з залишковою. Якщо інші чинники не впливають на результат, то у пов'язанийз хфункціонально та залишкова сума квадратів дорівнює нулю. І тут сума квадратів відхилень, пояснена регресією, збігається із загальною сумою квадратів.
Оскільки не всі точки поля кореляції лежать на лінії регресії, то завжди має місце їх розкид як обумовлений впливом фактора х, тобто регресією упо х,і викликаний дією інших причин (непояснена варіація). Придатність лінії регресії для прогнозу залежить від того, яка частина загальної варіації ознаки уприпадає на пояснену варіацію
Очевидно, що якщо сума квадратів відхилень, обумовлена регресією, буде більшою від залишкової суми квадратів, то рівняння регресії статистично значуще і фактор хістотно впливає на результат у.
, тобто з числом свободи незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності n і з числом констант, що визначаються за нею. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з п
Оцінка значущості рівняння регресії в цілому дається за допомогою F-Крітерія Фішера. У цьому висувається нульова гіпотеза, що коефіцієнт регресії дорівнює нулю, тобто. b = 0, і отже, фактор хне впливає на результат у.
Безпосереднім розрахунком F-критерію передує аналіз дисперсії. Центральне місце в ньому займає розкладання загальної суми квадратів відхилень змінної увід середнього значення уна дві частини - «пояснену» та «непояснену»:
Загальна сума квадратів відхилень;
Сума квадратів відхилення пояснена регресією;
Залишкова сума квадратів відхилення.
Будь-яка сума квадратів відхилень пов'язана з числом ступенів свободи , тобто з числом свободи незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності nі з числом визначених нею констант. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з пможливих потрібно освіти цієї суми квадратів.
Дисперсія на один ступінь свободиD.
F-відносини (F-критерій):
Якщо нульова гіпотеза справедлива, то факторна та залишкова дисперсії не відрізняються один від одного. Для Н 0 необхідно спростування, щоб факторна дисперсія перевищувала залишкову у кілька разів. Англійським статистиком Снедекором розроблені таблиці критичних значень F-відносин при різних рівнях суттєвості нульової гіпотези та різному числі ступенів свободи. Табличне значення F-критерія - це максимальна величина відношення дисперсій, яка може мати місце при випадковому їх розбіжності для даного рівня ймовірності наявності нульової гіпотези. Обчислене значення F-відносини визнається достовірним, якщо про більше табличного.
У цьому випадку нульова гіпотеза про відсутність зв'язку ознак відхиляється і робиться висновок про суттєвість зв'язку: F факт > F таблН0 відхиляється.
Якщо ж величина виявиться меншою за табличну F факт ‹, F табл, то ймовірність нульової гіпотези вище заданого рівня і вона може бути відхилена без серйозного ризику зробити неправильний висновок про наявність зв'язку. І тут рівняння регресії вважається статистично незначимим. Але не відхиляється.
Стандартна помилка коефіцієнта регресії
Для оцінки суттєвості коефіцієнта регресії його величина порівнюється з його стандартною помилкою, тобто визначається фактичне значення t-критерія Стьюдентa: яке потім порівнюється з табличним значенням при певному рівні значущості та числі ступенів свободи ( n- 2).
Стандартна помилка параметра а:
Значимість лінійного коефіцієнта кореляції перевіряється на основі величини помилки коефіцієнта кореляції т r:
Загальна дисперсія ознаки х:
Множинна лінійна регресія
Побудова моделі
Множинна регресіяє регресією результативної ознаки з двома і більшим числомфакторів, тобто модель виду
Регресія може дати гарний результатпри моделюванні, якщо впливом інших факторів, що впливають на об'єкт дослідження, можна знехтувати. Поведінка окремих економічних змінних контролювати не можна, тобто не вдається забезпечити рівність всіх інших умов для оцінки впливу одного досліджуваного фактора. У цьому випадку слід спробувати виявити вплив інших факторів, ввівши їх у модель, тобто пострівняти рівняння множинної регресії: y = a+b 1 x 1 +b 2 +…+b p x p + .
Основна мета множинної регресії - побудувати модель з великою кількістю факторів, визначивши при цьому вплив кожного з них окремо, а також сукупний їх вплив на показник, що моделюється. Специфікація моделі включає два кола питань: відбір факторів і вибір виду рівняння регресії
Якщо деяка фізична величиназалежить від іншої величини, то цю залежність можна досліджувати, вимірюючи y при різних значеннях x. В результаті вимірів виходить ряд значень:
x 1, x 2, ..., x i, ..., x n;
y 1 , y 2 , ..., y i , ... , y n .
За даними такого експерименту, можна побудувати графік залежності y = ƒ(x). Отримана крива дозволяє судити про вид функції ƒ(x). Однак постійні коефіцієнти, що входять до цієї функції, залишаються невідомими. Визначити їх дозволяє метод найменших квадратів. Експериментальні точки, зазвичай, не лягають точно на криву. Метод найменших квадратів вимагає, щоб сума квадратів відхилень експериментальних точок від кривої, тобто.
2 була найменшою. Насправді цей метод найчастіше (і найпростіше) використовується у разілінійної залежності
, тобто. коли y = kx або
y = a + bx.
Лінійна залежність дуже поширена у фізиці. І навіть коли нелінійна залежність, зазвичай намагаються будувати графік так, щоб отримати пряму лінію. Наприклад, якщо припускають, що показник заломлення скла n пов'язаний з довжиною λ світлової хвилі співвідношенням n = a + b/λ 2 то на графіку будують залежність n від λ -2 . , тобто. колиРозглянемо залежність
(Пряма, що проходить через початок координат). Складемо величину φ | суму квадратів відхилень наших точок від прямої
Величина φ завжди позитивна і виявляється тим меншою, чим ближче до прямої лежать наші точки. Метод найменших квадратів стверджує, що для k слід вибирати таке значення, у якому φ має мінімум
(19)
або
, (20)
Обчислення показує, що середньоквадратична помилка визначення величини k дорівнює при цьому
де n число вимірювань. Розглянемо тепер трохи складніший випадок, коли точки повинні задовольнити формулу y = a + bx
(Пряма, що не проходить через початок координат).
Завдання полягає в тому, щоб за наявним набором значень x i , y знайти найкращі значення a і b.
Знову складемо квадратичну форму φ , рівну сумі квадратів відхилень точок x i , y i від прямої
;
.
.і знайдемо значення a і b , при яких має мінімум
(21)
Спільне рішення цих рівнянь дає
(23)
Середньоквадратичні помилки визначення a та b рівні
При обробці результатів вимірювання цим методом зручно всі дані зводити в таблицю, в якій попередньо підраховуються всі суми, що входять до формул (19) (24). Форми цих таблиць наведені в наведених нижче прикладах.
приклад 1.Досліджувалося основне рівняння динаміки обертального рухуε = M/J (пряма, яка проходить через початок координат). При різних значеннях моменту M вимірювалося кутове прискорення деякого тіла ε. Потрібно визначити момент інерції цього тіла. Результати вимірювань моменту сили та кутового прискорення занесені до другого та третього стовпців таблиці 5.
Таблиця 5
n | M, Н · м | ε, c -1 | M 2 | M · ε | ε - kM | (ε - kM) 2 |
1 | 1.44 | 0.52 | 2.0736 | 0.7488 | 0.039432 | 0.001555 |
2 | 3.12 | 1.06 | 9.7344 | 3.3072 | 0.018768 | 0.000352 |
3 | 4.59 | 1.45 | 21.0681 | 6.6555 | -0.08181 | 0.006693 |
4 | 5.90 | 1.92 | 34.81 | 11.328 | -0.049 | 0.002401 |
5 | 7.45 | 2.56 | 55.5025 | 19.072 | 0.073725 | 0.005435 |
∑ | | | 123.1886 | 41.1115 | | 0.016436 |
За формулою (19) визначаємо:
.
Для визначення середньоквадратичної помилки скористаємося формулою (20)
0.005775кг-1 · м -2 .
За формулою (18) маємо
; .S J = (2.996 · 0.005775) / 0.3337 = 0.05185 кг · м 2.
Задавшись надійністю P = 0.95, за таблицею коефіцієнтів Стьюдента для n = 5, знаходимо t = 2.78 і визначаємо абсолютну помилку ΔJ = 2.78 · 0.05185 = 0.1441 ≈ 0.2 кг · м 2.
Результати запишемо у вигляді:
J = (3.0 ± 0.2) кг · м 2;
приклад 2.Обчислимо температурний коефіцієнт опору металу методом найменших квадратів. Опір залежить від температури за лінійним законом
R t = R 0 (1 + α t °) = R 0 + R 0 α t °.
Вільний член визначає опір R 0 при температурі 0° C , а кутовий коефіцієнт твір температурного коефіцієнта α на опір R 0 .
Результати вимірювань та розрахунків наведено в таблиці ( див. таблицю 6).
Таблиця 6
n | t°, c | r, Ом | t-¯ t | (t-¯ t) 2 | (t-¯ t)r | r - bt - a | (r - bt - a) 2,10 -6 |
1 | 23 | 1.242 | -62.8333 | 3948.028 | -78.039 | 0.007673 | 58.8722 |
2 | 59 | 1.326 | -26.8333 | 720.0278 | -35.581 | -0.00353 | 12.4959 |
3 | 84 | 1.386 | -1.83333 | 3.361111 | -2.541 | -0.00965 | 93.1506 |
4 | 96 | 1.417 | 10.16667 | 103.3611 | 14.40617 | -0.01039 | 107.898 |
5 | 120 | 1.512 | 34.16667 | 1167.361 | 51.66 | 0.021141 | 446.932 |
6 | 133 | 1.520 | 47.16667 | 2224.694 | 71.69333 | -0.00524 | 27.4556 |
∑ | 515 | 8.403 | | 8166.833 | 21.5985 | | 746.804 |
∑/n | 85.83333 | 1.4005 | | | | | |
За формулами (21), (22) визначаємо
R 0 = ? R - α R 0 ? Ом.
Знайдемо помилку у визначенні α. Оскільки , то за формулою (18) маємо:
.
Користуючись формулами (23), (24) маємо
;
0.014126 Ом.
Задавшись надійністю P = 0.95, за таблицею коефіцієнтів Стьюдента для n = 6, знаходимо t = 2.57 та визначаємо абсолютну помилку Δα = 2.57 · 0.000132 = 0.000338 град -1.
α = (23 ± 4) · 10 -4 град-1 за P = 0.95.
приклад 3.Потрібно визначити радіус кривизни лінзи по кільцях Ньютона. Вимірювалися радіуси кілець Ньютона r m та визначалися номери цих кілець m. Радіуси кілець Ньютона пов'язані з радіусом кривизни лінзи R і номером кільця рівнянням
r 2 m = mλR - 2d 0 R,
де d 0 товщина зазору між лінзою і плоскопаралельною пластинкою (або деформація лінзи),
λ | довжина хвилі падаючого світла.
λ = (600 ± 6) нм;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,
тоді рівняння набуде вигляду Розглянемо тепер трохи складніший випадок, коли точки повинні задовольнити формулу.
.Результати вимірювань та обчислень занесені до таблицю 7.
Таблиця 7
n | x = m | y = r 2 10 -2 мм 2 | m - m | (m - m) 2 | (m - m)y | y - bx - a, 10 -4 | (y - bx - a) 2 , 10 -6 |
1 | 1 | 6.101 | -2.5 | 6.25 | -0.152525 | 12.01 | 1.44229 |
2 | 2 | 11.834 | -1.5 | 2.25 | -0.17751 | -9.6 | 0.930766 |
3 | 3 | 17.808 | -0.5 | 0.25 | -0.08904 | -7.2 | 0.519086 |
4 | 4 | 23.814 | 0.5 | 0.25 | 0.11907 | -1.6 | 0.0243955 |
5 | 5 | 29.812 | 1.5 | 2.25 | 0.44718 | 3.28 | 0.107646 |
6 | 6 | 35.760 | 2.5 | 6.25 | 0.894 | 3.12 | 0.0975819 |
∑ | 21 | 125.129 | | 17.5 | 1.041175 | | 3.12176 |
∑/n | 3.5 | 20.8548333 | | | | | |
Апроксимація дослідних даних - це метод, заснований на заміні експериментально отриманих даних аналітичною функцією, що найбільш близько проходить або збігається в вузлових точках з вихідними значеннями (даними отриманими в ході досвіду або експерименту). В даний час існує два способи визначення аналітичної функції:
За допомогою побудови інтерполяційного багаточлена n-ступеня, що проходить безпосередньо через усі точкизаданого масиву даних. У даному випадку апроксимуюча функція подається у вигляді: інтерполяційного багаточлена у формі Лагранжа або інтерполяційного багаточлена у формі Ньютона.
За допомогою побудови апроксимуючого багаточлена n-ступеня, що проходить в найближчій близькості від точокіз заданого масиву даних. Таким чином, апроксимуюча функція згладжує всі випадкові перешкоди (або похибки), які можуть виникати при виконанні експерименту: значення, що вимірюються в ході досвіду, залежать від випадкових факторів, які коливаються за своїм власним випадковим законам(Похибки вимірювань або приладів, неточність або помилки досвіду). У разі апроксимуюча функція визначається методом найменших квадратів.
Метод найменших квадратів(В англомовній літературі Ordinary Least Squares, OLS) - математичний метод, заснований на визначенні апроксимуючої функції, яка будується в найближчій близькості від точок із заданого масиву експериментальних даних. Близькість вихідної та апроксимуючої функції F(x) визначається числовою мірою, а саме: сума квадратів відхилень експериментальних даних від апроксимуючої кривої F(x) має бути найменшою.
Апроксимуюча крива, побудована за методом найменших квадратів
Метод найменших квадратів використовується:
Для вирішення перевизначених систем рівнянь коли кількість рівнянь перевищує кількість невідомих;
Для пошуку рішення у разі звичайних (не перевизначених) нелінійних систем рівнянь;
Для апроксимації точкових значень деякою апроксимуючою функцією.
Апроксимуюча функція методом найменших квадратів визначається з умови мінімуму суми квадратів відхилень розрахункової апроксимуючої функції від заданого масиву експериментальних даних. Цей критерій методу найменших квадратів записується у вигляді наступного виразу:
Значення розрахункової апроксимуючої функції у вузлових точках
Заданий масив експериментальних даних у вузлових точках.
Квадратичний критерій має низку "хороших" властивостей, таких, як диференційність, забезпечення єдиного розв'язання задачі апроксимації при поліноміальних апроксимуючих функціях.
Залежно від умов завдання апроксимуюча функція є багаточленом ступеня m
Ступінь апроксимуючої функції не залежить від числа вузлових точок, але її розмірність повинна бути завжди меншою за розмірність (кількість точок) заданого масиву експериментальних даних.
∙ Якщо ступінь апроксимуючої функції m=1, то ми апроксимуємо табличну функцію прямою лінією (лінійна регресія).
∙ Якщо ступінь апроксимуючої функції m=2, то ми апроксимуємо табличну функцію квадратичною параболою (квадратична апроксимація).
∙ Якщо ступінь апроксимуючої функції m=3, то ми апроксимуємо табличну функцію кубічною параболою (кубічна апроксимація).
У випадку, коли потрібно побудувати апроксимуючий многочлен ступеня m для заданих табличних значень, умова мінімуму суми квадратів відхилень за всіма вузловими точками переписується у такому виде:
- невідомі коефіцієнти апроксимуючого багаточлена ступеня m;
Кількість заданих табличних значень.
Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними . В результаті отримаємо наступну систему рівнянь:
Перетворимо отриману лінійну систему рівнянь: розкриємо дужки і перенесемо вільні доданки в праву частину виразу. В результаті отримана система лінійних виразів алгебри буде записуватися в наступному вигляді:
Ця системалінійних виразів алгебри може бути переписана в матричному вигляді:
В результаті було отримано систему лінійних рівнянь розмірністю m+1, яка складається з m+1 невідомих. Дана система може бути вирішена за допомогою будь-якого методу розв'язання лінійних рівнянь алгебри (наприклад, методом Гаусса). Через війну рішення знайдено невідомі параметри апроксимуючої функції, які забезпечують мінімальну суму квадратів відхилень апроксимуючої функції від вихідних даних, тобто. найкраще можливе квадратичне наближення. Слід пам'ятати, що при зміні навіть одного значення вихідних даних усі коефіцієнти змінять свої значення, оскільки вони повністю визначаються вихідними даними.
Апроксимація вихідних даних лінійною залежністю
(лінійна регресія)
Як приклад розглянемо методику визначення апроксимуючої функції, яка задана у вигляді лінійної залежності. Відповідно до методу найменших квадратів умова мінімуму суми квадратів відхилень записується у такому вигляді:
Координати вузлових точок таблиці;
Невідомі коефіцієнти апроксимуючої функції, заданої у вигляді лінійної залежності.
Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними. В результаті отримуємо таку систему рівнянь:
Перетворимо отриману лінійну систему рівнянь.
Вирішуємо отриману систему лінійних рівнянь. Коефіцієнти апроксимуючої функції в аналітичному вигляді визначаються в такий спосіб (метод Крамера):
Дані коефіцієнти забезпечують побудову лінійної апроксимуючої функції відповідно до критерію мінімізації суми квадратів апроксимуючої функції від заданих табличних значень (експериментальні дані).
Алгоритм реалізації методу найменших квадратів
1. Початкові дані:
Задано масив експериментальних даних із кількістю вимірювань N
Задано ступінь апроксимуючого багаточлена (m)
2. Алгоритм обчислення:
2.1. Визначаються коефіцієнти для побудови системи рівнянь розмірністю
Коефіцієнти системи рівнянь (ліва частина рівняння)
- Індекс номера стовпця квадратної матриці системи рівнянь
Вільні члени системи лінійних рівнянь (права частина рівняння)
- індекс номера рядка квадратної матриці системи рівнянь
2.2. Формування системи лінійних рівнянь розмірністю.
2.3. Вирішення системи лінійних рівнянь з метою визначення невідомих коефіцієнтів апроксимуючого багаточлена ступеня m.
2.4.Визначення суми квадратів відхилень апроксимуючого багаточлена від вихідних значень по всіх вузлових точках
Знайдене значення суми квадратів відхилень є мінімально можливим.
Апроксимація за допомогою інших функцій
Слід зазначити, що при апроксимації вихідних даних відповідно до методу найменших квадратів як апроксимуючу функцію іноді використовують логарифмічну функцію, експоненційну функцію і статечну функцію.
Логарифмічна апроксимація
Розглянемо випадок, коли апроксимуюча функція задана логарифмічною функцією виду:
3. Апроксимація функцій за допомогою методу
найменших квадратів
Метод найменших квадратів застосовується при обробці результатів експерименту для апроксимації (Наближення) експериментальних даних аналітичною формулою. Конкретний вид формули вибирається, зазвичай, з фізичних міркувань. Такими формулами можуть бути:
та інші.
Сутність методу найменших квадратів ось у чому. Нехай результати вимірів представлені таблицею:
Таблиця 4 |
||||
x n |
||||
y n |
(3.1) |
де f - відома функція, a 0 , a 1 , …, a m - невідомі постійні параметри, значення яких слід знайти. У методі найменших квадратів наближення функції (3.1) до експериментальної залежності вважається найкращим, якщо виконується умова
(3.2) |
тобто сум
a квадратів відхилень шуканої аналітичної функції від експериментальної залежності має бути мінімальною .Зауважимо, що функція Q називається нев'язкою.
Тому що нев'язка
вона має мінімум. Необхідною умовою мінімуму функції кількох змінних є рівність нулю всіх похідних приватних цієї функції за параметрами. Таким чином, відшукання найкращих значень параметрів апроксимуючої функції (3.1), тобто таких значень, при яких Q = Q (a 0 , a 1 , …, a m ) мінімальна, зводиться до розв'язання системи рівнянь:
(3.3) |
Методу найменших квадратів можна дати таке геометричне тлумачення: серед нескінченного сімейства ліній цього виду знаходиться одна лінія, на яку сума квадратів різниць ординат експериментальних точок і відповідних їм ординат точок, знайдених за рівнянням цієї лінії, буде найменшою.
Знаходження параметрів лінійної функції
Нехай експериментальні дані треба подати лінійною функцією:
Потрібно підібрати такі значення a і b , для яких функція
(3.4) |
буде мінімальною. Необхідні умови мінімуму функції (3.4) зводяться до системи рівнянь:
|
Після перетворень отримуємо систему двох лінійних рівнянь із двома невідомими:
|
(3.5) |
вирішуючи яку , знаходимо значення параметрів, що шукаються a і b.
Знаходження параметрів квадратичної функції
Якщо апроксимуючою функцією є квадратична залежність
то її параметри a, b, c знаходять із умови мінімуму функції:
(3.6) |
Умови мінімуму функції (3.6) зводяться до системи рівнянь:
|
Після перетворень отримуємо систему трьох лінійних рівнянь із трьома невідомими:
|
(3.7) |
при вирішенні якої знаходимо шукані значення параметрів a, b і c.
приклад . Нехай в результаті експерименту отримано наступну таблицю значень x і y:
Таблиця 5 |
||||||||
y i |
0,705 |
0,495 |
0,426 |
0,357 |
0,368 |
0,406 |
0,549 |
0,768 |
Потрібно апроксимувати експериментальні дані лінійною та квадратичною функціями.
Рішення. Знаходження параметрів апроксимуючих функцій зводиться до вирішення систем лінійних рівнянь (3.5) та (3.7). Для вирішення задачі скористаємося процесором електронних таблиць Excel.
1. Спочатку зчепимо листи 1 і 2. Занесемо експериментальні значення x i та y iу стовпці А і В, починаючи з другого рядка (у першому рядку помістимо заголовки стовпців). Потім для цих стовпців обчислимо суми та помістимо їх у десятому рядку.
У стовпцях C – G розмістимо відповідно обчислення та підсумовування
2. Розчепимо листи. Подальші обчислення проведемо аналогічним чином для лінійної залежності на аркуші 1і для квадратичної залежності на аркуші 2.
3. Під отриманою таблицею сформуємо матрицю коефіцієнтів та вектор-стовпець вільних членів. Розв'яжемо систему лінійних рівнянь за наступним алгоритмом:
Для обчислення зворотної матриці та перемноження матриць скористаємося Майстром функційта функціями МОБРі МУМНІЖ.
4. У блоці осередків H2: H 9 на основі отриманих коефіцієнтів обчислимо значення апроксимуючогополіномаy i вич., у блоці I 2: I 9 – відхилення D y i = y i експ. - y i вич., в стовпці J – нев'язку:
Отримані таблиці та побудовані за допомогою Майстри діаграмграфіки наведено на рисунках6, 7, 8.
Мал. 6. Таблиця обчислення коефіцієнтів лінійної функції,
апроксимуючоюекспериментальні дані.
Мал. 7. Таблиця обчислення коефіцієнтів квадратичної функції,
апроксимуючоюекспериментальні дані.
Мал. 8. Графічне подання результатів апроксимації
експериментальних даних лінійної та квадратичної функціями.
Відповідь. Апроксимували експериментальні дані лінійною залежністю y = 0,07881 x + 0,442262 з нев'язкою Q = 0,165167 та квадратичною залежністю y = 3,115476 x 2 – 5,2175 x + 2,529631 з нев'язкою Q = 0,002103 .
Завдання. Апроксимувати функцію, задану таблично, лінійною та квадратичною функціями.