MATLAB.Exponenta
–Û·Ë͇ Matlab&Toolboxes

Основы работы в Curve Fitting Toolbox \ Curve Fitting Toolbox

В оглавление книги \ К предыдущему разделу \ К следующему разделу

Основы работы в Curve Fitting Toolbox

1.3.8. Критерии пригодности приближения

После приближения данных стандартной параметрической моделью или моделью, заданной пользователем, оценка качества приближения может быть проведена как графически, так и с использованием различных критериев пригодности приближения: SSE (сумма квадратов ошибок), R-square (критерий R-квадрат), Adjusted R-square (уточненный R-квадрат), RSME (корень из среднего для квадрата ошибки). Кроме того, можно вычислить доверительные интервалы для найденных значений параметров модели, соответствующие различным уровням вероятности, и доверительные полосы для приближения и данных, так же соответствующие различным уровням вероятности.

Визуальная оценка качества приближения

Во-первых, построив графики данных и параметрической модели уже можно сделать предварительный вывод о том, насколько хорошо выбранная модель (с найденными значениями параметров) соответствует данным. Например, при приближении следующих данных

x = 0:0.05:5;
y = x.*sin(3*x)+sqrt(4*x)+0.2*rand(size(x));

полиномом пятой степени, функцией aebx или a1sin(b1x + c1) + a2sin(b2x + c2) мы вряд ли получим хорошие приближения, что очевидно из соответствующих графиков, приведенных ниже


Приближение данных неверной моделью

Во-вторых, визуально о качестве приближения можно судить по распределению ошибок, т.е. разности данных в заданных точках и значений параметрической модели в этих же точках. Если ошибки достаточно равномерно распределены около нуля и в их поведении нет выраженной тенденции, то тем лучше приближение.

Например, если данные

x = 0:0.05:5;
y = 4*x.^2+3*x+3+randn(size(x));

приблизить полиномом второй степени ax² + bx + c и моделью ax² + c, в которой пропущено линейное слагаемое, то получим следующие результаты. Ошибки при приближении моделью ax² + bx + c более равномерно распределены около нуля, чем при приближении моделью ax² + c (в приложении cftool использовалась пользовательская модель Custom equation для создания модели ax² + c, см. раздел Создание собственной параметрической модели, для вывода графика ошибок следует в меню View основного окна приложения cftool выбрать пункт Residuals и далее подпункт Scatter Plot или Line Plot). Приведенные ниже графики показывают распределение ошибок для квадратичной моделей с линейным слагаемым и без него.


Распределение ошибок для моделей ax² + bx + c и ax² + c.

Для оценки пригодности приближения применяют так же ряд числовых критериев, вычисляемых автоматически в приложении cftol.

Критерии пригодности приближения

Критерий SSE (Sum of squares due to error) - сумма квадратов ошибок.

Критерий SSE вычисляется по формуле:

где wk - веса (если они не заданы при импорте данных, то считаются равными единице), yk - данные в xk, а k - значения параметрической модели в xk. Близость SSE к нулю говорит о хорошем качестве приближения данных параметрической моделью.

Критерий R-квадрат (R-square) - квадрат смешанной корреляции.

Критерий R-квадрат определяется как отношение суммы квадратов относительно регрессии SSR к полной сумме квадратов (SST), т.е.

где - среднее.

Критерий R-квадрат может принимать значения только от нуля до единицы и, как правило, чем ближе он к единице, тем лучше параметрическая модель приближает исходные данные.

Однако, при увеличении числа параметров модели значение критерия R-квадрат может увеличится, хотя вместе с тем, качество приближения не улучшится. В связи с этим часто применяют другой критерий - уточненный R-квадрат, в который входит число коэффициентов параметрической модели.

Уточненный R-квадрат (Adjusted R-square)

Если число данных равно n, а число параметров модели равно m, то критерий уточненный R-квадрат определяется так:

Его значение не может превышать единицы, а близкие к единице значения уточненного R-квадрат свидетельствуют о хорошем приближении исходных данных параметрической моделью.

Корень из среднего для квадрата ошибки RSME (Root mean Squared Error)

Близкие к нулю значения RSME означают хорошее приближение исходных данных параметрической моделью.

Значения вышеперечисленных критериев приближения данных параметрической моделью выводятся в окно Results и в таблицу Таble of fits окна Fitting после вычисления параметров модели. Причем имеется возможность управлять количеством выводимых критериев качества приближения и информацией о построенной параметрической модели. Для этого в диалоговом окне Fitting следует нажать на кнопку Table Options… и выбрать нужную информацию (установив соответствующие флаги) в появившемся диалоговом окне Table Options:

В диалоговом окне Table Options часть флагов (SSE, R-square, Adj R-sq, RMSE) служит для вывода значений критериев приближения данных параметрической моделью, причем имена флагов совпадают с названиями описанных выше критериев приближения, а смысл остальных флагов таков:

  • Name - выводить имя приближения (задание имени приближения описано в разд. Приближение стандартными параметрическими и моделями. Работа с несколькими приближениями и несколькими наборами данных.)
  • Data set - имя множества данных (задание имени множеству данных описано в разделе Окно приложения cftool. Импорт данных в приложение cftool).
  • Type - тип приближения (одна из стандартных параметрических моделей, описанных в разд. Стандартные параметрические и непараметрические модели, или Custom equation, если применялась пользовательская модель, см. разд. Создание собственной параметрической модели).
  • DFE - число степеней свобод, т.е. разность между числом данных и параметров модели.
  • # Coeff - число коэффициентов в параметрической модели.

Доверительные интервалы и полосы

При подборе параметров в приложении cftool вычисляются доверительные интервалы для найденных значений параметров модели, соответствующие некоторому заданному уровню вероятности (по умолчанию он равен 95%). Границы доверительных интервалов для параметров выводятся в область вывода Results диалогового окна Fitting. Например, при приближении данных

x=0:0.01:5;
y=x.^2+2*x+3+0.5*randn(size(x));

полиномом второй степени

       f(x) = p1*x^2 + p2*x + p3

Значения коэффициентов и доверительных интервалов будут такими

       p1 =      0.9918  (0.9678, 1.016)
       p2 =       2.021  (1.897, 2.145)
       p3 =       3.079  (2.944, 3.213)

Т.е., с вероятностью 95% первый коэффициент p1 полинома находится в интервале (0.9678, 1.016), второй p2 - в интервале (1.897, 2.145), а третий коэффициент p3 - в интервале (2.944, 3.213).

Для изменения уровня вероятности следует в меню View основного окна приложения выбрать пункт Confidence Level и в подменю установить нужный уровень вероятности, а затем еще раз произвести подбор параметров. Например, для уровня вероятности 90% в предыдущем примере получаются более узкие доверительные интервалы:

       p1 =      0.9918  (0.9717, 1.012)
       p2 =       2.021  (1.917, 2.125)
       p3 =       3.079  (2.966, 3.191)

Доверительные интервалы для параметров модели вычисляются по следующей формуле

где b - найденные значения параметров, t - обратная функция для функции распределения Стьюдента, S - вектор из диагональных элементов матрицы sXTX, где X - матрица плана, s - среднеквадратичная ошибка.

Границы доверительных полос, соответствующих различным уровням вероятности, могут быть построены как для данных, так и для приближения.

Для построения доверительной полосы для данных следует установить нужный уровень вероятности, выбрав в меню View основного окна приложения пункт Confidence Level и задав в подменю нужный уровень вероятности, а затем выбрать в меню View пункт Prediction Bounds. Например, при приближении данных

x=0:0.05:5;
y=3*x.^2+2*x+3+randn(size(x));

полиномом второй степени доверительная полоса для данных, соответствующая вероятности 99% приведена ниже


Доверительная полоса для уровня вероятности 95%

Доверительные полосы могут быть также построены в окне Analysis (см. разд. Операции с построенным приближением), для отображения которого на экране следует нажать одноименную кнопку в основном окне приложения cftool. В нем следует:

  1. указать абсциссы точек, в которых будет производиться анализ в строке ввода Analyze at Xi=;
  2. установить флаг Evaluate fit at Xi;
  3. ввести уровень вероятности в строку ввода Level;
  4. выбрать переключатель For function или For new observation (в зависимости от того, для чего надо построить доверительную полосу, соответственно, для приближения или для данных);
  5. установить флаг Plot results;
  6. нажать кнопку Apply.

Результат выводится в отдельном графическом окне.

В оглавление книги \ К предыдущему разделу \ К следующему разделу


Поиск по сайту:

Система Orphus

Яндекс.Метрика