Корреляция Мэтьюса
Материал из MachineLearning.
м |
Версия 04:39, 3 декабря 2013
Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение на интервале [-1, 1]. Значение 1 соответствует идеальному предсказанию, 0 — ситуации случайного предсказания, -1 — полностью противоположному предсказанию. В литературе так же известна как –коэффициент.
Содержание |
Определение
Пусть — бинарный вектор, соответствующий истинной классификации, а — предсказание некоторого алгоритма. Обозначим за отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.
TP FN FP TN
Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [1].
Тогда корреляция Мэтьюса определяется следующей формулой:
- .
Можно записать формулу в более удобном виде, если ввести ряд обозначений:
- ,
- ,
- ,
- .
Связь со статистикой хи-квадрат
Корреляция Мэтьюса связана со статистикой хи-квадрат для таблицы сопряжённости :
- .
Пример
Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. Тогда .
Ссылки
- Matthews, B.W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta (BBA) - Protein Structure, 405(2), 442-451. http://dx.doi.org/10.1016/0005-2795(75)90109-9.
- Baldi, P., Brunak, S., Chauvin, Y., Andersen, C.A.F., Nielsen, H. (2000). Assessing the accuracy of prediction algorithms for classification: an overview. Bioinformatics, 16(5), 412-424. http://dx.doi.org/10.1093/bioinformatics/16.5.412
- Реализация в Matlab.
- Реализация в R (пакет ROCR, функция perfomance).