Статистический анализ данных (курс лекций, К.В.Воронцов)/2016, ФУПМ/3

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Вес детей при рождении

Имеется выборка из 1009 детей, родившихся в Северной Каролине в 2004 году; известны пол ребёнка, вес при рождении, период вынашивания, возрастная группа матери, а также курила ли мать во время беременности и употребляла ли алкоголь (birthweight.csv).

Стогний: как вес ребёнка зависит от курения и употребления алкоголя (после поправки на остальные признаки)?

Диабетическая ретинопатия

Имеются результаты обработки 1147 изображений сетчаток. По изображениям рассчитаны значения 17 признаков; записаны также результаты предварительного скрининга на наличие диабетической ретинопатии и окончательный диагноз. (retinopathy.xlsx)

Силин: построить модель, оценивающую вероятность наличия диабетической ретинопатии, дать интерпретацию коэффициентов.

Комментарии в блогах

Для 60021 постов в блогах, опубликованных не более, чем за 72 часа до базового времени, собрана информация о количестве комментариев, времени публикации, длине и количестве каждого из 200 часто встречающихся слов. (blog_feedback.xlsx)

Гончаров: построить модель, предсказывающую количество новых комментариев за следующие 24 часа.

Просрочка платежей по кредитам

Для 30000 клиентов тайваньского банка известны сумма кредита, демографические показатели и история платежей по кредитам за последние пять месяцев (факт просрочки, сумма неоходимой выплаты, сумма платежа). (default.xls)

Бочкарёв: построить модель, предсказывающую вероятность просрочки следующего платежа, оценить вклад факторов.

Успеваемость и потребление алкоголя старшеклассниками

Для 649 учеников старших классов двух португальских школ известны ряд демографических показателей и показателей успеваемости; для каждого студента известны также уровень потребления алкоголя по выходным и будним дням в пятибалльной шкале от очень низкого до очень высокого и финальная оценка по португальскому языку. (student-por.xlsx)

Двинских: смоделировать финальную оценку как функцию от всех показателей, кроме итоговых оценок по промежуточным семестрам; оценить влияние уровня потребления алкоголя на неё.

Токсичность рыб

Полихлорированные дифенилы — органические соединения, активно использовавшиеся в промышленности до 1970 годов, когда была показана их токсичность. Накопление ПХБ в организме приводит к подавлению иммунитета, провоцирует развитие рака, поражений печени, почек, нервной системы, кожи, способствуют развитию детской патологии. Из-за накопления ПХБ в озёрах США некоторые виды рыб в некоторых областях запрещены к употреблению в пищу. Для своевременного обновления таких запретов необходимо периодически проводить мониторинг ПХБ. К сожалению, существует 209 различных разновидностей ПХБ, концентрация каждой из которых измеряется отдельным тестом. Для 69 видов рыбы известны концентрации семи соединений ПХБ (в миллионных долях), а также суммарная концентрация всех разновидностей ПХБ, их токсическая эквивалентность (TEQ) и суммарная токсическая эквивалентность образца, определяемая также вкладом диоксинов и фуранов. (pcb.txt)

Жариков: насколько точно токсичность рыбы можно предсказывать по концентрации только нескольких ПХБ? Концентрации какого минимального количества соединений ПХБ нужно измерить, чтобы достаточно точно предсказать суммарную токсичность, или хотя бы токсичность только совокупности ПХБ?

Биоразлагаемость молекул

1055 химических молекул описаны с помощью 41 признака (число атомов кислорода, нитратных групп, донорных связей с водородом, потенциал ионизации и т.д.); 355 из них биоразложимы. (biodeg.xlsx)

Исаченко: какие свойства молекул влияют на их биоразлагаемость?

Массовая доля жира в организме

Массовая доля жира, важная характеристика здоровья, рассчитывается через плотность тела, измеряемую при помощи взвешивания в воде. Для 252 мужчин проведены такие расчёты. Имеются также данные антропометрии (возраст, рост, вес, обхват грудной клетки и т.д.) (fat.xls)

Черных: построить функцию, оценивающую массовую долю жира по легко измеряемым антропометрическим признакам.
Чащин: построить функцию, оценивающую индекс ожирения без использования данных взвешивания.

Сейсмическая опасность в шахтах

Собраны данные мониторинга сейсмической активности в польских угольных шахтах столбовой системы разработки. При сейсмической опасности существует серьёзный риск обрушения; в этом случае необходимо отозвать рабочих или использовать направленные взрывы для нейтрализации напряжения породы. Для каждого измерения известен бинарный индикатор сейсмической опасности — наличия в следующую восьмичасовую смену сейсмических толчков с энегрией выше 10^4 Джоулей. (seismic.xlsx)

Керимов: построить модель сейсмической опасности, дать интерпретацию вклада показателей сейсмической активности.

Использование велопроката в Вашингтоне

Имеются данные использования городского велопроката Вашингтона за каждый день 2011-2012 годов; известны также данные о погоде и ряд календарных признаков (bikeshares.xls).

Родионов : построить модель использования велопроката в зависимости от имеющихся признаков. Достаточно ли использовать дату с точностью до сезона, или месяц позволяет предсказывать значение признака значимо лучше? Есть ли смысл в использовании полной информации о днях недели, или достаточно разделять выходные и рабочие дни?

Свойства грибов

Для 8416 грибов задано признаковое описание согласно справочнику The Audubon Society Field Guide to North American Mushrooms (mushroom.csv).

Нейчев: построить модель вероятности ядовитости гриба, оценить вклад факторов.

Вкус португальского вина

Для 1599 образцов красного и 4898 белого португальского вина Vinho Verde известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе (wine.xlsx).

Мусинов: построить модель, оценивающую содержания алкоголя по остальным характеристикам вина.
Аленькин: построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным. Оценить влияние экспертной оценки на эту вероятность.

Преступность и демографические характеристики

Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей (crimes.xlsx).

Переберина: построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
Дойничко: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию модели.

Риск остеопороза у женщин

Для 500 участниц исследования Global Longitudinal Study of Osteoporosis in Women (Center for Outcomes Research, the University of Massachusetts/Worcester) измерены возраст, вес, рост, ИМТ, бинарные признаки: курение, индикатор наступления менопаузы до 45 лет, индикатор необходимости помощи при подъёме из сидячего положения, перелом шейки бедра в прошлом (был/не было), перелом шейки бедра у матери (был/не было), а также самостоятельная субъективная оценка вероятности перелома (меньше/такая же/больше, чем у сверстниц). Известно, у кого из участниц в первый год исследования произошёл перелом шейки бедра. (GLOW500.txt)

Гилязев: построить модель вероятности перелома с учётом имеющихся признаков, дать интерпретацию.

Хроническая болезнь почек

Госпиталь города Карайкуди, Тамилнад, Индия, собрал данные анализов 250 пациентов с хронической болезнью почек и 150 пациентов без неё. (chronic_kidney_disease.xlsx)

Королёв: построить диагностическую модель хронической болезни почек, оценить вклад факторов.

Счета за электроэнергию

Имеются помесячные данные о тратах на электроэнергию одного фиксированного домохозяйства на среднем западе США. За каждый месяц 1991-2000 годов приведены затраты на электроэнергию в долларах. Для объяснения колебаний размера счёта приведены следующие переменные: среднемесячная температура по данным последних тридцати лет, погодные индексы CDD и HDD (CDD - Cooling Degree Day - количество градусов, на которые средняя дневная температура больше 65°F, взятое суммой за все дни месяца; HDD - Heating Degree Day - аналогично, суммарное количество градусов, на которое средняя дневная температура меньше 65°F), число проживающих в доме членов семьи, индикатор установки нового счётчика, индикаторы установки двух новых тепловых насосов, объём потребления электроэнергии в киловатт-часах (electricity.xls).

Крошнин: оценить влияние установки нового оборудования на объём потребления и затраты на электроэнергию.

Пожертвования на благотворительность

Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования (charity.xlsx).

Новиков: построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.
Войцех: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.

Открытие депозита

Имеются результаты обзвона 4119 клиентов португальского банка, которым предлагалось завести депозит. Известны социально-демографические характеристики клиентов, история предыдущих коммуникаций, социально-экономические показатели на момент совершения звонка (deposit.xlsx).

Смирнов: какие признаки определяют готовность клиента открыть депозит по результатам обзвона?

Солнечная активность

Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности (solar flares.xls).

Подкопаев: построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа, дать интерпретацию коэффициентов.
Скорняков: построить модель, по свойствам участка предсказывающую суммарное число вспышек в последующие 24 часа, дать интерпретацию коэффициентов.

Стоимость подержанных автомобилей

Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений (cars.xls).

Бетлей: построить модель стоимости автомобиля по данному набору признаков.

Ценообразование бриллиантов

Имеются данные о цене и свойствах 53940 бриллиантов. Известны: линейные размеры и признаки, построенные на их комбинациях, вес в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет — буквой D, менее чистые — буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect")), стоимость бриллианта в долларах США (diamonds.xlsx).

Шишковец: существует общепринятая система классификации бриллиантов на мелкие — до 0.29 карата, средние — от 0.30 до 0.99 карата и крупные — свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?

Надёжность шарикоподшипников

Мерой надёжности шарикоподшипников служит величина L_{10} — максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина L_{10}. (bearing.xlsx)

Соломатин: построить функцию, оценивающую L_{10} по имеющимся признакам, оценить вклад признаков.

Продажи платьев

Имеются данные по продажам 479 платьев на сайте aliexpress.com за полтора месяца осени 2013 года. Для каждого из платьев известны также стиль, ценовая категория, рейтинг, размер, сезон, ряд характеристик внешнего вида и индикатор участия в программе рекомендаций. (aliexpress_dress_data.csv)

Емельянов: оценить влияние рейтинга товаров на продажи с учётом остальных факторов.

Внешний вид и привлекательность самок мечехвостов

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников. (horseshoe crab.txt)

Ефимов: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки, оценить значимость каждого фактора.

Клетки опухолей груди

357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака (breast cancer.xls).

Досаев: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков, дать интерпретацию коэффициентов.

Данные антропометрии

Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост (body.xlsx).

Назаров: построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый — женщина, дать интерпретацию коэффициентов.
Нижевич: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
Свириденко: построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.

Потребление бензина

Для 398 автомобилей известен расход топлива по городу (в милях на галлон), а также их технические характеристики (mpg.csv).

Решетова: построить модель расхода бензина в зависимости от характеристик автомобиля.

Вакцина против вируса папилломы человека

Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс — три укола в течение года — был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно. (gardasil.xls)

Мищенко: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.

Ссылки