[МУЗЫКА] [МУЗЫКА] В этом видео мы поговорим о другом типе графиков, который отличается от того, что мы обсуждали ранее, то есть от точечных графиков. Это довольно частый в анализе данных тип визуализации, который описывает частотные распределения. В таких графиках по оси Х откладывается значение, которое представлено в дата-сете, а по оси Y — количество таких значений. Самый частый тип таких графиков — это частотные гистограммы. Вот, например, частотная гистограмма, отражающая распределение величин веса новорожденных. Это переменная bwt. Здесь по оси Х отложены различные значения, которые представлены в дата-сете, а по оси Y — переменная, которая называется count. Это количество таких значений. Соответственно, такие графики строятся в системе ggplot с помощью специального геома, который называется geom_histogram. Но в базовые условия для такого геома мы указываем не две эстетики, а только одну. Обратите внимание, здесь нет эстетики Y. Почему? Очень просто, потому что geom_histogram сам понимает, что по оси Y будет откладываться количество тех или иных значений. Гистограмма, таким образом, будет построена практически автоматически. Но в данном случае мы видим, что гистограмма имеет вид такого частокола. Много пиков, вот эти пики. Это результат того, что классовый шаг в нашей гистограмме достаточно маленький. Если мы его еще уменьшим, то в этой ситуации частокол приобретет уж совсем чудовищный вид. Изменять размер классового шага можно с помощью параметра binwidth, который позволяет задать тот или иной размер классового шага. Если мы его увеличим, то есть у нас binwidth будет больше, то в данном случае гистограмма станет гораздо более сглаженной, тот частокол, который мы видели раньше, исчезнет. Но мы помним, что эти частотные гистограммы могут в себя включать информацию и о другой переменной, которая нас может интересовать. Это переменная, например, статус матери в отношении курения. Как нам изобразить на одном графике данные о курящих и некурящих матерях и о весе их младенцев? В этой ситуации мы должны указать, помимо интересующего нас классового шага, еще эстетику fill — это заполнение вот этих прямоугольников, которые формируют гистограмму в соответствии с переменной smoke. Но читать такую картинку, конечно, неудобно. Как нам поступить? Правильно. Нам нужно применить фасетирование. Если мы используем переменную facet_wrap, соответственно, мы добавим к этой серии функции, которые мы уже записали, переменную facet_wrap, то тогда мы увидим, что наша картинка разобьется на две строки в соответствии с параметром nrow = 2 — в соответствии с переменной smoke. Такие данные читать уже гораздо проще, и можно увидеть уже некоторые закономерности. В частности, видно становится, что модальное значение, то есть наиболее частое значения у двух групп матерей, немножко отличается. Сейчас мы увидим, как эти различия увидеть еще более ярко. Существует еще один способ изображения частотных распределений, который мы будем с вами тоже использовать. Это изображение частотных распределений с использованием анализа, основанного на оценке ядерной плотности, или так называемый kernel density. Этот анализ включает в себя достаточно сложные математические процессы. Мы сейчас пока на них останавливаться не будем. Важно, что визуализировать графики, данные с помощью этого метода, можно с помощью геома density, в котором мы опять же будем использовать эстетику fill, которая будет отражать статус матери в отношении курения. Ну и для удобства чтения мы здесь применим еще один параметр — alpha, который отражает прозрачность, который регулирует прозрачность графиков. В итоге мы видим, что довольно хорошо расходятся частотные распределения для курящих матерей и некурящих матерей. Мы видим, что тенденция эта достаточно очевидна. Видно, что у матерей, которые курят, в среднем, рождаются более легкие дети. Есть и еще один geom, который позволяет визуализировать практически то же самое. Он называется geom_violin. Это результат того же самого процесса, который основан на оценке ядерной плотности, только изображает уже не в виде таких полигонов, которые мы только что видели, а в виде напоминающих боксплоты картинок. В данном случае мы применили geom_violin, и в итоге появились два вот таких причудливых графика, которые тоже достаточно легко трактуются. Мы видим, что максимальная частота у курящих матерей приходится на меньшие значения, чем у некурящих матерей. Вот такой график достаточно легко анализировать.