[МУЗЫКА] [МУЗЫКА]
[ШУМ] В практической
части этого модуля мы поговорим о том, как создавать массивы данных
в программе SPSS и как готовить себе пространство, во-первых, для ввода данных,
во-вторых, для комфортной работы с этими данными, когда вы будете их анализировать.
Почему это важно?
Во-первых, это важно потому, что качественно подготовленный массив данных,
где у вас введены типы переменных, предположим — он вам сэкономит время.
То, как развивается пакет SPSS — они ставят возможности и ограничения
дополнительные на процедуры, которые, если указан тип переменной, просто не позволят
вам сделать того, что тип переменной не позволяет с собой делать.
Если у вас тип переменной не выставлен, тогда вам придется держать в голове
все ограничения, что полезно, но удобней иногда бывает не думать.
Во-вторых, если вы вводите подписи, формулировки вопросов, предположим,
подсказки вариантов ответа — что значит цифры в случае с неметрическими шкалами,
то вы сэкономите много времени на оформление там отчетов или текстов по
результатам анализа,
потому что у вас тогда все таблички уже будут выдаваться оформленными,
подписанными, и вы будете прекрасно понимать, что у вас где находится.
Кроме того, в этом массиве данных можно сразу же предусмотреть возможность
определения пропущенных значений, неопределенных значений.
О важности этого мы много говорили в течение этого модуля.
Давайте посмотрим, как выглядит пустое окно программы SPSS,
когда там еще не введены никакие данные.
То есть это вот та самая матрица объект-признак,
и здесь у нас есть две вкладки внизу: одна — «Представление Данные»,
другая — «Представление Переменные».
Представление данные — это вот та матрица, где мы видим объекты по строке и признаки
по столбцу, а «Представление Переменные», в котором мы вводим
характеристики нашего массива, где мы, собственно, определяем, какие переменные
будут у нас в массив входить и какими они характеристиками будут обладать.
То есть мы видим, что здесь у нас есть 8 полей.
Имя — это служебное имя переменной, лучше называть его понятным для вас образом,
но здесь опять-таки есть две рекомендации.
Если вы делаете массив данных для внутреннего пользования и не будете ни с
кем другим делиться, то тогда удобно называть переменные так,
чтобы вы их могли узнать, для себя.
Но если вы предполагаете, что вы будете делиться этими данными,
то лучше называть переменные каким-нибудь стандартным способом, к примеру v1, v2,
v3 — вопрос первый, вопрос второй, вопрос третий.
Или какие-то другие служебные символы придумывать,
но чтобы номер вопроса вычитывался из этого.
В таком случае другие исследователи смогут гораздо понятнее разобраться в вашей
системе кодов, которые существуют в ваших переменных.
Тип — это второй столбик, Тип Переменные.
Но здесь она у нас может быть числовой, запятые, точки, экспоненциальная запись,
дата, доллар, валюта любая другая или текстовая переменная.
Обычно мы работаем с числовыми переменными,
но иногда текстовые переменные тоже появляются.
Когда у нас есть, например, открытый вопрос,
мы предлагаем людям записать ответ на этот вопрос.
И у нас нет никакого классификатора, по которому мы кодируем эти открытые вопросы,
тогда мы пользуемся этой переменной просто как текстовой.
Но бывает это очень редко, потому что возможности в SPSS работы с текстовой
информацией, к сожалению, сильно ограничены.
Так что, как правило,
мы создаем числовые переменные и с этими числовыми переменными работаем.
Дальше ширина и так далее — это нас не очень интересует, это то,
что по умолчанию выставляется.
Количество знаков после запятой — это как вам удобно, кто-то вообще не любит,
чтобы после запятой что-то стояло, кто-то оставляет два десятичных знака, наверное,
это все-таки зависит от переменной.
Следующее поле — метка, это формулировка вопроса.
То есть если мы вводим, к примеру,
вопрос «Приходилось ли вам пользоваться Интернетом за последний год?»,
то здесь мы вводим формулировку этого вопроса: либо точную формулировку вопроса,
либо вы можете вводить сюда то, что вы хотите видеть в подписи в таблице,
то есть то, что будет написано — там вот вы выводите таблицу, и это будет написано.
Допустим, «Пользование Интернетом за последний год», заголовок таблицы,
как вы хотите, так и называйте.
Значение — это значение меток или подсказок, то есть в случае с вопросом про
пользование Интернетом, допустим, единичкой мы кодируем тех,
кто пользовался, двойкой — тех, кто не пользуется.
Соответственно, 1 значит «да», 2 значит «нет» мы должны задавать в этом столбце.
Пропущенные значения — это вот тот самый столбик,
в котором мы задаем всякие пропущенные, неопределенные и непонятные значения.
Здесь мы его временно просим вынести эти значения за скобки,
они у нас не пропадают из массива, но они у нас не участвуют в анализе.
Ну и еще есть несколько служебных столбцов, которые нам не очень интересны.
Важный столбец — еще столбец «Мера».
Это именно здесь мы задаем тип шкалы, которой измерен наш признак.
То есть здесь у нас есть варианты порядковые,
номинальные или шкалы интервальные, и лучше это задавать,
потому что потом это будет очень сильно помогать при выборе процедуры, если вы,
предположим, забыли какие-то ограничения по типу переменных.
Давайте теперь попробуем создать собственный маленький игрушечный массив
данных, чтобы получить представление о том, как это делается.
Давайте создадим массив, который содержит переменные по трем вопросам.
Мы спрашиваем, допустим, фиксируем пол респондента: мужской или женский.
Это будет у нас номинальная переменная — пол.
Возраст респондента — в годах это у нас будет количественная переменная,
метрическая шкала.
А также переменную про проблемы.
И мы будем предполагать, что одного человека одновременно может интересовать
несколько проблем, и здесь нужно сделать комментарий, что неальтернативные вопросы
— а именно так называются вопросы, где человек может сделать множественный выбор
— представляют отдельный вопрос для, собственно, создания переменных в массиве.
Здесь есть два подхода.
Первый подход называется дихотомическим, и здесь у нас создается столько переменных,
сколько проблем предлагается человеку на выбор.
Допустим, вот список из 10 проблем, какие из них вас волнуют.
Человек может выбрать сколько-то, три например.
Мы создаем 10 переменных, каждая из этих переменных отражает каждую из проблем,
предложенных в списке.
И она принимает значение 0, если человек не выбрал эту проблему как волнующую,
а 1 — если выбрал как волнующую.
То есть 10 проблем, 10 переменных, все дихотомические, никаких вопросов.
Другой способ кодирования — это кодирование списком,
когда у нас создается переменных не столько, сколько проблем,
а столько — сколько вариантов предлагается человеку.
Вот у вас 10 проблем, вы берете любые три, создается три переменных, а не 10,
и значения они принимают уже не 0, 1, как в первом случае,
а значения они принимают номера проблемы в списке, которая человека взволновала.
Потому оно и называется списочным кодированием.
То есть если человека, например, заинтересовали проблемы номер 5 и номер 7,
то значения переменных будут: первая переменная будет принимать значение 5,
вторая — 7, третья — пропущенная,
потому что третьей проблемы волнующей не оказалось.
Мы в нашем массиве тоже введем переменную про проблему, но для простоты проблем у
нас будет только две: дураки и дороги — традиционные для этого края света,
— и мы будем предполагать, что людей может волновать как и то и другое,
так и что-то одно, так и ничего.
И создадим две переменные — я вообще рекомендую кодировать дихотомически такие
переменные, потому что списком кодировать имело смысл,
когда компьютеры были большими, а память у них маленькой,
и каждый столбец в массиве данных занимал дополнительную, столь ценную память.
И поэтому там создать пять переменных 25 — это принципиально.
Сейчас уже такой проблемы нет, и если вы будете их сохранять в дихотомическом виде,
то вам будет очень многие процедуры проще применять,
а списочные все равно приходится потом перекодировать.
Но давайте приступим к формированию массива.
Первая переменная — переменная пол.
Назовем ее в поле «Имя», дадим ей имя, пусть она будет так и называться «Пол».
И мы видим, что тут же автоматически что-то у нас начало задаваться.
То есть тип — числовой, и это так, знаков после запятой две,
они нам тут вообще-то не нужны, мы можем их убрать, если хотим.
То есть можем задавать, чтобы у нас не было ни одного знака после запятой.
Метка — то, что у нас будет написано в заголовке таблицы,
допустим пол респондента.
Значение у нас — 1, это мужской.
Напишем: 1 — мужчина.
2 — женский, так обычно кодируют, единицами мужчин, двойками женщин.
Окей. Пропущенных значений у нас нет.
Осталось задать меру.
Мера — это вот тот самый тип шкалы, который нас во многом ограничивает.
Если мы ее зададим, то мы избавим себя от множества ненужных размышлений,
и аналитические процедуры во многом нас сами направят: применим ли этот
тест конкретный для этого типа переменных.
Следующая переменная — возраст, назовем ее «Возраст».
Это будет у нас переменная тоже числовая,
но здесь у нас уже переменная шкала метрическая.
И цифры здесь значат сами себя, поэтому метки значений мы не задаем никакие,
но метку вопроса мы, пожалуй, все-таки напишем: «Возраст респондента (лет)».
Тогда это в табличке у нас будет так аккуратно и написано.
И вот переменные про проблемы.
Как мы можем называть их?
Можем назвать «Проблема 1», «Проблема 2», а можем назвать прямо по названиям:
проблема, например, «Дураки» и проблема, например, «Дороги».
Да. В случае с возрастом тоже выставим шкалу
обязательно, она у нас будет интервальная, то есть это называется «шкалы»,
но это вот та самая метрическая шкала.
С дураками, значит, можно написать типа «Проблема дураков»,
в случае с дорогами — «Проблема дорог», допустим.
И в метках можно либо ничего не писать, либо написать,
что 1 — эта проблема волнует, а 0 — эта проблема не волнует.
Будем делать их дихотомическими.
Что удобно: если мы создаем много переменных для одного неальтернативного
вопроса, то мы можем создать метки только для одной,
потом скопировать метки значений, и просто Ctrl + C,
Ctrl + V — вставить другим переменным, которые отражают этот же вопрос.
Давайте теперь попробуем повводить данные.
Допустим, мы опросили 6 человек: три мужчины, три женщины.
Давайте их внесем.
То есть у нас есть возможность отображать вводимые данные как метками значений,
так и цифрами.
То есть если мы ничего не указываем, то у нас будут просто цифры: один за мужчину,
два за женщину, вот мы опросили шестерых.
Если мы хотим видеть буквенные значения словами, метки, то мы можем в меню «Вид»
поставить птичку на «Метки значений», и мы увидим эти значения словами.
Возраст введем какой получится.
И проблемы «дураки», «дороги»: допустим,
что первого человека волнует и то и другое, второго человека не волнует ни
то и другое, ну а дальше как-нибудь распределим случайным тоже образом.
Вот.
Наш массив готов.
То есть мы видим, что у нас 6 человек опрошено,
и какими-то характеристиками они обладают, как-то они отвечали на наши вопросы.
После этого мы можем строить графики, можем строить табички и смотреть,
кого у нас волнует что.
Например, просто чтобы получили представление,
мы можем зайти в меню описательной статистики и построить таблички и графики
для переменных, допустим, «Пол» и «Проблемы».
Все эти переменные у нас номинальные,
и мы можем в диаграммах попросить, например, круговые.
Что же мы получим?
Вот.
Мы видим, что у нас три мужчины и три женщины — всего 6 человек опрошены.
Проблема дураков волнует двоих, четверых не волнует.
Проблема дорог волнует 50/50.
И вот оно, графическое изображение.
Вот график 1, график второй, и мы можем понять, что вот да,
у нас приблизительно так обстоит дело: что вот они мужчины-женщины пополам,
проблема дураков волнует не так сильно, как проблема дорог.
И мы это видим как из табличек, так и их графиков.
Вот. Теперь вы знаете, как формировать массивы.
Если вы работаете с чужими массивами и вы видите, например,
что там не определены типы переменных, лучше эту работу проделать,
по крайней мере по тем переменных, которые для вас важны.
Но а мы на этом заканчиваем этот модуль.
Также мы на этом заканчиваем этот курс — первый курс нашей специализации — и
приглашаем вас на следующий курс нашей специализации,
где вы узнаете много больше о том, как можно анализировать статистические данные.