Как сохранить r studio
Изучив основные объекты в R, мы можем перейти к объектам, ради которых многие и начинают изучать R, а именно, к базам данных. Но прежде необходимо научиться загружать файлы с данными, чтобы было с чем работать.
Работа с файлами
Загрузка данных в R
Повторение. Если мы не хотим прописывать слишком длинный путь к файлу, файл с данными можно сохранить сразу в рабочую папку (папку, из которой запускается R). Тогда при попытке открыть файл с заданным названием R будет искать его в этой папке. Узнать, какая папка является рабочей, можно с помощью функции getwd() :
Рабочую папку можно изменить. Например, так:
Для начала загрузим в R “простые” текстовые файлы. “Простые” в том смысле, что для их загрузки не требуется установки специальных библиотек.
csv-файлы
Формат csv (comma separated values) - широко распространенный текстовый формат, который используется для представления табличных данных. В качестве разделителя, т.е. символа, который разделяет значения колонок, обычно используется запятая, как и следует из названия.
Но иногда в качестве разделителя могут быть использованы другие символы (точка с запятой, пробел, табуляция). Если мы загрузим файл с другим разделителем и никак это не укажем, что загрузится совсем не то, что мы ожидали:
А если выставим нужный разделитель в качестве параметра, то все будет, как нужно:
Если в файле есть текст на кириллице, могут возникнуть проблемы при чтении файла или при его отображении. Решения могут быть разными (зависит от системы, ее параметров и самого файла). Вот некоторые из них.
Можно посмотреть, какая кодировка и какие языки определены системой по умолчанию:
Можно добавить русский язык:
А можно просто спеифицировать кодировку самого файла:
Будем считать, что с csv-файлами разобрались.
txt-файлы
При работе с txt-файлами необходимо указывать, каким образом столбцы отделены друг от друга (аргумент sep , разделитель, как и в случае в csv-файлами), а также учитывать, что представляет собой первая строка: наблюдение или шапку таблицы (аргумент header ). Откроем файл, в котором столбы разделены табуляцией и сравним, как он будет выглядеть при выставлении разных значений параметра header :
Теперь перейдем к другим форматам.
файлы Excel
Чтобы спокойно загружать xls-файлы и xlsx-файлы необходимо установить соответствующие библиотеки xls ( xlsx ).
Установим библиотеку xlsx . С ее установкой могут возникнуть проблемы: R будет писать что-то про rjava. Это обычно бывает, если на компьютере не установлена Java или установлена такая ее версия, которая конфликтует с R (например, недостаточно новая). Тогда Java можно поставить, скачав отсюда. После этого проблема должна исчезнуть.
Теперь обратимся к этой библиотеке - иначе открыть файл мы не сможем:
Наконец, откроем сам файл. Не забудьте указать номер листа после запятой (даже если он всего один), иначе не сработает.
файлы STATA
Для загрузки файлов STATA (файлы с расширением .dta ) потребуется библиотека foreign .
Теперь загрузим dta-файл.
файлы SPSS
Для загрузки файлов SPSS (файлы с расширением .sav ) потребуется библиотека Hmisc .
Сохранение файлов
Выгружаются данные из R аналогичным образом, но только вместо read в названиях функций используется write . Например, сохраним базу df в csv-формате:
Работа с базами данных
Описание базы данных
Загрузим более содержательную базу данных. Базу данных, которая использовалась в исследовании Druckman, Levendusky, McLain No Need to Watch: How the Effects of Partisan Media Can Spread via Inter-Personal Discussions (2017). Файл и codebook к базе данных можно найти здесь.
Какую информацию о базе данных мы можем получить?
Можем определить число наблюдений и число переменных в базе. Узнать это можно точно так же, как и размерность матрицы, ведь число строк - это число наблюдений, а число столбцов - это число переменных.
Можем узнать гораздо больше - структуру базы данных: число наблюдений и переменных, типы переменных и примеры значений, которые они принимают. Сделать это можно с помощью уже знакомой функции str() :
Также легко посмотреть на первые несколько значений:
Пропущенные значения
Посчитаем, сколько полностью заполненных наблюдений:
Соответственно, остальные (из 575) - недозаполненные (содержащие NAs).
Посмотрим на незаполненные строки:
Для дальнейшей работы с пропущенными значениями нам понадобятся дополнительные библиотеки. Установим их. Можно устанавливать сразу несколько библиотек – оформить перечень необходимых библиотек в виде вектора, и тогда сразу после установки одной библиотеки начнется загрузка следующей.
Обратимся к ним:
Выведем графики, которые покажут, в каких переменных пропущенных значений больше всего и как выглядит база с пропущенными значениями (паттерны пропущенных значений).
Следующий график отвечает за заполненность наблюдений (красным цветом отмечены пропущенные значения, остальное - заполненные значения, чем темнее цвет, тем больше значение). По вертикальной оси - номер строки в базе данных (id наблюдения).
Удаление пропущенных значений
При работе с базами данных необходимо удалить пропущенные значения (или правильно заполнить - кто умеет), потому что иначе мы не сможем полноценно работать с базой (многие функции не работают при наличии NAs, а у некоторых необходимо указывать дополнительный аргумент - учитывать NA или нет).
Выбор переменных
Если мы хотим обратиться к конкретной переменной и рассматривать ее как вектор элементов, нужно использовать символ $ .
Attach и detach
Мы можем “закрепить” базу данных с помощью команды attach, чтобы обращаться к переменным более простым способом:
Однако это не всегда удобно, особенно если приходится работать с несколькими базами одновременно (наложение переменных с одинаковыми именами, проблемы с редактированием и прочее).
Создание и добавление в базу новых переменных
Допустим, мы хотим добавить в базу переменную Session. Для этого нужно через $ задать имя новой переменной и присвоить ей значение:
Фильтрация наблюдений
Часто при работе с данными возникает необходимость выбрать несколько переменных или определенную группу наблюдений и анализировать их отдельно - чтобы не загружать каждый раз огромную базу с ненужными показателями.
Можем выбрать несколько переменных (столбцов) и сохранить их в другую базу:
Получится маленькая база из трех переменных. И сохраним как новую базу dat1:
Если выбираем столбцы не подряд, обязательно их номера нужно оформить в виде вектора:
В противном случае получится совсем не то:
Это “совсем не то” связано с тем, что, когда мы указываем в квадратных скобках числа через запятую, R воспринимает первое число как номер строки, второе число - как номер столбца (как в матрицах - сначала строка, потом столбец). Можем посмотреть на исходную базу и убедиться в этом:
Но таким образом мы можем выбирать строки (наблюдения):
Фильтрация по условиям
Если хотим отобрать из базы определенные наблюдения, это тоже можно сделать с помощью subset() (“фильтры”). Например, хотим выбрать респондентов с определенным уровнем образования:
Для указания нескольких условий опять потребуются логические операторы:
Конечно, можем отбирать наблюдения и переменные одновременно:
Удаление переменных
Чтобы удалить переменные, можно действовать двумя способами:
удалить их из базы
оставить все остальные переменные в базе
По смыслу это одно и то же. И то, и другое чаще всего осуществляется с помощью функции subset() .
Допустим, мы хотим выбрать переменные Educ и Female и сохранить их в новую базу:
В предыдущих двух статьях я написал о том, как загрузить и как отредактировать таблицу данных в Rgui. Завершающим этапом в любом статистическом анализе является сохранение результатов. Результаты можно сохранить в разном виде: начиная от электронных таблиц, и заканчивая рабочим пространством R (формат .RData). Также я расскажу о том, как сохранять алгоритм команд и экспортировать графики.
Сохранение таблиц данных
Как и в прошлых двух статьях, мы будем работать с таблицей физических данных студентов одного из вымышленных военных ВУЗов (скачать можно здесь: voenvuz_clean). В статье о редактировании данных в R мы изменили структуру и содержание таблицы, однако не сохранили результат. К счастью, я сохранил алгоритм команд, который позволит восстановить отредактированную таблицу данных. Для этого в меню откроем вкладку "Файл" и выберем опцию "Новый скрипт". В открывшееся скриптовое окно вставляем следующий текст:
Теперь выделяем этот текст в скриптовом окне, и при помощи комбинации клавиш "Ctrl R" запускаем алгоритм команд в консоли. В конце Вы увидите результат обработки данных - таблицу "voenvuz" в консоли.
Полученную таблицу данных можно сохранить в разных форматах: для некоторых из них необходимо подключить дополнительные пакеты, для других нет. Как и прежде, я рекомендую писать все команды сначала в скриптовое окно и лишь затем переводить в консоль. Чтобы сохранить таблицу в обычном текстовом формате .txt достаточно ввести команду:
Некоторые мои знакомые предпочитают сохранять таблицу в .csv формате:
Для экспорта таблицы в файлы .xlsx следует сначала загрузить пакет "xlsx" и затем воспользоваться его функцией write.xlsx() :
Также можно сохранять данные в форматах разных статистических программ, таких как SAS, SPSS или STATA, используя r-пакет "foreign".
Экспорт векторной и растровой графики из Rgui
Ключевым и интуитивно понятным средством отображения данных является их визуализация. Графическое отображение данных - одна из сильных сторон среды R, так как позволяет создавать качественную растровую (пиксельную) и векторную (основанную на математическом описании геометрических фигур) графику. О преимуществах, недостатках и применении растровой и векторной графики хорошо и просто написано здесь.
Создадим два графика, в одном будет гистограмма веса студентов из нашей таблицы, а в другом диаграмма "ящик с усами", в котором будет показано распределение веса в разных возрастных группах. Чтобы объединить эти два графика в одно графическое окно (или графический девайс), можно воспользоваться функцией par() :
Таким образом, мы получили два графика в одном окне; однако заголовок второго графика не поностью умещается. Решить эту проблему легко: растяните графическое окно так, чтобы текст графика не выходил за рамки окна. После этого, кликаем на графическое окно, в меню нажимаем вкладку "Файл", затем "Сохранить как" и выбираем нужный формат. Это самый простой метод сохранения изображения из среды R.
Не сохраняйте графики в формате .jpg. В противном случае Вам не избежать пиксельного мусора вокруг элементов графика, что очень серьезно ухудшает качество картинки. Существуют и другие способы экспорта графиков из Rgui. Продемонстрирую пару из них:
В первом мы просто сохранили файл векторного формата (.svg) в рабочую папку, не посмотрев предварительно на график в Rgui. Во втором - сначала просмотрели, как он будет выглядеть, а потом сохранили в растровом формате (.tif). Я рекомендую сохранять при помощи кода только те графики, которые были построены вручную в R (об этом я расскажу в отдельной статье). Если же Вы использовали функции автоматического построения, такие как plot() , boxplot() , hist() , то пользуйтесь меню - проще, быстрее, удобнее.
Как сохранить результаты статистического анализа?
Поставим задачу: нам необходимо сохранить результаты регрессионного анализа. Допустим, мы хотим выяснить, завиcит ли вес студентов от роста? Создадим модель, сделаем ее описание и построим график:
В итоге у Вас должно появиться графическое отображение линейной модели на графике и описание результатов статистической модели в консоли. Мы видим, что вес статистически зависим от роста студентов: чем больше рост, тем больше вес (r² = 0.63, p < 0.001). Из описания мы можем извлечь интересующие нас параметры, такие как r², p-value, intercept и другие. Можно сказать, что мы сохранили результаты анализа.
Сохранение рабочего пространства
Но как поступить, если анализ идет в несколько этапов, занимает длительное количество времени, и мы знаем, что нам необходимо будет его продолжить в будущем? Неужели надо будет полностью перезапускать алгоритм, реализация которого может занять сутки или даже недели (как например с Байесовскими методами). В таких случаях стоит сохранить рабочее пространство R, то есть текущую сессию со всеми переменными в ней. Для этого кликаем на консоль, в меню выбираем вкладку "Файл", затем опцию "Сохранить рабочее пространство", и в формате .RData сохраняете новый файл. Вы можете поделиться этим файлом с Вашими коллегам или руководителем, что позволяет работать над проектом в команде.
Когда вернетесь за работу, запустите Rgui, загрузите рабочее пространство и продолжайте анализ. Чтобы вспомнить, какие переменные находятся в загруженном пространстве, введите функцию ls() .
Сохранение скрипта и истории команд
Почему я всегда рекомендую писать все команды в скриптовом окне и лишь потом переводить их в консоль? Потому что перед завершением работы в R, скрипт можно сохранить как текстовый файл. Другими словами, при необходимости Вам всегда будет легко повторить или изменить что-либо в анализе данных: просто отредактируйте скрипт и запустите его в R (как мы сделали в начале этой статьи). Сохранить скрипт не составляет никакого труда: кликаем на скриптовое окно, затем идем в меню, выбираем вкладку "Файл" и далее "Сохранить как. ". Можно сохранить его в формате .r, но я предпочитаю обычный .txt.
Также Вы можете сохранить историю команд (я никогда ее не сохранял, но на всякий случай, расскажу как это сделать). Для этого кликаем на окно консоли, открываем в меню вкладу "Файл" и выбираем "Сохранить историю команд. ".
Заключение
Эта статья была заключительной из серии "Введение в R". В первой статье я рассказал о том, что такое язык и среда R; во второй мы попробовали использовать R на практике. Последние три были посвящены загрузке, обработке и сохранению таблицы данных. Кроме того, мы научились экспортировать графики, и сохранять рабочее пространство среды, историю и алгоритм команд (скрипт). Таким образом, теперь Вы имеете достаточный багаж знаний для того, чтобы беспрепятственно начать свой собственный путь в R.
Дальнейшие статьи будут посвящены статистическим методам и пакетам: как общим, так и узкопрофильным, используемым в физиологии, генетике и эволюционной биологии.
В этом уроке мы узнаем, как экспортировать данные из среды R в различные форматы.
- Жесткий диск
- Гугл драйв
- Dropbox
Во-вторых, R позволяет пользователям экспортировать данные в различные типы файлов. Мы рассмотрим расширение существенного файла:
В целом, нетрудно экспортировать данные из R.
В этом уроке вы узнаете
Экспорт на жесткий диск
Для начала вы можете сохранить данные непосредственно в рабочий каталог. Следующий код печатает путь вашего рабочего каталога:
Вывод:
По умолчанию файл будет сохранен по указанному ниже пути.
Конечно, вы можете установить другой путь. Например, вы можете изменить путь к папке загрузки.
Создать фрейм данных
Прежде всего, давайте импортируем набор данных mtcars и получим среднее значение mpg и disp, сгруппированное по gear.
Выход :
Таблица содержит три строки и три столбца. Вы можете создать файл CSV с помощью функции write.csv ().
Экспорт CSV
Примечание . Вы можете использовать функцию write.csv2 () для разделения строк точкой с запятой.
Примечание : только для педагогических целей мы создали функцию open_folder (), чтобы открыть папку каталога для вас. Вам просто нужно запустить приведенный ниже код и посмотреть, где хранится CSV-файл. Вы должны увидеть имена файлов table_car.csv.
Экспорт в файл Excel
Экспорт данных в Excel тривиален для пользователей Windows и сложнее для пользователей Mac OS. Оба пользователя будут использовать библиотеку xlsx для создания файла Excel. Небольшая разница связана с установкой библиотеки. Действительно, библиотека xlsx использует Java для создания файла. Java должна быть установлена, если она отсутствует на вашем компьютере.
Пользователи Windows
Если вы пользователь Windows, вы можете установить библиотеку напрямую с помощью conda:
После установки библиотеки вы можете использовать функцию write.xlsx (). Новая рабочая книга Excel создается в рабочем каталоге
Если вы пользователь Mac OS, вам необходимо выполнить следующие шаги:
- Шаг 1: Установите последнюю версию Java
- Шаг 2: Установите библиотеку rJava
- Шаг 3: Установите библиотеку xlsx
Шаг 1) Вы можете скачать Java с официального сайта Oracle и установить его.
Вы можете вернуться в Rstudio и проверить, какая версия Java установлена.
На момент обучения последняя версия Java была 9.0.4.
Шаг 2) Вам необходимо установить rjava в R. Мы рекомендуем вам установить R и Rstudio с Anaconda. Анаконда управляет зависимостями между библиотеками. В этом смысле Anaconda будет работать со сложностями установки rJava.
Прежде всего, вам необходимо обновить conda, а затем установить библиотеку . Вы можете скопировать и вставить следующие две строки кода в терминал.
Далее откройте RJAVA в Rstudio
Шаг 3) Наконец, пришло время установить xlsx. Еще раз, вы можете использовать conda, чтобы сделать это:
Как и пользователи Windows, вы можете сохранять данные с помощью функции write.xlsx ()
Вывод:
Экспорт в другое программное обеспечение
Прежде всего, импортируйте библиотеку. Если у вас нет «убежища», вы можете зайти сюда, чтобы установить его.
SPSS файл
Ниже приведен код для экспорта данных в программное обеспечение SPSS:
Экспорт файла SAS
Так же просто, как spss, вы можете экспортировать в sas
Экспорт файла STATA
Наконец, библиотека убежища позволяет записать файл .dta.
Если вы хотите сохранить фрейм данных или любой другой объект R, вы можете использовать функцию save ().
Вы можете проверить файлы, созданные выше в настоящем рабочем каталоге
Взаимодействовать с облачными сервисами
И последнее, но не менее важное: R оснащен фантастическими библиотеками для взаимодействия со службами облачных вычислений. В последней части этого руководства рассматриваются файлы экспорта / импорта из:
Гугл драйв
Вам необходимо установить библиотеку googledrive для доступа к функции, позволяющей взаимодействовать с Google Drive.
Библиотека еще не доступна в Анаконде. Вы можете установить его с помощью приведенного ниже кода в консоли.
и вы открываете библиотеку.
Загрузить на Google Drive
Чтобы загрузить файл на Google диск, вам нужно использовать функцию drive_upload ().
Каждый раз, когда вы перезапускаете Rstudio, вам будет предложено разрешить доступ к Google Drive.
Основной синтаксис drive_upload ()
После запуска кода необходимо подтвердить несколько вопросов
Вывод:
Вы вводите 1 в консоли, чтобы подтвердить доступ
Затем вы будете перенаправлены на Google API, чтобы разрешить доступ. Нажмите Разрешить.
После завершения аутентификации вы можете выйти из браузера.
В консоли Rstudio вы можете увидеть итоги выполненного шага. Google успешно загрузил файл, расположенный локально на диске. Google присвоил идентификатор каждому файлу на диске.
R-Studio как пользоваться правильно, чтобы не усложнить наверно и без того сложную ситуацию в которую вы попали. Пожалуйста прослушайте небольшой курс молодого бойца по работе с подобными программами, без этого вы можете наделать много ошибок и вместо того, что бы вернуть свои удалённые данные, вы ещё хуже затрёте их.
Программа для восстановления файлов R-Studio: как пользоваться
Первая ошибка это волнение, которое сопровождается вытекающими отсюда последствиями, например необдуманными действиями, успокойтесь, дочитайте статью до конца, спокойно всё обдумайте, а затем действуйте. Кстати, если вы случайно удалили с вашего жёсткого диска фотографии, то у нас есть очень простая статья, которая я уверен вам поможет Как восстановить удалённые фотографии. Ещё вам могут пригодиться статьи: Как восстановить удалённые файлы бесплатными программами DMDE , R.saver и Recuva и платными - Ontrack EasyRecovery Professional, GetDataBack for NTFS .
Когда мы с вами, Дорогие мои, случайно удаляем файл, без которого наше дальнейшее существование на планете Земля, будет нам не в радость, знайте, что физически с жёсткого диска он не удалился, но навсегда потерять его можно, записав любую информацию поверх него. Поэтому, даже если вы читали как пользоваться R-Studio, но опыта как такового у вас нет, сразу выключаем компьютер и лучше в аварийном порядке. Больше никаких действий с вашим жёстким диском не производим, тогда наши шансы на благополучный успех увеличиваются.
- Примечание: много раз ко мне обращались люди с подобными проблемами и не могли вспомнить, какие действия они предпринимали до того, как обратиться в технический сервис. Они даже толком не могли назвать точное название программы, которой пытались спасти свои данные, а самое главное, после удаления своих файлов, например мимо корзины, они активно пользовались компьютером (иногда несколько дней), что категорически делать нельзя, только потом всё-таки шли в сервис и требовали чуда.
После того как мы выключили компьютер, берём системный блок и идём к профессионалам, ваши данные 90% будут спасены, естественно с вас возьмут немного денежки, сколько, лучше узнать сразу, но если денежки попросят очень много, читаем дальше.
Сейчас я пишу эту статью, а передо мной стоит системный блок, в нём находится жёсткий диск, его случайно форматировали, то есть удалили всё что на нём находилось, давайте попробуем восстановить потерянные файлы с помощью R-Studio , а заодно научимся пользоваться этой хорошей программой.
В первую очередь нам с вами нужно эвакуировать пострадавшего, другими словами снять форматированный винчестер и подсоединить к моему компьютеру, я делаю так всегда, потому что нельзя сохранять восстанавливаемую информацию на тот же носитель, с которого были удалены файлы.
Если для вас это трудно, тогда хотя бы не восстанавливайте файлы на тот раздел жёсткого диска с которого они были удалены.
Примечание: Друзья, самое главное правило при восстановлении информации звучит так: число обращений к жёсткому диску с удалёнными данными должно быть сведено к минимуму. А значит, перед работой с R-Studio желательно сделать образ жёсткого диска с потерянными данными и восстанавливать информацию уже с образа. Как сделать посекторный образ жёсткого диска и восстановить с него информацию написано в этой нашей статье.
Итак начнём, на нашем пострадавшем от форматирования винчестере пропало очень много папок с семейными фотографиями и видео, нам нужно их вернуть.
Запускаем R-Studio , у программы интуитивно понятный англоязычный интерфейс, но нам не привыкать, я уверен, что, попользовавшись ей один раз, вы запомните её навсегда.
Главное окно программы Device View "Просмотр дисков" в левой его части показаны практически все накопители находящиеся в системе: жёсткие диски, разбитые на логические разделы, USB-накопители, DVD-диски, флеш-карты, правое окно предоставляет полнейшую информацию о выбранном нам накопителе, начиная с названия и заканчивая размером кластеров.
Выбираем наш диск (N:) и жмём Open Drive Files (Открыть файлы диска),
сейчас мы с вами используем самый простой способ восстановления удалённых файлов, перед нами открывается несколько папок имеющих древовидную структуру, раскрываем все начиная с первой, предупреждаю, не ждите обычных названий ваших файлов, в нашем случае Фото сынишки и т.д. Можно сказать нам повезло, в окне присутствуют папки перечёркнутые
красным крестиком, это значит они были удалены, смотрим названия: Глава 01, 02 и т.д, это нужные нам папки с лекциями Университетского профессора, дело в том что перед подобными операциями восстановления, я внимательно расспрашиваю людей о названиях удалённых файлов и их расширениях, это нужно в особых запущенных случаях для поиска по маске и т.д. Вы можете не забивать себе голову на первый раз, в конце статьи мы воспользуемся методом расширенного сканирования ( Scan ) и восстановим всё что было на винчестере, это конечно займёт времени по сравнению с простым способом в десять раз больше. А сейчас ставим везде галочки и далее Recover ,
выбираем куда восстанавливать, по умолчанию в личную папку R-Studio в Моих документах и предложение изменить настройки восстановления по умолчанию, оставляем всё как есть нажимаем ОК .
Читайте также: