Rstudio cloud как открыть файл
Данные могут существовать в разных форматах. Для каждого формата R имеет определенную функцию и аргумент. В этом руководстве объясняется, как импортировать данные в R.
В этом уроке вы узнаете
Читать CSV
Одним из наиболее распространенных хранилищ данных являются форматы файлов .csv (значения, разделенные запятыми). R загружает массив библиотек во время запуска, включая пакет utils. Этот пакет удобен для открытия CSV-файлов в сочетании с функцией reading.csv (). Вот синтаксис для read.csv
Аргумент :
- file : PATH, где хранится файл
- header : подтвердите, имеет ли файл заголовок или нет, по умолчанию заголовок установлен в TRUE
- sep : символ, используемый для разделения переменной. По умолчанию `,`.
Мы будем читать данные файла с именем mtcats. CSV-файл хранится в Интернете. Если ваш файл .csv хранится локально, вы можете заменить PATH внутри фрагмента кода. Не забудьте обернуть его внутри ». PATH должен быть строковым значением.
Для пользователя Mac путь к папке загрузки:
Для пользователей Windows:
Обратите внимание, что мы всегда должны указывать расширение имени файла.
Вывод:
Вывод:
R по умолчанию возвращает значения символов как фактор. Мы можем отключить этот параметр, добавив stringsAsFactors = FALSE.
Вывод:
Класс для переменной X теперь является символом.
Чтение файлов Excel
Файлы Excel очень популярны среди аналитиков данных. Таблицы просты в работе и гибки. R оснащен библиотекой readxl для импорта электронных таблиц Excel.
Используйте этот код
чтобы проверить, установлен ли readxl на вашем компьютере. Если вы устанавливаете r с помощью r-conda-essential, библиотека уже установлена. Вы должны увидеть в окне команд:
Вывод:
Если пакет не выходит, вы можете установить его с библиотекой conda или в терминале, используйте conda install -c mittner r-readxl.
Используйте следующую команду, чтобы загрузить библиотеку для импорта файлов Excel.
readxl_example ()
Мы используем примеры, включенные в пакет readxl во время этого урока.
чтобы увидеть все доступные таблицы в библиотеке.
Чтобы проверить расположение таблицы с именем clippy.xls, просто используйте
Если вы устанавливаете R с помощью conda, электронные таблицы находятся в Anaconda3 / lib / R / library / readxl / extdata / filename.xls
read_excel ()
Функция read_excel () отлично подходит для открытия расширений xls и xlsx.
Мы можем импортировать электронные таблицы из библиотеки readxl и посчитать количество столбцов на первом листе.
Вывод:
excel_sheets ()
Файл datasets.xlsx состоит из 4 листов. Мы можем узнать, какие листы доступны в книге, используя функцию excel_sheets ()
Вывод:
Если рабочий лист включает в себя много листов, легко выбрать конкретный лист, используя аргументы листа. Мы можем указать название листа или индекс листа. Мы можем проверить, возвращает ли обе функции один и тот же вывод с помощью метода unique ().
Вывод:
Мы можем контролировать, какие ячейки читать 2 способами
- Используйте аргумент n_max для возврата n строк
- Используйте аргумент диапазона в сочетании с cell_rows или cell_cols
Например, мы устанавливаем n_max равным 5, чтобы импортировать первые пять строк.
Если мы изменим col_names на FALSE, R автоматически создаст заголовки.
В фрейме данных iris_no_header R создал пять новых переменных с именами X__1, X__2, X__3, X__4 и X__5
Мы также можем использовать диапазон аргументов для выбора строк и столбцов в электронной таблице. В приведенном ниже коде мы используем стиль Excel, чтобы выбрать диапазон от A1 до B5.
Вывод:
Во втором примере мы используем функцию cell_rows (), которая управляет диапазоном возвращаемых строк. Если мы хотим импортировать строки с 1 по 5, мы можем установить cell_rows (1: 5). Обратите внимание, что cell_rows (1: 5) возвращает тот же вывод, что и cell_rows (5: 1).
Вывод:
Если мы хотим импортировать строки, которые не начинаются с первой строки, мы должны включить col_names = FALSE. Если мы используем range = cell_rows (2: 5), становится очевидно, что наш фрейм данных больше не имеет заголовка.
Вывод:
read_excel () возвращает NA, когда в ячейке появляется символ без числового значения. Мы можем посчитать количество пропущенных значений с помощью комбинации двух функций
Вывод:
У нас пропущено 50 значений, которые являются строками, принадлежащими видам сетоз.
Импорт данных из другого статистического программного обеспечения
Мы будем импортировать различные файлы формата с пакетом небес. Этот пакет поддерживает программное обеспечение SAS, STATA и SPSS. Мы можем использовать следующую функцию для открытия различных типов наборов данных в соответствии с расширением файла:
- SAS: read_sas ()
- STATA: read_dta () (или read_stata (), которые идентичны)
- SPSS: read_sav () или read_por (). Нам нужно проверить расширение
В этой функции требуется только один аргумент. Нам нужно знать ПУТЬ, где хранится файл. Вот и все, мы готовы открыть все файлы из SAS, STATA и SPSS. Эти три функции также принимают URL.
В гавань входит conda r-essential, в противном случае перейдите по ссылке или в терминале. conda установите -c conda-forge r-haven
Читать сас
Для нашего примера мы собираемся использовать набор входных данных из IDRE.
Вывод:
Читать STATA
Для файлов данных STATA вы можете использовать read_dta (). Мы используем точно такой же набор данных, но храним его в файле .dta.
Вывод:
Читать SPSS
Вывод:
Лучшие практики для импорта данных
Когда мы хотим импортировать данные в R, полезно реализовать следующий контрольный список. Это позволит легко импортировать данные в R:
- Типичным форматом электронной таблицы является использование первых строк в качестве заголовка (обычно это имя переменной).
- Избегайте именовать набор данных с пробелами; это может привести к интерпретации как отдельной переменной. В качестве альтернативы, предпочтите использовать «_» или «-».
- Короткие имена являются предпочтительными
- Не включайте символ в имя: то есть: exchange_rate _ $ _ € не правильно. Предпочитаю называть это: exchange_rate_dollar_euro
- В противном случае используйте NA для пропущенных значений; нам нужно очистить формат позже.
Резюме
В следующей таблице приведены функции, которые необходимо использовать для импорта файлов различных типов в R. В первом столбце указана библиотека, связанная с этой функцией. Последний столбец ссылается на аргумент по умолчанию.
R-Studio имеет встроенный просмотрщик, позволяющий просматривать содержание как существующих, так и удаленных файлов. Вы можете его использовать для оценки шансов восстановления файлов или для поиска восстанавливаемого файла.
При просмотре файла в просмоторщике вы можете его сразу восстановить или пометить для восстановления используя Кнопки просмоторщика .
Для просмотра содержания файла
1 | Щелкните правой кнопкой мыши по файлу на панели Содержимое и выберите пункт контекстного меню Предпросмотр |
Другие способы просмотра содержания файла
• Выберите файл на панели Содержимое и нажмите кнопку Предпросмотр
• Выберите файл на панели Содержимое и выберите пункт Предпросмотр меню Файл
Если у вас открыто несколько файлов в просмотрщике, вы можете сразу закрыть их всех, выбрав пункт Закрыть все окна предпросмотра меню Файл .
Файловый Просмоторщик для Картинок:
Картинки могут быть просмотрены либо как иконки (плитки) в главном окне R‑Studio , либо во внешнем просмоторщике.
В главном окне как иконки (плитки):
Размер иконок (плиток) можно изменять.
Картинки как иконки (плитки)
Во внешнем просмоторщике:
Масштаб картинок можно увеличивать/уменьшать.
Файловый Просмоторщик для Видео и Аудио файлов:
Видео и аудио файлы можно просматривать без установленных соответствующих программ.
Просмоторщик видео файла
Файловый Просмоторщик для Документов Microsoft/Open/Libre Office:
Документы можно просматривать (в т.ч. имеющиеся в них картинки) без установленных соответствующих программ. Для лучшего просмотра можно увеличивать/уменьшать их масштаб.
Просмоторщик документа Microsoft/Open/Libre Office
Файловый Просмоторщик для Файлов Adobe Acrobat PDF:
Файлы можно просматривать без установленной программы Adobe Acrobat.
Просмоторщик позволяет пользователям переходить в определенное место страницы, изменять масштаб документа и искать заданный текст.
Просмоторщик документа Adobe Acrobat pdf
Файлы можно просматривать в различных режимах и поворачивать. Необходимый вид просмотра можно выбрать в меню Вид.
Список Поддерживаемых Файловых Форматов:
Файлы MS Office и Open/Libre Office без установленных соответствующих программ:
• Word/Writer documents: docx;
• Excel/Calc spreadsheets: xlsx;
• PowerPoint presentation: pptx.
Office 97-2003 без установленных соответствующих программ:
• Word documents: doc;
• Excel spreadsheets xls;
• PowerPoint presentation ppt.
Документы Adobe Acrobat : pdf.
AIFF, ASF, AVI, BFI, CAF, FLV, GIF, GXF, HLS, QuickTime, 3GP, MP4, Matroska, Maxis XA, MPEG-DASH, MPEG program stream, MPEG transport stream (including AVCHD), MXF, Material eXchange Format, SMPTE, MSN Webcam stream, NUT, Ogg, OMA, RL2, TXD, WTV.
8SVX, AAC, AAC+, AC-3, ADPCM, AMR-NB, AMR-WB, Amazing Studio PAF Audio, Apple lossless audio, QuickTime, ATRAC, CELT, DCA (DTS Coherent Acoustics), DPCM, DSD (Direct Stream Digitial), DSP Group TrueSpeech, DST (Direct Stream Transfer), DV audio, FLAC (Free Lossless Audio Codec), G.723.1, G.729, GSM, IAC (Indeo Audio Coder), iLBC (Internet Low Bitrate Codec), IMC (Intel Music Coder), Interplay ACM, MACE (Macintosh Audio Compression/Expansion), MACE (Macintosh Audio Compression/Expansion), MLP (Meridian Lossless Packing), Monkey’s Audio, MP1 (MPEG audio layer 1), MP2 (MPEG audio layer 2), MP3 (MPEG audio layer 3), MPEG-4 Audio Lossless Coding (ALS), Musepack SV7/SV8, Nellymoser Asao, AVC (Audio for Video Codec), PCM A-law/mu-law, QCELP/PureVoice, QDesign Music Codec, RealAudio, Vorbis, Voxware MetaSound, WavPack, Westwood Audio, Windows Media Audio, Xbox Media Audio
3DS Max thumbnail (max), AAA logo (bpr), ACE texture (ace), ADEX (img, rle), AIM Grey Scale (ima, im), AIPD image (aipd), ARF (arf), AT&T Group 4 (att), AT&T multigen (icn), AVHRR Image (sst), AVT RAW (raw), AWD (awd), Ability Photopaint Image (apx), Access (g4, acc), Aces200 (ace), Acorn Sprite (acorn), AdTech perfectfax (adt), Adobe Illustrator (ai), Adobe PhotoParade(images) (php), Adobe Photoshop (psd), Advanced Art Studio (ocp, art, pic), AirNav (anv), Album bébé (frm), Alias Image File (pix, als, alias), Alpha Microsystems BMP (bmp), Amapi (2d), Amica Paint (ami, [b]), Amiga IFF (iff, blk), Amiga icon (info), Amstrad Cpc Screen (cpc), Analyze (avw), Analyze-7 (img), Andrew Toolkit raster object (atk), Apollo HDRU (hdru, hdr, gn), ArcInfo Binary (hdr), Art Director (art), Artisan (art), Artist 64 (a64), Artrage (ptg), Artweaver Document (awd), Astronomical Research Network (arn), Atari grafik (pcp), Aurora (sim), Auto F/X (afx), AutoCAD DWG (dwg, dwt), AutoCAD DXF (dxf), Autocad CAD-Camera (img), Autodesk Animator (fli, flc), Autodesk QuickCAD thumbnail (cad), Autodesk SKETCH thumbnail (skf), Autodesk SketchUp component (skp, skb), Autologic (gm, gm2, gm4), Award Bios Logo (epa), Axialis Screensaver(images) (ssp), B3D(images) (b3d), BFLI (bfl, bfli, fli, flp, afl), BIAS FringeProcessor (msk, img, raw, flt), BLP textures (blp), BMF (bmf), BSB/KAP (kap), BYU SIR (sir), Bert's Coloring (bmg, ibg), Bfx Bitware (bfx), Bio-Rad confocal (pic), Blazing Paddles (pi), Bob Raytracer (bob), Brender (pix), Brooktrout 301 (brk, 301, brt), Brother Fax (uni), Buttonz & Tilez texture (til), CALS Raster (cal, cals, gp4, mil), CDU Paint (cdu), CGM (cgm), CImage (dsi), CMU Window Manager (cmu), CP8 256 Gray Scale (cp8), CSV (csv), Calamus (cpi, crg), Camera RAW (raw), Canon EOS-1D Mark II RAW (cr2), Canon Navigator Fax (can), Canon PowerShot (crw), Cartes Michelin (big), Casio QV-10/100 Camera (cam), Casio RAW (bay, raw), Chinon ES-1000 digital camera (cmt), Cisco IP Phone (cip), Cloe Ray-Tracer (clo, cloe), ColoRIX (rix, sci, scx, sc?), CompW (wlm), CompuServe GIF (gif, giff), Computer Eyes, Digital Vision (ce), ComputerEyes Raw (ce1, ce2), Contax RAW (bay, raw), Core IDC (idc), Corel Draw Bitmap(preview) (cdr), Corel Draw Pattern(preview) (pat), Corel Flow(preview) (bmf), Corel Metafile Exchange(preview) (cmx), Corel PhotoPaint 6.0 (cpt), CoverDesigner(images) (ncd), CoverDesigner Template(images) (nct), Crayola (art), Creative PC-CAM RAW (bay, raw), DBW Render (), DIV Game Studio Map (map), DIV Game Studio Multi Map (fpg), DKB Ray-Tracer (dis), DNG (dng), DPX (dpx), Dali Raw (sd0, sd1, sd2), Datacopy (img), Degas & Degas Elite (pi1, pc1, pi2, pc2, pi3, pc3, pi4, pi5, pi6), Deluxe Paint, Electronic Arts (lbm, ilbm), Dicom (dcm, acr, dic, dicom, dc3), Digital F/X (tdim), Digital Research(GEM Paint) (img, gem), Direct Draw Surface (dds), Discorp CMP Image (cmp), DjVu (djvu, djv, iw4), DolphinEd (dol), Doodle Atari (doo), Doodle C64 (dd), Doodle C64(Compressed) (jj), Dr Halo (cut), Draz Paint (drz), EA Sports FSH (fsh), EPS Interchange Format (epi, ept), ERI-chan(Entis Rasterized Image) (eri), ESM Software Pix (pix), Ecchi (ecc), Eclipse (tile), Edmics (c4), Egg Paint (trp), Electric Image (ei, eidi), Embroidery (bmc), Encapsulated Postscript (ps, eps), Encapsulated Postscript (Preview) (eps), Enhance Simplex (esm), Enhanced Compressed Wavelet (ecw), Epson RAW (erf), Eroiica (eif), Everex Everfax (efx, ef3), Explore(TDI) & Maya (iff, tdi), FIF(Iterated System) (fif), FIT (fit), Face Painter (fpt), Fast Piecewise-constant (pwc), Fax Group 3 (g3, fax), Fax man (fmf), Faxable PCX (fcx), Faxable TIFF (ftf), Fenix Map (map), Fenix Multi Map (fpg), FileMagic (mag), Flash Image (fi), FlashCam Frame (ncy), FlashPix Format (fpx), Flexible Image Transport System (fts, fits, fit), Foculus RAW (bay, raw), Fontasy Grafik (bsg), Fremont Fax96 (f96), Fugawi Map (fx3), Fuji S2 RAW (raf), Fun Painter II (fp2, fun), Fun Photor (fpr), Fuzzy bitmap (fbm, cbm), GRS16 (g16), Gamma Fax (gmf), GeoPaint (geo), Gfa Raytrace (sul), GigaPaint Hi-res (gih), GigaPaint Multi (gig), Gimp Bitmap (xcf), Gimp Brush (gbr), Gimp Icon (ico), Gimp Pattern (pat), GoDot (4bt, 4bit, clp), GunPaint (gun, ifl), HD Photo (wdp, hdp), HDRI (hdr, hdri), HF (hf), HP-48/49 GROB (gro, grb), HP-49 OpenFire (gro2, gro4), HPGL-2 (hp, hpg, hgl, plt, hpgl, hpgl2, gl2, prn, prt, spl), HRU (hru), HSI Raw (raw), Half-Life Model (mdl), Hasselblad RAW (3fr), Hayes JTFax (jtf), Hemera Photo Image (hpi), Hemera Thumbs (hta), Heretic II MipMap (m8), Hi-Eddi (hed), Hires C64 (hir, hbm), Homeworld Texture (lif), IBM Kips (kps), IBM Printer Page Segment (pse), IM5(Visilog) (im5), IMNET Image (imt), IOCA (ica, ioca, mod), IPLab (ipl), IPod thumb (ithmb), ISS (iss), IcoFX (ifx), Icon Library (icl), Imacon/Hasselblad RAW (fff), Image Capture Board (icb), Image Magick file (mif, miff), Image Speeder (ish), Image System(Hires) (ish), Image System(Multicolor) (ism), Image Systems RLC2 Graphic (rlc), ImageLab (b&w, b_w), ImagePro Sequence (seq), Imaging Fax (g3n), Imaging Technology (img), Img Software Set (img), Inshape (iim), InterPaint(Hires) (iph), InterPaint(Multicolor) (ipt), Intergraph Format (itg, cit, rle), Interleaf (iimg), Iris CT (ct), Iris Graphics (iris), J Wavelet Image Codec (wic), JBIG (jbg, bie, jbig), JBIG-2 (jb2), JFIF based file (jb2), JPEG/JFIF (jpg, jpeg, jif, jfif, J, jpe), JPEG 8BIM header(Mac) (jpg, jpeg, jif, jfif, J, jpe), JPEG XR (jxr), JPEG-2000 Code Stream (jpc), JPEG-2000 JP2 File Format (jp2, j2k, jpx, jpf), JPEG-LS (jls), Jeff's Image Format (jif), Jigsaw (jig), Jovian VI (vi), Jpeg Network Graphics (jng), JustButtons animated bitmap (btn), KONTRON (img), Khoros Visualization Image file (vif, viff, xv), KinuPix Skin (thb), Kiss Cel (cel), Koala Paint (koa, kla), Koala Paint(Compressed) (gg), Kodak Cineon (cin), Kodak DC120 Digital Camera (kdc), Kodak DC25 Camera (k25), Kodak Photo CD (pcd), Kodak Pro Digital RAW (dcr), Kofax Group 4 (kfx), Kolor Raw Format (kro), Konica Camera File (kqp), LSS16 (lss, 16), LView Pro (lvp), LaserData (lda), Leaf RAW (mos), Leica RAW (bay, raw), Light Work Image (lwi), LucasFilm Format (lff), Lumena CEL (cel), LuraDocument Format (ldf), LuraDocument.jpm Format (jpm), LuraWave Format (lwf), LuraWave JPEG-2000 Code Stream (jpc), LuraWave JPEG-2000 Format (jp2, j2k, jpx, jpf), MAKIchan Graphics (mag), MGI Photosuite Project(images) (pzp), MGR bitmap (mgr), MRC(Medical Research Council) (mrc), MTV Ray-Tracer (mtv), Mac Paint (mac, mpnt, macp, pntg, pnt, paint), Mac icon (icns), Macintosh Quickdraw/Pict (pic, pict, pict2, pct), Mac OSX Resource (rsc, rsrc), Maggi Hairstyles & Cosmetics (fff), Male MRI (pd, t1, t2), Male Normal CT (fre), Mamiya RAW (mef), Marks Russel File (mrf), Mavica (411), Maw-Ware Textures (mtx), Mayura Draw (pdx), MegaPaint (bld), Megalux Frame (frm), Micro Dynamics MARS (pbt), Micro Illustrator Uncompressed (mil), Micrografx Picture Publisher 4.0 (pp4), Micrografx Picture Publisher 5.0 (pp5), Micron RAW (bay, raw), Microsoft Image Composer (mic), Microsoft Paint (msp), Microtek Eyestar (img), Mindjongg Format (ipg), Minolta DiMAGE RAW (mrw), Mobile FAX (rfa), MonkeyCard (pdb), MonkeyLogo (pdb), MonkeyPhoto (mph), MrSid (sid), Msx 2 Screen (sc2), Multiple Network Graphics (mng), NCR Image (ncr), NIST ihdr (pct), National Imagery Transmission F. (ntf, nitf), NeoBook Cartoon (car), Neochrome(ST & TT) (neo), Neopaint Mask (npm), Neopaint Stamp (stw), NewsRoom (nsr, ph, bn), Nifti (img), Nikon RAW (nef), Nokia Group Graphics (ngg), Nokia Logo File (nlm), Nokia OTA bitmap (otb), Nokia Operator Logo (nol), OAZ Fax (oaz, xfx), OS/2 Bitmap (bmp, bga), Olicom Fax (ofx), Olympus RAW (orf), Open Image Library Format (oil), OpenEXR (exr), Optigraphics (ctf), Optigraphics Tiled (ttf), Optocat (abs), Oric Hires (hir), Oric TAP (tap), OS/2 Warp (bga), PABX background (pix), PAX (pax), PC Paint/Pictor Page (pic, clp), PCO (b16), PM (pm), Page Control Language (pcl), Paint Magic (pmg), PaintShopPro Browser Cache File (jbf), PaintShopPro Brush (pspbrush), PaintShopPro Brush (jbr), PaintShopPro Frame (pfr, pspframe), PaintShopPro Image (psp, pspimage), PaintShopPro Mask (pspmask), PaintShopPro Mask (msk), PaintShopPro Pattern (pat), PaintShopPro Picture Tube (tub, psptube), PaintShopPro Texture (tex), Palm Pilot (pdb), Panasonic DMC-LC1 RAW (srf), Panasonic LX3 RAW (rw2), Panasonic RAW (bay, raw), Pegs (pxs, pxa), Pentax *ist D (pef), Pfs Art Publisher (art), Photo Deluxe (pdd, pdb), Photo Filtre Studio (pfi), PhotoFantasy Image (fsy), PhotoFrame (frm), PhotoStudio File (psf), PhotoStudio Stamp (stm), Photomatrix (cat), Pic2 (p2), Picasso 64 (p64), Picture Gear Pocket (prc), Picture It! (mix), Pixar picture file (pic, pxr, picio, pixar), Pixel Power Collage (ib7, i17, i18, if9), Pixia (pxa), Pixibox (pxb), Planetary Data System (pds, img), Playback Bitmap Sequence (bms), Pocket PC Bitmap (2bp), Pocket PC Themes(images) (tsk), Polychrome Recursive Format (prf), Portable Bitmap (pbm, rpbm, ppma), Portable Document Format (pdf), Portable Greyscale (pgm, rpgm), Portable Image (pnm, rpnm, pbm, rpbm, pgm, rpgm, ppm, rppm), Portable Network Graphics (png, apng), Portable Pixmap (ppm, rppm), Portfolio Graphics (pgf), Portfolio Graphics Compressed (pgc), Portrait (cvp), Poser Bump (bum), Postscript (ps, ps1, ps2, ps3, eps, prn), PowerCard maker (crd), PowerPoint(images) (pps), PowerPoint Presentation(images) (ppt), Print Master (pm), Print Shop (psa, psb), Printfox/Pagefox (bs, pg, gb), Prism (cpa), Prisms (pri), Psion Series 3 Bitmap (pic), Psion Series 5 Bitmap (mbm), Punk Productions Picture (ppp), Puzzle (pzl), Q0 (q0, rgb), Qdv(Random Dot Software) (qdv), Qrt Ray-Tracer (qrt), Quake Texture (wal), Quantel VPB (vpb), QuickTime Image Format (qtif, qti), RAW DVR (raw), RIPTerm Image (icn), Radiance (rad, img, pic), Rainbow Painter (rp), Raw (raw, gry, grey), Rawzor (rwz), Rayshade (pic), Red Storm File Format (rsb), Ricoh Digital Camera (j6i), Ricoh Fax (001, ric), Ricoh IS30 (pig), Rm2K XYZ (xyz), Rollei RAW (rdc, ia), RoverShot RAW (bay, raw), RunPaint(Multicolor) (rpm), Saracen Paint (sar), SBIG CCD camera ST-4 (st4), SBIG CCD camera ST-X (stx, st4, st5, st6, st7, st8), SciFax (sci), SciTex Continuous Tone (sct, ct, ch), Seattle Film Works (sfw), Seattle Film Works multi-image (pwp, sfw), SecretPhotos puzzle (xp0), Sega SJ-1 DIGIO (sj1), Sharp GPB (img), Siemens Mobile (bmx), SIF MICHEL-Soft (sif), Sigma RAW (x3f), Silicon Graphics RGB (rgb, rgba, bw, iris, sgi, int, inta), Sinar RAW (cs1, sti), Skantek (skn), Slow Scan Television (hrz), SmartDraw 6 template (sdt), SmartFax (1), SmoothMove Pan Viewer (pan), Softimage (pic, si), Solitaire Image Recorder (sir), Sony DSC-F1 Cyber-shot (pmp), Sony DSC-F828 RAW (srf), Sony PS2 TIM (tm2), Sony Playstation TIM (tim), Sony RAW (sr2, arw), Spectrum 512 (spu), Spectrum 512(Compressed) (spc), Spectrum 512(Smooshed) (sps), SPOT (dat), SriSun (ssi), Stad (pic, pac, seq), Star Office Gallery (sdg), Starbase (img), Stardent AVS X (x, avs, mbfs, mbfavs), Starlight Xpress SX (RAW), Stereo Image (jps), ST Micro RAW (bay, raw), Structured Fax Format (sff), Sun Icon/Cursor (icon, cursor, ico, pr), Sun Rasterfile (ras, rast, sun, sr, scr, rs), Sun TAAC file (iff, vff, suniff, taac), Syberia texture (syj), Synthetic Universe (syn, synu), SVG (svg), TG4 (tg4), TI Bitmap (92i, 73i, 82i, 83i, 85i, 86i, 89i), TIFF Revision 6 (tif, tim, tiff), TMSat image (imi), TRS 80 (hr), TealPaint (pdb), Teli Fax (mh), Thumbnail (tnl), TilePic (tjp), Tiny (tny, tn1, tn2, tn3), TopDesign Thumbnail (b3d, b2d), Total Annihilation (gaf), Truevision Targa (tga, targa, pix, bpx, ivb), Ulead Pattern (pst), Ulead PhotoImpact (upi), Ulead Texture(images) (pe4), Usenix FaceServer (fac, face), Utah raster image (rle, urt), VIPS Image (v), VITec (vit), VRML2 (wrl), Venta Fax (vfx), Verity (vif), Vicar (vic, vicar, img), Vidcom 64 (vid), Video Display Adapter (vda), Vista (vst), Vivid Ray-Tracer (img), Vort (pix), Vue d'esprit (vob), WAD(Half life) (wad), WSQ (wsq), WaveL (iwc), Wavefront Raster file (rla, rlb, rpf), WebShots(images) (wb1, wbc, wbp, wbz), Weekly Puzzle (jig), WebP (webp, wep), Whypic (ypc), WinFAX (fxs, fxo, wfx, fxr, fxd, fxm), WinMIPS (pic), Windows & Aldus Metafile (wmf), Windows Animated Cursor (ani), Windows Bitmap (bmp, rle, vga, rl4, rl8, sys), Windows Clipboard (clp), Windows Comp. Enhanced Metafile (emz), Windows Compressed Metafile (wmz), Windows Cursor (cur), Windows DIB (dib), Windows Enhanced Metafile (emf), Windows Icon (ico), Winzle Puzzle (wzl), Wireless Bitmap(level 0) (wbmp, wbm, wap), Word Perfect Graphics(images) (wpg), Worldport Fax (wfx), X Windows System dump (xwd, x11), X11 Bitmap (xbm, bm), X11 Pixmap (xpm, pm), XV Visual Schnauzer (p7), Xara(images) (xar), Xerox DIFF (xif), Ximage (xim), Xionics SMP (smp), YUV 16Bits (yuv, qtl, uyvy), YUV 16Bits Interleaved (yuv, qtl, uyvy), YUV 4:1:1 (yuv, qtl), YUV 4:2:2 (yuv, qtl), YUV 4:4:4 (yuv, qtl), ZX Spectrum Hobetta ($s, $c, !s), ZX Spectrum Snapshot(sna), ZX Spectrum standard (screen scr), ZZ Rough (rgh), Zeiss BIVAS (dta), Zeiss LSM (lsm), Zoner Callisto Metafile(zmf), Zoner Zebra Metafile (zbr), Zsoft Multi-page Paintbrush (dcx), Zsoft Publisher's Paintbrush (pcx, pcc, dcx), byLight (bif)
R-studio - это набор программ для восстановления данных и файлов из жесткого диска. У приложения есть версии, как для Windows и Mac, так и для Linux. Программа платная, но имеет бесплатную версию, и считается одной из лучших программ для восстановления данных.
Программа проводит полный анализ диска и определяет какие файловые системы были на нем до этого, а затем позволяет восстановить файлы из этих файловых систем. Интересно, что можно обнаружить файловые системы, которые были на диске достаточно давно и даже из них восстановить файлы. Мы ранее рассматривали свободные утилиты для восстановления данных Linux, а в этой статье поговорим о том, как пользоваться R-Studio.
Установка R-Studio
Вы можете скачать установщик программы для своей операционной системы на официальном сайте. Для Linux здесь есть deb и rpm пакеты, которые установятся в большинстве дистрибутивов.
Например, в Ubuntu, после того как пакет будет загружен, перейдите в папку загрузок и запустите установку:
/Загрузки/
$ sudo dpkg -i RStudio*
После завершения установки ярлык программы появится в главном меню:
В Windows вам будет достаточно пройти несколько шагов мастера.
Как пользоваться R-Studio
Теперь перейдем ближе к работе с утилитой, рассмотрим ее первый запуск интерфейс и восстановление файлов.
1. Запуск R-Studio
При первом запуске программа попросит лицензию. Не мне вам рассказывать где искать бесплатные лицензии, или можете нажать кнопку Demo. Для восстановления небольших файлов вполне сойдет. Максимальный размер файла для восстановления - 256 кб.
Если в окне программы полностью пусто, то нужно запускать ее через терминал с помощью такой команды:
Теперь все должно работать.
2. Интерфейс R-Studio
Интерфейс программы достаточно типичен для такого рода утилит. Его можно разделить на такие части:
В рабочей области главного окна вы будете видеть список всех дисков и разделов. По умолчанию программа на английском, но вы можете выбрать русский язык. Для этого откройте меню "Help" -> "Language" и выберите "Русский":
3. Простое восстановление
Напоминаю, что независимо от файловой системы, файлы не удаляются физически с диска во время удаления. Зато вы можете потерять их навсегда, если файловая система их чем-либо перезапишет. Если вы случайно удалили некоторые данные лучше сразу отключить этот жесткий диск от компьютера и проводить восстановление, подключив его в качестве внешнего диска к другому устройству. Мы можем просканировать весь раздел и определить все файловые системы, остатки которых на нем еще есть, но существует более простой способ. Можно работать только с этой файловой системой. Для этого просто выберите нужный раздел и нажмите на панели инструментов "Показать содержимое раздела":
Все удаленные файлы будут помечены красным крестиком. Чтобы восстановить их будет достаточно нажать кнопку "Восстановить" на панели инструментов:
Далее, нужно только выбрать папку, куда будут восстановлены файлы. Ни в коем случае не восстанавливайте все на тот же раздел, это может стереть то, что еще можно было спасти.
3. Сканирование раздела
Если вы хотите восстановить все данные, нужно просканировать нужный раздел, чтобы обнаружить все файловые системы, которые там были и с которыми может работать утилита. Для этого выберите нужный раздел и нажмите кнопку "Сканировать". Этот процесс может занять длительное время, прогресс будет отображаться в правой части рабочей области:
После завершения сканирования вы увидите все доступные файловые системы. Выберите одну из них и нажмите "Показать содержимое диска". Кстати, та же опция доступна из контекстного меню:
Теперь, как и в предыдущем случае вы можете видеть все доступные файлы и те, которые можно восстановить помечены красным крестиком. Кроме того, вы можете отметить галочками нужные файлы в правой части и восстановить их группой:
Если это медиа файл или текстовый, то вы можете его открыть прямо в программе, без того, чтобы выполнить восстановление данных rstudio.
4. Поиск файлов
Очень часто в прошлых файловых системах очень запутанная структура каталогов и вы не всегда помните что и где находилось. Но в программе есть встроенные возможности поиска. Для настройки поиска нажмите "Найти/отменить":
В открывшемся окне вы можете выбрать где нужно искать, какие файлы искать, какого формата, нужно или искать каталоги и так далее. В выпадающем списке в самом верху окна нужно выбрать параметр, по которому будем искать, например, расширение, имя файла или регулярное выражение.
После завершения настройки нажмите "Ok". В правой части рабочей области будут отображены все найденные файлы и вы можете их восстановить.
5. Создание образов
Когда вы работаете с диском, на котором есть важные удаленные файлы, всегда есть риск что-то повредить. Поэтому вы можете создать образ и работать уже с ним. Для этого выберите на панели инструментов пункт "Создать образ":
Процесс создания образа может занять достаточно долгое время. Затем вы можете выбрать пункт "Открыть образ" и продолжить работать с полученным образом как с обычным жестким диском.
Выводы
Теперь вы знаете как пользоваться r studio восстанавливаем данные. Удаление важных данных происходит не так часто. Но если это случится, то нужно иметь инструменты, с помощью которых вы смогли бы все вернуть. В этой статье мы рассмотрели как пользоваться программой R-Studio. Она самая популярная, но если у вас достаточно простая задача, то перед использованием этого инструмента можно попробовать свободные утилиты, такие как testdisk или photorec.
Видео про R-Studio в Ubuntu:
Изучив основные объекты в R, мы можем перейти к объектам, ради которых многие и начинают изучать R, а именно, к базам данных. Но прежде необходимо научиться загружать файлы с данными, чтобы было с чем работать.
Работа с файлами
Загрузка данных в R
Повторение. Если мы не хотим прописывать слишком длинный путь к файлу, файл с данными можно сохранить сразу в рабочую папку (папку, из которой запускается R). Тогда при попытке открыть файл с заданным названием R будет искать его в этой папке. Узнать, какая папка является рабочей, можно с помощью функции getwd() :
Рабочую папку можно изменить. Например, так:
Для начала загрузим в R “простые” текстовые файлы. “Простые” в том смысле, что для их загрузки не требуется установки специальных библиотек.
csv-файлы
Формат csv (comma separated values) - широко распространенный текстовый формат, который используется для представления табличных данных. В качестве разделителя, т.е. символа, который разделяет значения колонок, обычно используется запятая, как и следует из названия.
Но иногда в качестве разделителя могут быть использованы другие символы (точка с запятой, пробел, табуляция). Если мы загрузим файл с другим разделителем и никак это не укажем, что загрузится совсем не то, что мы ожидали:
А если выставим нужный разделитель в качестве параметра, то все будет, как нужно:
Если в файле есть текст на кириллице, могут возникнуть проблемы при чтении файла или при его отображении. Решения могут быть разными (зависит от системы, ее параметров и самого файла). Вот некоторые из них.
Можно посмотреть, какая кодировка и какие языки определены системой по умолчанию:
Можно добавить русский язык:
А можно просто спеифицировать кодировку самого файла:
Будем считать, что с csv-файлами разобрались.
txt-файлы
При работе с txt-файлами необходимо указывать, каким образом столбцы отделены друг от друга (аргумент sep , разделитель, как и в случае в csv-файлами), а также учитывать, что представляет собой первая строка: наблюдение или шапку таблицы (аргумент header ). Откроем файл, в котором столбы разделены табуляцией и сравним, как он будет выглядеть при выставлении разных значений параметра header :
Теперь перейдем к другим форматам.
файлы Excel
Чтобы спокойно загружать xls-файлы и xlsx-файлы необходимо установить соответствующие библиотеки xls ( xlsx ).
Установим библиотеку xlsx . С ее установкой могут возникнуть проблемы: R будет писать что-то про rjava. Это обычно бывает, если на компьютере не установлена Java или установлена такая ее версия, которая конфликтует с R (например, недостаточно новая). Тогда Java можно поставить, скачав отсюда. После этого проблема должна исчезнуть.
Теперь обратимся к этой библиотеке - иначе открыть файл мы не сможем:
Наконец, откроем сам файл. Не забудьте указать номер листа после запятой (даже если он всего один), иначе не сработает.
файлы STATA
Для загрузки файлов STATA (файлы с расширением .dta ) потребуется библиотека foreign .
Теперь загрузим dta-файл.
файлы SPSS
Для загрузки файлов SPSS (файлы с расширением .sav ) потребуется библиотека Hmisc .
Сохранение файлов
Выгружаются данные из R аналогичным образом, но только вместо read в названиях функций используется write . Например, сохраним базу df в csv-формате:
Работа с базами данных
Описание базы данных
Загрузим более содержательную базу данных. Базу данных, которая использовалась в исследовании Druckman, Levendusky, McLain No Need to Watch: How the Effects of Partisan Media Can Spread via Inter-Personal Discussions (2017). Файл и codebook к базе данных можно найти здесь.
Какую информацию о базе данных мы можем получить?
Можем определить число наблюдений и число переменных в базе. Узнать это можно точно так же, как и размерность матрицы, ведь число строк - это число наблюдений, а число столбцов - это число переменных.
Можем узнать гораздо больше - структуру базы данных: число наблюдений и переменных, типы переменных и примеры значений, которые они принимают. Сделать это можно с помощью уже знакомой функции str() :
Также легко посмотреть на первые несколько значений:
Пропущенные значения
Посчитаем, сколько полностью заполненных наблюдений:
Соответственно, остальные (из 575) - недозаполненные (содержащие NAs).
Посмотрим на незаполненные строки:
Для дальнейшей работы с пропущенными значениями нам понадобятся дополнительные библиотеки. Установим их. Можно устанавливать сразу несколько библиотек – оформить перечень необходимых библиотек в виде вектора, и тогда сразу после установки одной библиотеки начнется загрузка следующей.
Обратимся к ним:
Выведем графики, которые покажут, в каких переменных пропущенных значений больше всего и как выглядит база с пропущенными значениями (паттерны пропущенных значений).
Следующий график отвечает за заполненность наблюдений (красным цветом отмечены пропущенные значения, остальное - заполненные значения, чем темнее цвет, тем больше значение). По вертикальной оси - номер строки в базе данных (id наблюдения).
Удаление пропущенных значений
При работе с базами данных необходимо удалить пропущенные значения (или правильно заполнить - кто умеет), потому что иначе мы не сможем полноценно работать с базой (многие функции не работают при наличии NAs, а у некоторых необходимо указывать дополнительный аргумент - учитывать NA или нет).
Выбор переменных
Если мы хотим обратиться к конкретной переменной и рассматривать ее как вектор элементов, нужно использовать символ $ .
Attach и detach
Мы можем “закрепить” базу данных с помощью команды attach, чтобы обращаться к переменным более простым способом:
Однако это не всегда удобно, особенно если приходится работать с несколькими базами одновременно (наложение переменных с одинаковыми именами, проблемы с редактированием и прочее).
Создание и добавление в базу новых переменных
Допустим, мы хотим добавить в базу переменную Session. Для этого нужно через $ задать имя новой переменной и присвоить ей значение:
Фильтрация наблюдений
Часто при работе с данными возникает необходимость выбрать несколько переменных или определенную группу наблюдений и анализировать их отдельно - чтобы не загружать каждый раз огромную базу с ненужными показателями.
Можем выбрать несколько переменных (столбцов) и сохранить их в другую базу:
Получится маленькая база из трех переменных. И сохраним как новую базу dat1:
Если выбираем столбцы не подряд, обязательно их номера нужно оформить в виде вектора:
В противном случае получится совсем не то:
Это “совсем не то” связано с тем, что, когда мы указываем в квадратных скобках числа через запятую, R воспринимает первое число как номер строки, второе число - как номер столбца (как в матрицах - сначала строка, потом столбец). Можем посмотреть на исходную базу и убедиться в этом:
Но таким образом мы можем выбирать строки (наблюдения):
Фильтрация по условиям
Если хотим отобрать из базы определенные наблюдения, это тоже можно сделать с помощью subset() (“фильтры”). Например, хотим выбрать респондентов с определенным уровнем образования:
Для указания нескольких условий опять потребуются логические операторы:
Конечно, можем отбирать наблюдения и переменные одновременно:
Удаление переменных
Чтобы удалить переменные, можно действовать двумя способами:
удалить их из базы
оставить все остальные переменные в базе
По смыслу это одно и то же. И то, и другое чаще всего осуществляется с помощью функции subset() .
Допустим, мы хотим выбрать переменные Educ и Female и сохранить их в новую базу:
Читайте также: