Как в гретл загрузить данные из экселя
Если Вы только начинаете свой путь знакомства с возможностями Python, ваши познания еще имеют начальный уровень — этот материал для Вас. В статье мы опишем, как можно извлекать информацию из данных, представленных в Excel файлах, работать с ними используя базовый функционал библиотек. В первой части статьи мы расскажем про установку необходимых библиотек и настройку среды. Во второй части — предоставим обзор библиотек, которые могут быть использованы для загрузки и записи таблиц в файлы с помощью Python и расскажем как работать с такими библиотеками как pandas, openpyxl, xlrd, xlutils, pyexcel.
В какой-то момент вы неизбежно столкнетесь с необходимостью работы с данными Excel, и нет гарантии, что работа с таким форматами хранения данных доставит вам удовольствие. Поэтому разработчики Python реализовали удобный способ читать, редактировать и производить иные манипуляции не только с файлами Excel, но и с файлами других типов.
Отправная точка — наличие данных
Когда вы начинаете проект по анализу данных, вы часто сталкиваетесь со статистикой собранной, возможно, при помощи счетчиков, возможно, при помощи выгрузок данных из систем типа Kaggle, Quandl и т. д. Но большая часть данных все-таки находится в Google или репозиториях, которыми поделились другие пользователи. Эти данные могут быть в формате Excel или в файле с .csv расширением.
Данные есть, данных много. Анализируй — не хочу. С чего начать? Первый шаг в анализе данных — их верификация. Иными словами — необходимо убедиться в качестве входящих данных.
В случае, если данные хранятся в таблице, необходимо не только подтвердить качество данных (нужно быть уверенным, что данные таблицы ответят на поставленный для исследования вопрос), но и оценить, можно ли доверять этим данным.
Проверка качества таблицы
Чтобы проверить качество таблицы, обычно используют простой чек-лист. Отвечают ли данные в таблице следующим условиям:
- данные являются статистикой;
- различные типы данных: время, вычисления, результат;
- данные полные и консистентные: структура данных в таблице — систематическая, а присутствующие формулы — работающие.
Бест-практикс табличных данных
Читать данные таблицы при помощи Python — это хорошо. Но данные хочется еще и редактировать. Причем редактирование данных в таблице, должно соответствовать следующим условиям:
Если вы работаете с Microsoft Excel, вы наверняка знаете, что есть большое количество вариантов сохранения файла помимо используемых по умолчанию расширения: .xls или .xlsx (переходим на вкладку “файл”, “сохранить как” и выбираем другое расширение (наиболее часто используемые расширения для сохранения данных с целью анализа — .CSV и.ТХТ)). В зависимости от варианта сохранения поля данных будут разделены знаками табуляции или запятыми, которые составляют поле “разделитель”. Итак, данные проверены и сохранены. Начинаем готовить рабочее пространство.
Подготовка рабочего пространства
Подготовка рабочего пространства — одна из первых вещей, которую надо сделать, чтобы быть уверенным в качественном результате анализа.
Первый шаг — проверка рабочей директории.
Когда вы работаете в терминале, вы можете сначала перейти к директории, в которой находится ваш файл, а затем запустить Python. В таком случае необходимо убедиться, что файл находится в директории, из которой вы хотите работать.
Для проверки дайте следующие команды:
Эти команды важны не только для загрузки данных, но и для дальнейшего анализа. Итак, вы прошли все проверки, вы сохранили данные и подготовили рабочее пространство. Уже можно начать чтение данных в Python? :) К сожалению пока нет. Нужно сделать еще одну последнюю вещь.
Установка пакетов для чтения и записи Excel файлов
Несмотря на то, что вы еще не знаете, какие библиотеки будут нужны для импорта данных, нужно убедиться, что у все готово для установки этих библиотек. Если у вас установлен Python 2> = 2.7.9 или Python 3> = 3.4, нет повода для беспокойства — обычно, в этих версиях уже все подготовлено. Поэтому просто убедитесь, что вы обновились до последней версии :)
Для этого запустите в своем компьютере следующую команду:
В случае, если вы еще не установили pip, запустите скрипт python get-pip.py, который вы можете найти здесь (там же есть инструкции по установке и help).
Установка Anaconda
Установка дистрибутива Anaconda Python — альтернативный вариант, если вы используете Python для анализа данных. Это простой и быстрый способ начать работу с анализом данных — ведь отдельно устанавливать пакеты, необходимые для data science не придется.
Это особенно удобно для новичков, однако даже опытные разработчики часто идут этим путем, ведь Anakonda — удобный способ быстро протестировать некоторые вещи без необходимости устанавливать каждый пакет отдельно.
Anaconda включает в себя 100 наиболее популярных библиотек Python, R и Scala для анализа данных в нескольких средах разработки с открытым исходным кодом, таких как Jupyter и Spyder. Если вы хотите начать работу с Jupyter Notebook, то вам сюда.
Чтобы установить Anaconda — вам сюда.
Загрузка файлов Excel как Pandas DataFrame
Ну что ж, мы сделали все, чтобы настроить среду! Теперь самое время начать импорт файлов.
Один из способов, которым вы будете часто пользоваться для импорта файлов с целью анализа данных — импорт с помощью библиотеки Pandas (Pandas — программная библиотека на языке Python для обработки и анализа данных). Работа Pandas с данными происходит поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Pandas — мощная и гибкая библиотека и она очень часто используется для структуризации данных в целях облегчения анализа.
Если у вас уже есть Pandas в Anaconda, вы можете просто загрузить файлы в Pandas DataFrames с помощью pd.Excelfile ():
Если вы не установили Anaconda, просто запустите pip install pandas, чтобы установить пакет Pandas в вашей среде, а затем выполните команды, приведенные выше.
Для чтения .csv-файлов есть аналогичная функция загрузки данных в DataFrame: read_csv (). Вот пример того, как вы можете использовать эту функцию:
Разделителем, который эта функция будет учитывать, является по умолчанию запятая, но вы можете, если хотите, указать альтернативный разделитель. Перейдите к документации, если хотите узнать, какие другие аргументы можно указать, чтобы произвести импорт.
Как записывать Pandas DataFrame в Excel файл
Предположим, после анализа данных вы хотите записать данные в новый файл. Существует способ записать данные Pandas DataFrames (с помощью функции to_excel ). Но, прежде чем использовать эту функцию, убедитесь, что у вас установлен XlsxWriter, если вы хотите записать свои данные на несколько листов в файле .xlsx:
Обратите внимание, что в фрагменте кода используется объект ExcelWriter для вывода DataFrame. Иными словами, вы передаете переменную writer в функцию to_excel (), и указываете имя листа. Таким образом, вы добавляете лист с данными в существующую книгу. Также можно использовать ExcelWriter для сохранения нескольких разных DataFrames в одной книге.
То есть если вы просто хотите сохранить один файл DataFrame в файл, вы можете обойтись без установки библиотеки XlsxWriter. Просто не указываете аргумент, который передается функции pd.ExcelWriter (), остальные шаги остаются неизменными.
Подобно функциям, которые используются для чтения в .csv-файлах, есть также функция to_csv () для записи результатов обратно в файл с разделителями-запятыми. Он работает так же, как когда мы использовали ее для чтения в файле:
Если вы хотите иметь отдельный файл с вкладкой, вы можете передать a \ t аргументу sep. Обратите внимание, что существуют различные другие функции, которые можно использовать для вывода файлов. Их можно найти здесь.
Использование виртуальной среды
Общий совет по установке библиотек — делать установку в виртуальной среде Python без системных библиотек. Вы можете использовать virtualenv для создания изолированных сред Python: он создает папку, содержащую все необходимое для использования библиотек, которые потребуются для Python.
Чтобы начать работу с virtualenv, сначала нужно его установить. Потом перейти в директорию, где будет находится проект. Создать virtualenv в этой папке и загрузить, если нужно, в определенную версию Python. После этого активируете виртуальную среду. Теперь можно начинать загрузку других библиотек и начинать работать с ними.
Не забудьте отключить среду, когда вы закончите!
Обратите внимание, что виртуальная среда может показаться сначала проблематичной, если вы делаете первые шаги в области анализа данных с помощью Python. И особенно, если у вас только один проект, вы можете не понимать, зачем вообще нужна виртуальная среда.
Но что делать, если у вас несколько проектов, работающих одновременно, и вы не хотите, чтобы они использовали одну и ту же установку Python? Или если у ваших проектов есть противоречивые требования. В таких случаях виртуальная среда — идеальное решение.
Во второй части статьи мы расскажем об основных библиотеках для анализа данных.
Продолжение следует…
Поскольку большинству присутствующих на форуме не нужен весь функционал, который даёт R, а также работа в консоли приятна не всем: народ хочет кляцкать мышой, рассмотрим другой бесплатный пакет -- GRETL = GNU Regression, Econometrics and Time-series Library (Библиотека для регрессий, эконометрики и временных рядов).
Рассмотрим кратко задачу с множественной линейной регрессией. Данные перегнаны из R в Excel. Файл Excel импортирован и сохранен в формате gretl (см. вложение).
Загружаем этот файл и видим вот такое окно.
Дальше строим 3D график.
График выглядит так.
Его можно вращать с помощью мыши.
Вот тут меня спрашивали, Хогфазер, атэц, что же ты Ыкс то выкинул. На картинке, надеюсь, видно, что Ыкс у нас не при делах.
Опускаем всю лирику, которая была в предыдущей статье. Алгоритм от инструмента не зависит. Эту задачу и в Excel решить можно, просто мене удобно. Создаем новую переменную.
Дальше в меню "Модель" выбираем "Метод наименьших квадратов. "
Заполняем формочку.
Устраняем лишнее (в модели: меню Правка - Изменить модель) и приходим к той же модели, что была рассмотрена в заметке по R.
Прямо в модели делаем тест на нормальность остатков
Там еще много чего полезного в меню есть, но пока хватит.Sapienti Sat. "Soon may the Wellerman come to bring us sugar and tea and rum"
Вот тут наши корреспонденты интересуются, мол зачем тогда R, если все так чудесно в GRETL. Действительно, работа с регрессией и временными рядами там выше всяческих похвал. Более того, своим студентам я рекомендовал на флешке держать portable версию gretl, чтобы в любой аудитории можно было продолжить начатое. Но, при всех его удобствах, GRETL заточен на решение специфических задач. Если нам нужен серьезный анализ, то в R это сделать проще и быстрее.
К счастью, есть возможность работать с R прямо из GRETL, для этого в меню "Инструменты" выбираем "Запустить R". В сеансе R мы увидим строчку.
А дальше уже проще. Это именно наши данные и можно с ними делать все что хочется. А если учесть, что gretl читает Excel'овские файлы, то жизнь становится не столько прекрасна, сколько удивительна.
Вот Вам, пожалуйста, первые строки нашей таблицы
А дальше можно делать всё то шаманство, которое описано в заметке по R.
Другой вариант, работать со скриптами R, которые можно создать из меню Файл-Скрипты-Новый скрипт-Скрипт для R
Пишем скрипт
Нажимаем "шестереночки", которые означают выполнить. Выбираем интерактивный режим. Получаем в R
Вот в таком вот акцепте.
"Soon may the Wellerman come to bring us sugar and tea and rum" Есть ли у Вас руководство пользователя GRETL на русском языке?Как такового руководства на русском я не видел. Единственное, что могу порекомендовать:
Тадеуш Куфель
Эконометрика. Решение задач с применением пакета программ GRETL
Издательство: Горячая Линия - Телеком
ISBN 5-93517-307-7, 83-0114284-7; 2007 г.
200 стр.
Но электронной копии пока не нашел (я себе эту книгу покупал). Электронная копия доступна вот тут, но качество то еще.
Добавлено через 14 часов 22 минуты
Уважаемый Hogfather! Подскажите, пожалуйста, на форуме описан этот процесс: "Данные перегнаны из R в Excel. Файл Excel импортирован и сохранен в формате gretl"? |
Я надеялся, что это очевидно. Не угадал. Итак, разберемся с форматами, которые читает/пишет Gretl
1. Gretl умеет читать файлы Excel, включая последние версии. Данные должны быть в виде таблицы на отдельном листе, заголовки начинаются с ячейки A1 и идут по этой строке, данные -- с ячейки A2. Для того, чтобы прочитать такие данные, выбираем меню Файл-Открыть-Импорт-Excel
2. Текстовые/CSV файлы. Меню Файл-Открыть-Импорт-CSV, далее выбираем разделитель записей. При настроенной русской локализации Windows -- это, обычно, точка с запятой (;).
3. Прочее, включая OpenOffice (см. картинку)
Данные можно сохранять в формате Gretl (Файл-Сохранить и Файл-Сохранить как. ), а также экспортировать (Файл-Экспорт) все или часть данных в формат CSV, gretl, GNU R и несколько других.
Подслушано на экономе запись закреплена
Очень нужна помощь по эконометрике. Как правильно составить табличку в эксель, чтобы в гретле ее правильно выстроить в виде панельных данных? Скиньте пример пожалуйста, если можно
Один из вариантов вроде бы - по столбцам переменные, по строкам блоками данные для разных периодов. Например, 2 страны и 2 периода будут выглядеть как 4 строки : 2015 Россия; Турция; 2016 Россия; Турция. Если не получится, можешь написать, скину какую-нибудь эксельку
При загрузке панельных данных Гретль предлагает 3 варианта расположения данных:
1. "Объединённые временные ряды" (см. лист datadebt в прикреплённом файле) - когда сначала все данные за все периоды для первого объекта, под ними за все периоды для второго объекта.
2. "Объединённые перекрёстные данные" (см. лист New) - сначала данные за первый период для всех объектов, затем за второй период для всех объектов и т. д.
3. "Использовать индексную переменную" - самый простой вариант, при котором точно не ошибёшься. Нужно заранее создать в эксель 2 новых столбца - номер объекта и год. В файле debtOECD1 это столбцы country и year. А расположение данных при этом может быть любым - и как в первом варианте, и как во втором.
Попробуйте загрузить пример в гретль - должно получиться 18 объектов и 30 периодов.
Конференция gretl-2015
Четвёртая конференция участников проекта gretl, проводящаяся раз в два года, прошла в Берлине 12–13 июня 2015 г.; подробности здесь. Предыдущие конференции состоялись в Оклахома-Сити (2013), Торуне (2011) и Бильбао (2009).
Особенности
Множество методов оценивания: наименьших квадратов (LS), максимального правдоподобия (ML), обобщённый метод моментов (GMM), метод одного уравнения и систем уравнений;
Инструментарий для анализа временных рядов: ARIMA, широкий спектр одномерных GARCH-моделей, VAR и VECM (включая структурный VAR), тесты на единичные корни и коинтеграцию, фильтр Калмана и проч.;
Оценивание панельных моделей, включая инструментальные переменные, пробит и динамические панели на основе обобщённого метода моментов (GMM);
Выдача результатов в формате LaTeX в форме таблицы или уравнения одним нажатием кнопки;
Мощный встроенный скриптовый язык hansl, содержащий большое количество функций для программирования и работы с матрицами;
Циклическая структура команд для симуляций методом Монте-Карло и итерационных процедур оценивания;
Графический интерфейс для тонкой настройки отображения графиков gnuplot;
Постоянно растущая база пользовательских функциональных пакетов, написанных на hansl;
Интеграция и обмен данными со статистическими пакетами GNU R, GNU Octave, Ox и Stata.
Поддерживаемые форматы данных
gretl поддерживает базы данных в следующих форматах: собственные данные формата XML; CSV (с различными разделителями); листы Excel, Gnumeric и Open Document; файлы .dta из Stata; файлы .sav из SPSS; рабочие файлы Eviews; данные JMulTi; собственные бинарные базы данных (поддержка данных смешанной частотности и разной длины), базы данных RATS 4 и PC-Give. При установке автоматически предоставляются примеры данных (по макроэкономике США). См. также страницу с наборами данных для gretl.
Исходный код последней стабильной версии
Если вы компилируете из исходников или устанавливаете уже скомпилированный исполняемый пакет, возможно, вам понадобится проверить зависимости gretl.
Программы для анализа временных рядов X-12-ARIMA и TRAMO/SEATS доступны в формате, подходящем для gretl под Linux (под Windows и Mac OS X см. соответствующие страницы).
Бинарный RPM для X-12-ARIMA
Бинарный tarball для X-12-ARIMA
Пакет Debian для X-12-ARIMA
Бинарный RPM для TRAMO/SEATS
Бинарный tarball для TRAMO/SEATS
Пакет Debian для TRAMO/SEATS
Gnuplot
Руководство пользователя
Руководство пользователя gretl состоит из трёх PDF-файлов: «Основное руководство» (User’s Guide), «Справочник по командам» (Command Reference) и «Коротко о hansl» (Hansl Primer). Версии на английском языке, свёрстанные под формат бумаги U.S. letter, уже включены в дистрибутивы и в исходные коды. По вашему желанию gretl может скачать другие версии (другого формата или на другом языке) из интернета (достаточно указать это в настройках). Файлы руководства также можно найти здесь.
Вы пользователь gretl?
Участие в разработке gretl
Как уже упоминалось выше, gretl написан большей частью на языке C, самом популярном среди всех открытых и свободных проектов. Тем не менее, не всем удобно писать на C. Однако это не является преградой для ваших наработок, которыми вы хотите поделиться: если вы написали хорошо специфицированный алгоритм, который выполняет какую-то интересную эконометрическую процедуру, то мы можем либо встроить его через интерфейс, либо переписать на C без особых затруднений. Мы будем рады принять программы на Fortran или C++, а также код на любом языке с высокоуровневым матричным манипулированием (Ox, Gauss, Octave, Matlab или R); сойдёт даже псевдокод, который пошагово описывает алгоритм интуитивно понятным языком без применения какого-либо языка программирования.
Исходный код на git
Благодарности
Многие отправляли нам полезные отчёты об ошибках и предложения по разработке gretl. Мы многим обязаны Ignacio Díaz-Emparanza, Tadeusz Kufel, Pawel Kufel, Dirk Eddelbuettel, Sven Schreiber и Andreas Rosenblad. A. Talha Yalta сыграл немаловажную роль в тщательной проверке численной точности gretl.
Выражаем благодарность William Greene, автору «Econometric Analysis», за разрешение включить вместе с программой некоторые наборы данных, относящиеся к интересным примерам из его книги.
Аллин Коттрелл (Allin Cottrell), Wake Forest University
Риккардо «Джек» Люччетти (Riccardo «Jack» Lucchetti), Università Politecnica delle Marche
Перевод страницы: Андрей Викторович Костырка (Andreï V. Kostyrka), Université Paris 1 Panthéon Sorbonne
Читайте также: