Как получить список файлов в папке python
Эта статья посвящена работе с файлами (вводу/выводу) в Python: открытие, чтение, запись, закрытие и другие операции.
Файлы Python
Файл — это всего лишь набор данных, сохраненный в виде последовательности битов на компьютере. Информация хранится в куче данных (структура данных) и имеет название «имя файла» (filename).
В Python существует два типа файлов:
Текстовые файлы
Это файлы с человекочитаемым содержимым. В них хранятся последовательности символов, которые понимает человек. Блокнот и другие стандартные редакторы умеют читать и редактировать этот тип файлов.
Текст может храниться в двух форматах: ( .txt ) — простой текст и ( .rtf ) — «формат обогащенного текста».
Бинарные файлы
В бинарных файлах данные отображаются в закодированной форме (с использованием только нулей (0) и единиц (1) вместо простых символов). В большинстве случаев это просто последовательности битов.
Они хранятся в формате .bin .
Любую операцию с файлом можно разбить на три крупных этапа:
- Открытие файла
- Выполнение операции (запись, чтение)
- Закрытие файла
Открытие файла
Метод open()
В Python есть встроенная функция open() . С ее помощью можно открыть любой файл на компьютере. Технически Python создает на его основе объект.
- file_name = имя открываемого файла
- access_mode = режим открытия файла. Он может быть: для чтения, записи и т. д. По умолчанию используется режим чтения ( r ), если другое не указано. Далее полный список режимов открытия файла
Пример
Создадим текстовый файл example.txt и сохраним его в рабочей директории.
Следующий код используется для его открытия.
В этом примере f — переменная-указатель на файл example.txt .
Следующий код используется для вывода содержимого файла и информации о нем.
Стоит обратить внимание, что в Windows стандартной кодировкой является cp1252 , а в Linux — utf-08 .
Закрытие файла
Метод close()
После открытия файла в Python его нужно закрыть. Таким образом освобождаются ресурсы и убирается мусор. Python автоматически закрывает файл, когда объект присваивается другому файлу.
Существуют следующие способы:
Способ №1
Проще всего после открытия файла закрыть его, используя метод close() .
После закрытия этот файл нельзя будет использовать до тех пор, пока заново его не открыть.
Способ №2
Также можно написать try/finally , которое гарантирует, что если после открытия файла операции с ним приводят к исключениям, он закроется автоматически.
Без него программа завершается некорректно.
Вот как сделать это исключение:
Файл нужно открыть до инструкции try , потому что если инструкция open сама по себе вызовет ошибку, то файл не будет открываться для последующего закрытия.
Этот метод гарантирует, что если операции над файлом вызовут исключения, то он закроется до того как программа остановится.
Способ №3
Инструкция with
Еще один подход — использовать инструкцию with , которая упрощает обработку исключений с помощью инкапсуляции начальных операций, а также задач по закрытию и очистке.
В таком случае инструкция close не нужна, потому что with автоматически закроет файл.
Вот как это реализовать в коде.
Чтение и запись файлов в Python
В Python файлы можно читать или записывать информацию в них с помощью соответствующих режимов.
Функция read()
Функция read() используется для чтения содержимого файла после открытия его в режиме чтения ( r ).
Синтаксис
- file = объект файла
- size = количество символов, которые нужно прочитать. Если не указать, то файл прочитается целиком.
Пример
Функция readline()
Функция readline() используется для построчного чтения содержимого файла. Она используется для крупных файлов. С ее помощью можно получать доступ к любой строке в любой момент.
Пример
Создадим файл test.txt с нескольким строками:
Посмотрим, как функция readline() работает в test.txt .
Обратите внимание, как в последнем случае строки отделены друг от друга.
Функция write()
Функция write() используется для записи в файлы Python, открытые в режиме записи.
Если пытаться открыть файл, которого не существует, в этом режиме, тогда будет создан новый.
Синтаксис
Пример
Предположим, файла xyz.txt не существует. Он будет создан при попытке открыть его в режиме чтения.
Переименование файлов в Python
Функция rename()
Функция rename() используется для переименовывания файлов в Python. Для ее использования сперва нужно импортировать модуль os.
- src = файл, который нужно переименовать
- dest = новое имя файла
Пример
Текущая позиция в файлах Python
В Python возможно узнать текущую позицию в файле с помощью функции tell() . Таким же образом можно изменить текущую позицию командой seek() .
Сразу прошу прощение за форматирования кода. @TODO : прикрутить модуль ! Допустим у нас на сервере есть каталог с файлами:
/var/www/mysite/files
photoes.zip
1.jpg
2.jpg
3.jpg
im.jpg
document.pdf
Чтобы получить содержимое этого каталога в виде списка, можно воспользоваться встроенным модулем os:
В результате files будет равна:
['photoes.zip', '1.jpg', '2.jpg', '3.jpg', 'im.jpg', 'document.pdf']
Если нужно получить файлы только определенного типа, их можно отфильтровать по расширению:
Теперь в переменной images такой список:
Немного магии от модуля os
os.walk() - возвращает объект-генератор. Из полученного объекта можно получить кортежи
для каждого каталога в переданной walk файловой иерархии. Каждый кортеж состоит из трех
элементов:
1. Абсолютный адрес очередного каталога (строка).
2. Имена (без адреса) подкаталогов первого уровня для текущего каталога (список).
3. Имена (без адреса) файлов данного каталога.
Посмотрим, как это работает. Допустим, у нас есть такое дерево каталогов:
tree = os.walk('/home/pl/mydir')
На что же ссылается tree? Попробуем просто получить данные, связанные с данной переменной.
В результате видим
Итак, есть объект-генератор. Поскольку полученный объект генерирует кортежи, количество
которых равно количеству каталогов в дереве, то можно их получить с помощью цикла for и,
например, вывести на экран
for d in tree:
print (d)
В соответствии с вышеуказанным деревом каталогов получится следующее:
('/home/pl/mydir', ['dir2a', 'dir2b'], ['mash187.pas', 'mash189.pas', 'menu_.php', 'xorg.conf', 'клав_тренажер.odt', 'Расписание 2004.xls'])
('/home/pl/mydir\\dir2a', ['dir3'], ['less1.doc', 'Patro_Nia.ogg', 'Расписание 2004.doc'])
('/home/pl/mydir\\dir2a\\dir3', [], ['bottom_.php', 'equador.mid', 'less1.html', 'net_Alt.txt', 'poly995.mid', 'top_.php'])
('/home/pl/mydir\\dir2b', [], ['clear.jpg', 'fon1.jpg', 'logo4.jpg', 'okulov245.pas', 'okulov273.pas', 'plan1.jpg', 'plan2.jpg'])
Если мы еще раз запустим цикл с переменной tree, то уже ничего не получим. Дело в том,
что объект-генератор, с которым переменная была связана, уже был использован, он выдал
свое содержимое и больше его не содержит. Поэтому, если требуется сохранить кортежи для
последующий обработки, то лучше сохранить их, например, в списке:
>>> import os
>>> pdir = 'G:/projects/pythoner.info/pypath/mydir'
>>> contdir = []
>>> for i in os.walk(pdir):
contdir.append(i)
>>> for i in contdir:
print (i)
('G:/projects/pythoner.info/pypath/mydir', ['dir2a', 'dir2b'], ['mash187.pas', 'mash189.pas', 'menu_.php', 'sg30.thm', 'xorg.conf', 'клав_тренажер.odt', 'Расписание 2004.xls'])
('G:/projects/pythoner.info/pypath/mydir\\dir2a', ['dir3'], ['less1.doc', 'Patro_Nia.ogg', 'Thumbs.db', 'Расписание 2004.doc'])
('G:/projects/pythoner.info/pypath/mydir\\dir2a\\dir3', [], ['equador.mid', 'fon1.jpg', 'logo4.jpg', 'logos.bmp', 'net_Alt.txt', 'plan1.jpg', 'poly995.mid', 'Thumbs.db', 'top_.php'])
('G:/projects/pythoner.info/pypath/mydir\\dir2b', [], ['bottom_.php', 'clear.jpg', 'less1.html', 'okulov245.pas', 'okulov273.pas', 'plan2.jpg', 'sg30.sdv'])
С помощью функции walk() можно получить имена файлов с тем, чтобы в дальнейшем с ними
что-нибудь делать с помощью других методов Python и его модулей. Получить их можно,
извлекая из третьего элемента каждого кортежа. Сделать это можно так, как показано ниже:
for d, dirs, files in os.walk('c:/mydir'):
for f in files:
print (f)
for d, dirs, files in os.walk('c:/mydir'):
print (files)
['mash187.pas', 'mash189.pas', 'menu_.php', 'xorg.conf', 'клав_тренажер.odt', 'Расписание 2004.xls']
['less1.doc', 'Patro_Nia.ogg', 'Расписание 2004.doc']
['bottom_.php', 'equador.mid', 'less1.html', 'net_Alt.txt', 'poly995.mid', 'top_.php']
['clear.jpg', 'fon1.jpg', 'logo4.jpg', 'okulov245.pas', 'okulov273.pas', 'plan1.jpg', 'plan2.jpg']
>>> path_f
['c:/mydir\\mash187.pas', 'c:/mydir\\mash189.pas', 'c:/mydir\\menu_.php', 'c:/mydir\\xorg.conf', 'c:/mydir\\клав_тренажер.odt', 'c:/mydir\\Расписание 2004.xls', 'c:/mydir\\dir2a\\less1.doc', 'c:/mydir\\dir2a\\Patro_Nia.ogg', 'c:/mydir\\dir2a\\Расписание 2004.doc', 'c:/mydir\\dir2a\\dir3\\bottom_.php', 'c:/mydir\\dir2a\\dir3\\equador.mid', 'c:/mydir\\dir2a\\dir3\\less1.html', 'c:/mydir\\dir2a\\dir3\\net_Alt.txt', 'c:/mydir\\dir2a\\dir3\\poly995.mid', 'c:/mydir\\dir2a\\dir3\\top_.php', 'c:/mydir\\dir2b\\clear.jpg', 'c:/mydir\\dir2b\\fon1.jpg', 'c:/mydir\\dir2b\\logo4.jpg', 'c:/mydir\\dir2b\\okulov245.pas', 'c:/mydir\\dir2b\\okulov273.pas', 'c:/mydir\\dir2b\\plan1.jpg', 'c:/mydir\\dir2b\\plan2.jpg']
Пример имеет, скорее всего, демонстрирующее, а не практическое значение, т.к.
результирующий список содержит повторяющиеся части строк. Поэтому лучше напрямую работать с
кортежем, извлеченным из объекта-генератора.
Обработка файлов в Python с помощью модуля os включает создание, переименование, перемещение, удаление файлов и папок, а также получение списка всех файлов и каталогов и многое другое.
В индустрии программного обеспечения большинство программ тем или иным образом обрабатывают файлы: создают их, переименовывают, перемещают и так далее. Любой программист должен обладать таким навыком. С этим руководством вы научитесь использовать модуль os в Python для проведения операций над файлами и каталогами вне зависимости от используемой операционной системы.
Важно знать, что модуль os используется не только для работы с файлами. Он включает массу методов и инструментов для других операций: обработки переменных среды, управления системными процессами, а также аргументы командной строки и даже расширенные атрибуты файлов, которые есть только в Linux.
Модуль встроенный, поэтому для работы с ним не нужно ничего устанавливать.
Вывод текущей директории
Для получения текущего рабочего каталога используется os.getcwd() :
os.getcwd() возвращает строку в Юникоде, представляющую текущий рабочий каталог. Вот пример вывода:
Создание папки
Для создания папки/каталога в любой операционной системе нужна следующая команда:
После ее выполнения в текущем рабочем каталоге тут же появится новая папка с названием «folder».
Если запустить ее еще раз, будет вызвана ошибка FileExistsError , потому что такая папка уже есть. Для решения проблемы нужно запускать команду только в том случае, если каталога с таким же именем нет. Этого можно добиться следующим образом:
Функция os.path.isdir() вернет True , если переданное имя ссылается на существующий каталог.
Изменение директории
Менять директории довольно просто. Проделаем это с только что созданным:
Еще раз выведем рабочий каталог:
Создание вложенных папок
Предположим, вы хотите создать не только одну папку, но и несколько вложенных:
Это создаст три папки рекурсивно, как показано на следующем изображении:
Создание файлов
Для создания файлов в Python модули не нужны. Можно использовать встроенную функцию open() . Она принимает название файла, который необходимо создать в качестве первого параметра и желаемый режим открытия — как второй:
w значит write (запись), a — это appending (добавление данных к уже существующему файлу), а r — reading (чтение). Больше о режимах открытия можно почитать здесь.
Переименование файлов
С помощью модуля os достаточно просто переименовать файл. Поменяем название созданного в прошлом шаге.
В этом уроке я расскажу вам о нескольких способах составления списка каталогов в Python, позволяющих получить имена всех файлов и папок.
Для примера возьмем каталог с содержимым, которое выглядит следующим образом:
Список каталогов в Python с помощью функции listdir()
Чтобы просмотреть каталог в Python, просто используйте функцию listdir() модуля os.
Эта функция принимает в качестве аргумента путь к расположению директории и возвращает список имен файлов и папок, которые она содержит. Если аргумент не передан, то в качестве ссылки используется текущая папка.
Проблема с использованием функции listdir() заключается в том, что она не позволяет отличить, являются ли перечисленные объекты файлами или каталогами.
Для этого нам необходимо использовать другие функции, такие как isfile() или isdir() из модуля os.path.
Например, чтобы отобразить файлы типа jpg, можно сделать следующее:
Результат выполнения приведенного выше кода над тестовым каталогом следующий:
Обход каталога в Python с помощью функции scandir()
Если вам необходимо каким-то образом отфильтровать элементы, возвращаемые функцией listdir(), лучшим способом обхода каталога в Python является использование функции scandir(), также содержащейся в модуле os.
ПРИМЕЧАНИЕ: Эта функция была добавлена в Python версии 3.5. В настоящее время это рекомендуемый Python способ обхода каталога.
Эта функция на самом деле действует как итератор, а не возвращает список.
Более того, она не только извлекает имена файлов, но и возвращает объекты DirEntry, которые, помимо имени, содержат другие атрибуты, указывающие на то, является ли объект файлом, каталогом, его номер inode или полный путь.
Рассмотрим пример использования функции scandir() для перечисления файлов в каталоге в Python:
В результате мы получим следующее:
Как вы видите, scandir() используется в сочетании с оператором with, поскольку он поддерживает обработчики контекста.
Когда scandir() выполняется вместе с with, итератор закрывается, а все ресурсы, используемые итератором, освобождаются после его завершения.
Перечисление файлов в каталоге с помощью функции iterdir()
Еще одним модулем Python, предоставляющим функциональность для перебора каталогов и просмотра их содержимого, является модуль pathlib.
Этот модуль предлагает ряд объектов и свойств, которые позволяют выполнять наиболее распространенные операции над файлами и каталогами простым и эффективным способом.
Чтобы перечислить каталог с помощью pathlib, мы должны создать объект Path, который, в зависимости от используемой операционной системы, будет иметь тип PosixPath или WindowsPath.
Эти объекты Path имеют метод iterdir(), который создает итератор, проходящий через все файлы и папки в каталоге.
Кроме того, объекты класса Path содержат такие свойства, как name, с именем файла, и такие методы, как is_file() или is_dir(), которые позволяют проверить, является ли он файлом или каталогом.
Вот пример использования pathlib:
В результате мы получим:
Рекомендуемые методы
Примеры
Далее мы увидим, как применять фильтры для просмотра только файлов, только определенных файлов или только подкаталогов данного каталога.
Читайте также: