Удалить дубликаты excel python
Чтобы удалить дубликаты из списка Python при сохранении порядка элементов, используйте код Список (Dict.Fromkeys (список)) который проходит через две фазы: (1) Преобразуйте список в Dict, используя Dict.Fromkeys () Функция со списком элементов как клавиши и Нет как ценности диктов. (2) Преобразуйте словарь обратно в список, используя Список () конструктор. Поскольку словари сохраняют порядок ключей, заказание списка сохраняется.
Проблема : Как удалить дубликаты из Список Python Удерживая порядок консервированных элементов списка?
Вернувшаяся преобразование Список (набор (LST)) Удаляет все дубликаты из списка. Однако он не сохраняет порядок элементов. В примере строка «Алиса» Теперь появляется до целого числа 42 Отказ
Итак, как удалить дубликаты при сохранении порядка элементов?
Dict.Fromkeys () Способ создает новый словарь, используя элементы из итерапы, как клавиши. Словарь Python ключей уникальна по умолчанию, поэтому Преобразование нашего списка в словарь удалит дубликаты автоматически. Как только это было сделано с нашим первоначальным списком, преобразование результатов обратной стороны словаря в списке дубликатов.
Это самый питонический способ удалить дубликаты из списка Python при сохранении заказа.
Это метод быстро? Как наборы, словари используют Хэш таблицы , что означает, что они чрезвычайно быстры.
Вы хотите развивать навыки Хорошо округлый Python Professional То же оплачивается в процессе? Станьте питоном фрилансером и закажите свою книгу Оставляя крысиную гонку с Python На Amazon ( Kindle/Print )!
Словари Python сохраняют упорядочение ключа?
Удивительно, Словары ключей в Python сохраняют порядок элементов Отказ Итак, да, порядок элементов сохраняется. (источник)
Бесчисленные онлайн-ресурсы, такие как это утверждают, что порядок ключей словаря не сохранился. Они предполагают, что базовая реализация ключевых словарных ключей использует наборы -И наборы хорошо известны, что агностики к упорядочению элементов. Но это предположение не так. Встроенная реализация словаря Python в Cpefhon сохраняет заказ.
Вот еще один пример:
Вы видите, что порядок элементов сохраняется так при преобразовании его обратно, исходное упорядочение элементов списка все еще сохраняется:
Однако вы не можете полагаться на него, потому что любая реализация Python может, теоретически решать не сохранять порядок (обратите внимание, что «может» вот 100% теоретический и не распространяется на реализацию CPYPHON.
Если вам нужно уверены, что заказ сохраняется, вы можете использовать Заказанная библиотека словаря Отказ В CPYthon это просто обертка для реализации Dict Dict.
Источник статьи: Как удалить дубликаты из списка Python?
Удаление дубликатов из упорядоченных списков для более старых версий
Словари стало только приказано только во всех реализациях Python, когда был выпущен Python 3.7 (это также была деталь реализации CPYPHON 3.6).
Итак, если вы используете старую версию Python, вам нужно будет импортировать ЗаказДикт Класс из пакета коллекций в стандартной библиотеке вместо этого:
Выходной вывод является следующим дублированным свободным списком с заказом сохраненных элементов:
Interactive Code Shell.
Давайте попробуем этот метод в нашей интерактивной Python Shell:
Упражнение: Запустите код. Это работает?
Вы можете найти больше способов удаления дубликатов при сохранении заказа в этом подробном статье блога:
Похожие учебники: Список Python: удалите дубликаты и сохраняйте заказ
Куда пойти отсюда?
Достаточно теории, давайте познакомимся!
Чтобы стать успешным в кодировке, вам нужно выйти туда и решать реальные проблемы для реальных людей. Вот как вы можете легко стать шестифункциональным тренером. И вот как вы польские навыки, которые вам действительно нужны на практике. В конце концов, что такое использование теории обучения, что никто никогда не нуждается?
Вы хотите стать мастером кода, сосредоточившись на практических кодовых проектах, которые фактически зарабатывают вам деньги и решают проблемы для людей?
Работая в качестве исследователя в распределенных системах, доктор Кристиан Майер нашел свою любовь к учению студентов компьютерных наук.
Его страсти пишут, чтение и кодирование. Но его величайшая страсть состоит в том, чтобы служить стремлению кодер через Finxter и помогать им повысить свои навыки. Вы можете присоединиться к его бесплатной академии электронной почты здесь.
Как удалить дубликаты из списка в Python. Мы можем использовать функцию Set (), временный список, функцию понимания списка и счетчика () для удаления дубликатов.
Есть много способов удалить дубликаты из списка Python.
- Использование временного списка и цикла
- Использование Set () Встроенный метод
- Использование Словарь Ключи
- Функция подсчета списка ()
- Список понимания
Удаление дубликатов из списка
Список Python может содержать дубликаты элементов. Давайте посмотрим на примеры удаления дубликатов элементов по-разному.
1. Использование временного списка
Это способ Brute-Force для удаления дубликатов элементов из списка. Мы создадим временный список и добавление элементов к нему только в том случае, если оно нет.
Выход : Обновленный список после удаления дубликатов = [1, 2, 3, 4]
Рекомендуемое чтение : Python F-струны
2. Установите () Функция
Набор Python не имеет дублирующих элементов. Мы можем использовать функцию встроенного SET () для преобразования списка в набор, затем используйте функцию списка (), чтобы преобразовать его обратно в список.
3. Список элементов как словарные ключи
Мы знаем, что словарные ключи уникальны. Класс Dict имеет функцию pruekeys (), которая принимает счетчику для создания словаря с ключами от Iterable.
Метод подсчета списка () возвращает количество вхождений значения. Мы можем использовать его с помощью метода удаления () для устранения дубликатов элементов из списка.
Примечание. Как указано в следующем комментарии, использование функции COUNT () не рекомендуется при удалении элемента из одного и того же итератора, потому что он может привести к нежелательным результатам.
5. Список понимания
Мы можем создать список из намерения с использованием понимания списка. Эта техника такая же, как использование временного списка и цикла для удаления дубликатов элементов. Но это уменьшает количество строк кода.
Лучший способ удалить дубликаты из списка
Если вы не хотите дубликаты элементов, вы должны использовать набор. Но, если вам нужно удалить дубликаты значения из списка, то я бы предпочел функцию Count (), потому что она не создает другой временный набор или объект списка. Итак, это больше памяти эффективен.
I have downloaded a CSV file from hotmail, but it has a lot of duplicates in it. These duplicates are complete copies and I don't know why my phone created them.
I want to get rid of the duplicates.
Approach
Write a python script to remove duplicates.
Technical specification
659 2 2 gold badges 11 11 silver badges 26 26 bronze badges6 Answers 6
UPDATE: 2016
If you are happy to use the helpful more_itertools external library:
A more efficient version of @IcyFlame's solution
To edit the same file in-place you could use this
You can achieve deduplicaiton efficiently using Pandas, install pandas using
You can use the following script:
pre-condition:
- 1.csv is the file that consists the duplicates
- 2.csv is the output file that will be devoid of the duplicates once this script is executed.
code
Algorithm Explanation
Here, what I am doing is:
- opening a file in the read mode. This is the file that has the duplicates.
- Then in a loop that runs till the file is over, we check if the line has already encountered.
- If it has been encountered than we don't write it to the output file.
- If not we will write it to the output file and add it to the list of records that have been encountered already
I know this is long settled, but I have had a closely related problem whereby I was to remove duplicates based on one column. The input csv file was quite large to be opened on my pc by MS Excel/Libre Office Calc/Google Sheets; 147MB with about 2.5 million records. Since I did not want to install a whole external library for such a simple thing, I wrote the python script below to do the job in less than 5 minutes. I didn't focus on optimization, but I believe it can be optimized to run faster and more efficient for even bigger files. The algorithm is similar to @IcyFlame above, except that I am removing duplicates based on a column ('CCC') instead of whole row/line.
A more efficient version of @jamylak's solution: (with one less instruction)
To edit the same file in-place you could use this
You can do using pandas library in jupyter notebook or relevant IDE, I m importing pandas to jupyter notebook and reading the csv file
Then sort the values,accordingly by which parameters duplicates are present, since I have defined two attributes first it will sort by time, then by latitude
Then remove duplicates as present in time column or column relevant as per you
In the article, Python scripts to format data in Microsoft Excel, we used Python scripts for creating an excel and do various data formatting. Python is an interesting high-level programming language. You can go through various use cases of Python on SQLShack.
In this article, we will look at removing duplicate data from excel using the Python.
A quick recap of removing duplicate rows in Microsoft Excel
Suppose we have the following data in an excel sheet. We want to get rid of duplicate values in this sheet.
In Microsoft Excel, we use the Remove Duplicates button from the Data menu. This option checks duplicate values and retains the FIRST unique value and removes other values.
Let’s click on Remove Duplicates and select all columns.
Click ok, and it removes the duplicate values 3 duplicate values and retains 5 unique values.
We have the following data after removing duplicates from this.
Suppose you are working in excel using Python language. If that excel contains duplicate values, we might not want to use Excel functionalities for it. Our script should be capable of handling such duplicate data and remove per our requirements such as remove all duplicates, remove all but the last duplicate, remove all but first duplicate.
Let’s look at the Python way of handling duplicate data in excel.
Python scripts for removing duplicates in an excel
Before we start with Python, make sure you run through the pre-requisites specified in the article, Python scripts to format data in Microsoft Excel.
Launch SQL Notebook in Azure Data Studio and verify pandas, NumPy packages existence. You can click on Manage Extensions in Azure Data Studio for it.
Once you click on Manage Packages, it gives you a list of installed packages. Here, we can see both pandas and NumPy package along with pip utility.
We use the pandas read_excel() function to import an excel file. Create a new code block in SQL Notebook and execute the code. Here, the print statement prints the data frame that consists of excel sheet data.
First, we import the pandas library to read and write the excel sheets.
In this data, few columns contain NaN in the remarks column. Python display NaN for the cells that do not have any value/text.
Читайте также: