Как посчитать количество уникальных слов в ворде
Данная статья написана для тех, кто только начал изучать Python. В ней я пошагово опишу создание простого счетчика слов из txt-файлов, применяя Tkinter. Исходный код написан под Python 2.7, в конце статьи я добавлю несколько комментариев относительно того, как перенести его под 3.6
С чего начинаем?
Никаких незаурядных лестниц в программе не будет, так что рекомендую писать в IDLE; конечно же, без проблем можно писать и в PyCharm'е, и в Эклипсе.
Время создать первую и последнюю функцию, которая, собственно, будет выполнять все подсчёты:
Итак, что выполняет эта функция? Всё очевидно: открывает файл, считываем содержимое, убирает всякие символы и создает список из содержимого файла. Не стоит забывать убрать верхний регистр методом lower для корректной дальнейшей проверки на повторение слов. Дальше мы будем обрабатывать этот список. Фактически, считав длину этого списка функцией len, нам уже будет известно количество слов.
Количество уникальных слов
Чтобы посчитать кол-во уникальных слов, создадим ещё один список, в который будет через цикл заносить слова, которых ещё в нём не было:
Далее мы просто будет считывать длину списка nonrep_words.
Графическая оболочка
Для начала нам следует подключить соответствующие модули в нашу программу:
Теперь после определения нашей главной функции напишем код, который будет отображать главное окно, название нашей программки, кнопку «Импортировать файл» и поле вывода:
Вообще-то можно и не использовать фрейм для кнопки, лейбла и текстового поля, но если вы захотите на досуге добавить в дальнейшем ещё несколько каких-либо функций, то фрейм будет полезен для позиционирования.
При создании кнопки мы забиндили её на функцию counter.
Импорт файла и вывод
Здесь всё просто: чистим поле вывода методом delete, затем открываем файл методом askopenfilename и передаём его имя переменной filename.
Далее в конец функции добавим:
Здесь мы выводим длину двух списков: списка всех слов и списка уникальных слов.
Предположим, вам нужно узнать количество уникальных значений в диапазоне, который содержит повторяющиеся значения. Например, если столбец содержит:
Значения 5, 6, 7 и 6, результатом являются три уникальных значения : 5, 6 и 7.
Значения "Брэнли", "Дойл", "Дойл", "Дойл" — это два уникальных значения: "Андрей" и "Дойл".
Существует несколько способов подсчета уникальных значений среди дубликатов.
Подсчет количества уникальных значений с помощью фильтраВ диалоговом окне Расширенный фильтр можно извлечь уникальные значения из столбца данных и ввести их в новое место. Затем с помощью функции ЧСТРОК можно подсчитать количество элементов в новом диапазоне.
Выберем диапазон ячеек или убедитесь, что активная ячейка находится в таблице.
Убедитесь, что диапазон ячеек имеет заголовок столбца.
На вкладке Данные в группе Сортировка и фильтр нажмите кнопку Дополнительно.
Появится диалоговое окно Расширенный фильтр.
В поле Копировать в введите ссылку на ячейку.
Вы также можете нажать кнопку Свернуть , чтобы временно скрыть диалоговое окно, выбрать ячейку на этом сайте и нажать кнопку Развернуть .
Выберите поле Уникальные записи и нажмите кнопку ОК.
Уникальные значения из выбранного диапазона копируется в новое место, начиная с ячейки, указанной в поле Копировать в.
В пустой ячейке под последней ячейкой диапазона введите функцию СТРОКИ. Используйте диапазон уникальных значений, скопированные в качестве аргумента, исключая заголовок столбца. Например, если диапазон уникальных значений — B2:B45, введите =СТРОКИ(B2:B45).
Подсчет количества уникальных значений с помощью функцийДля этой задачи используйте сочетание функций ЕСЛИ,СУММ,ЧАСТОТА,НАЙТИИ LEN:
Назначьте значение 1 каждому из истинных условий с помощью функции ЕСЛИ.
Сложить итог с помощью функции СУММ.
Подсчет количества уникальных значений с помощью функции ЧАСТОТА. Функция ЧАСТОТА игнорирует текст и нулевые значения. Для первого вхождения определенного значения эта функция возвращает число, равное количеству его вхождений. Для каждого вхождения с одинаковым значением после первого функция возвращает ноль.
Возвращает положение текстового значения в диапазоне с помощью функции MATCH. Возвращаемая величина затем используется в качестве аргумента функции ЧАСТОТА для оценки соответствующих текстовых значений.
Находите пустые ячейки с помощью функции LEN. Пустые ячейки имеют длину 0.
Формулы, приведенные в этом примере, должны быть введены как формулы массива. Если у вас установлена текущая версия Microsoft 365, можно просто ввести формулу в верхней левой ячейке диапазона вывода и нажать клавишу ВВОД, чтобы подтвердить использование формулы динамического массива. Иначе формулу необходимо вводить с использованием прежней версии массива, выбрав диапазон вывода, введя формулу в левой верхней ячейке диапазона и нажав клавиши CTRL+SHIFT+ВВОД для подтверждения. Excel автоматически вставляет фигурные скобки в начале и конце формулы. Дополнительные сведения о формулах массива см. в статье Использование формул массива: рекомендации и примеры.
Чтобы оценить функцию пошаговую проверку, выйдите из ячейки, содержащей формулу, а затем на вкладке Формулы в группе Зависимости формул нажмите кнопку Вы оцениваете формулу.
Функция ЧАСТОТА вычисляет частоту ветвей значений в диапазоне значений и возвращает вертикальный массив чисел. Например, с помощью частоты можно подсчитать количество результатов тестирования, которые попадают в диапазоны оценок. Так как эта функция возвращает массив, она должна быть введена как формула массива.
Функция ПОИСК ПОИСК ПО ищет указанный элемент в диапазоне ячеек, а затем возвращает его относительную позицию в диапазоне. Например, если диапазон A1:A3 содержит значения 5, 25 и 38, формула =MATCH(25;A1:A3;0) возвращает число 2, поскольку 25 является вторым элементом в диапазоне.
Функция LEN возвращает количество символов в текстовой строке.
Функция СУММ вычисляет сумму всех чисел, указанных в качестве аргументов. Каждый аргумент может быть диапазоном, ссылкой на ячейку, массивом, константой, формулой или результатом другой функции. Например, СУММ(A1:A5) суммирует все числа, содержащиеся в ячейках A1–A5.
Функция ЕСЛИ возвращает одно значение, если условие, которое вы указываете, возвращает значение ИСТИНА, и другое, если условие возвращает значение ЛОЖЬ.
Дополнительные сведения
Вы всегда можете задать вопрос специалисту Excel Tech Community или попросить помощи в сообществе Answers community.
Количество слов и знаков в тексте редко интересует обычных пользователей. Но, бывают ситуации, когда эта информация действительно нужна. Например, если вы готовите статью в газету или журнал, то вас могут ограничить определенным объемом текста. Разработчики это предусмотрели и встроили в Word соответствующие инструменты.
Сейчас вы узнаете, как посчитать количество слов или знаков в тексте в Word. Статья будет актуальной как для новых версий Word (например, для Word 2007, 2010, 2013 или 2016), так и для Word 2003.
Количество слов и символов в Word 2007, 2010, 2013, 2016
Для подсчета количества слов и знаков в тексте в Word есть специальный инструмент, который называется « Статистика ». Если вы пользуетесь современной версией текстового редактора (например, Word 2007, 2010, 2013 или 2016), то для того чтобы открыть окно с статистикой вам нужно просто кликнуть по надписи « Число слов », которая находится в нижнем левом углу окна программы.
Также вы можете на вкладку « Рецензирование » и нажать на кнопку « Статистика » либо использовать комбинацию клавиш CTRL-SHIFT-G .
Какой бы способ вы не выбрали, перед вами откроется окно « Статистика » с информацией о вашем тексте. Здесь будет указно количество:
Также здесь можно включить или отключить подсчет статистики для надписей и сносок. Для этого нужно использовать отметку « Учитывать надписи и сноски ».
Обратите внимание, по умолчанию окно « Статистика » отображает общую информацию для всего документа Word. Если вы хотите узнать количество знаков отдельного фрагмента текста, то его нужно сначала выделить мышкой и только потом открывать « Статистику ».
Количество слов и символов в Word 2003
В старых версиях Word (например, в Word 2003) для доступа к статистике нужно открыть меню « Сервис » и перейти в раздел « Статистика ».
В результате откроется точно такое же окно, как описано выше. С информацией о количестве страниц, слов, знаков, абзацев и строк.
Как вставить количество знаков в документ Word
Также вы можете вставить количество знаков прямо в документ в Word. Для этого перейдите на вкладку « Вставка », нажмите на кнопку « Экспресс-блоки » и выберите « Поле ». На скриншотах внизу показано расположение данной кнопки в Word 2010 и 2016.
В открывшемся окне будут доступны три поля с статистикой документа. Выберите одно из них и нажмите на кнопку « ОК ».
В результате, в точке где стоял курсор появится количество знаков в тексте. Таким образом можно вывести сразу несколько значений из статистики документа.
При этом вы можете обновить значение после того как число знаков в тексте изменилось. Для этого кликните правой кнопкой мышки по вставленному полю и выберите « Обновить поле ».
Майкрософт Ворд считает количество слов во всем текстовом документе в фоновом режиме, по мере их ввода. Эта информация отображается в строке состояния, доступной к просмотру из любой вкладки программы, и имеет следующий вид: «Число слов: N», где N – текущее значение.
Если выделить фрагмент текста, надпись сменит свой вид на «Число слов: X из N», где X – количество слов в выделенной части, N – во всем документе.
Нажатие на данную надпись открывает окно «Статистика», в котором указывается количество следующих элементов:
Дополнительно можно определить, будет ли Word «Учитывать надписи и сноски». Если в текстовом файле, с которым вы работаете, есть такие элементы и их нужно или, наоборот, не нужно учитывать при подсчете общего количества слов/символов, установите или, наоборот, снимите галочку напротив этого пункта.
После ознакомления с информацией окно «Статистика» можно закрыть.
Важно! Если «Число слов» не отображается, то есть такой надписи в принципе нет в строке состояния, кликните по ней правой кнопкой мышки и отметьте галочкой соответствующий пункт в контекстном меню.
Способ 2: Средства рецензирования
Еще один вариант просмотра информации о количестве слов в текстовом файле Word заключается в использовании средств рецензирования, посредством которых тоже можно вызвать рассмотренное выше окно «Статистика».
-
Перейдите во вкладку «Рецензирование».
Добавление информации о количестве слов в документ
Информацию о числе слов в документе можно вывести на любую его страницу, в любое удобное место, например, для того чтобы она отображалась в печатной версии. Логичнее всего добавлять ее в начало или конец.
-
Установите указатель курсора (каретку) в то место текстового файла, где хотите видеть информацию о числе слов в нем, и перейдите во вкладку «Вставка».
В выбранном вами месте файла появится информация о количестве слов в нем – небольшое поле с числом. Обратите внимание на то, что указанные данные могут отличаться от тех, что отображаются в строке состояния. В первую очередь это связано с тем, что программой это поле воспринимается как еще одно слово.
Можно сделать и так, чтобы Word автоматически обновлял сведения в данном блоке перед печатью. Для этого через меню «Файл» программы перейдите в ее «Параметры», откройте вкладку «Отображение» и в блоке «Параметры печати» установите отметку напротив пункта «Обновлять поля перед печатью». Для подтверждения и закрытия окна нажмите «ОК».
Отблагодарите автора, поделитесь статьей в социальных сетях.
Читайте также: