Удалить все после символа notepad
Есть такой инструмент отклонения ссылок в Google, как Disavow links. Когда я писал ту статью, то одни из читателей прислал мне выгрузку из Сео сервиса Ahrefs со всеми Урлами страниц, которые ссылаются на мой блог. Огромное ему за это спасибо.
Как загрузить в Disavow links список всех ссылок на сайт
Я потратил неделю на просмотр этих ссылок и составление списка для добавления в инструмент Гугла Disavow links. Получилось около тысячи доменов. Но через пару месяцев Пингвин меня клюнул еще сильнее (еще половина трафика с Google ушла в небытие).
Поэтому сейчас решился на крайние меры — добавить в этот список вообще все обратные ссылки. Сделать это напрямую не получается, ибо подобный список в формате txt весит около десяти мегабайт, а сервис Disavow links позволяет загружать файлы размером не более двух.
Выход я увидел в том, чтобы выделить из всего списка только доменные имена сайтов, которые на меня ссылаются, и добавить в бан-лист именно их (около трех тысяч доменов).
Данная задача разбивается на несколько этапов. Выделить и оставить в списке из всех Урл адресов только ту часть, где прописано доменное имя. Если помните, то в статье про URL адреса, а так же относительные и абсолютные ссылки, я рассказывал про их устройство. Например, ссылка на эту страницу (ее Урл — универсальный идентификатор ресурса) выглядит так:
В моем случае это был подобный список:
Мне же нужно оставить от этого URL адреса только домен:
Т.к. в списке много ссылок с одного и того же домена, то потом нужно будет удалить все дублирующие строки. Ну и в строке с каждым доменом, в самом ее начале, нужно добавить «domain:», чтобы получилось так:
Список для Disavow links получился в таком виде:
Для тех кто дружит с Excel задача решается с помощью написания соответствующих формул. Лично я хорошо знаю только Ворд, а вот на изучение Экселя в свое время терпения уже не хватило, да и не было тогда в этом особой необходимости.
Поэтому я решал данную задачу исключительно с помощью возможностей текстового редактора Notepad++ с его богатейшим функционалом и кучей полезнейших плагинов.
Итак, сначала я выделил столбец с Урлами доноров в файле Excel и скопировал их в буфер обмена (кстати, на копирование ушли минуты, а не секунды, ибо объем был очень большой). После чего вставил его на новую страницу в Notepad++.
Следующей нашей задачей будет удалить в Notepad++ после определенного символа (первого слеша (/)) все, что там будет стоять. Для этого опять же жмете на Ctrl+H. Переходим в режим «Регулярные выражения» (внизу окна), вставляем в первое поле (/.+)$ (если вам нужно будет после другого символа все удалить, то вставьте его вместо слеша), второе поле «Заменить на» оставьте пустым и жмакайте на кнопочку «Заменить все».
В результате наш список Урлов (а сейчас уже доменов) примет такой вид:
Кое-где в конце остались слеши, поэтому опять клацнете по Ctrl+H, перейдите в обычный режим и вставьте в верхнее поле слеш, а в нижние — ничего. Ну и на кнопочку «Заменить все» нажмите.
Теперь нам нужно удалить дублирующиеся строки в Notepad++ (одинаковые домены оставшиеся после их вычленения из URL адресов). Для этого нужно воспользоваться плагином для Нотепада под названием Text FX Caracters.
Как в Notepad++ удалить дублирующиеся строки и добавить символы в начало всех строк
Если он у вас еще не установлен, то выберите из верхнего меню текстового редактора «Плагины» — «Plagin Manager» — «Show Plagin Manager».
В открывшемся окне найдите Text FX Caracters, поставьте напротив него галочку и нажмите на расположенную внизу кнопку «Install».
Теперь все строки в нашем документе нужно будет выделить с помощью CTRL+A, после чего выбрать из верхнего меню «TextFX» — «TextFX Tools» и поставить галочку в поле «+Sort outputs only UNIQUE (at column) lines». После чего опять зайти в «TextFX» — «TextFX Tools» и выбрать пункт «Sort Lines case sensitive (at column)».
В результате все дубли строк в открытом окне Notepad++ исчезнут и останутся одни лишь уникальные домены.
Но в синтаксисе файла Disavow links для доменов необходимо вначале указывать «domain:». Значит перед нами стоит очередная задача: добавить символы в начале строки в Notepad++. Решается она довольно просто.
Опять же жмакаете по клавишам Ctrl+H и переходите в режим «Регулярные выражения». В верхней строке пишите «\n» (так обозначается символ перевода строки), а в нижней — «\ndomain:»:
Жмете на кнопку «Заменить все» и получаете то, что нам и было нужно — готовый список, который смело можно будет загружать в Disavow links.
Все, спасибо за внимание.
Комментарии и отзывы (6)
Спасибо большое! Очень актуально для нынешних реалий. а то уже замучался через kvk делать.
Забыл как отсечь все после / Спасибо! Всем лечить пингвина.
Долгий вариант получается, каждый раз надоест делать. А поскольку лень двигатель прогресса, я как продвинутый юзер Эксель создал таки свой вариант обработки в Экселе и делюсь им в вашем блоге, Дмитрий, ибо очень благодарен вам, многие вещи на сайте я сделал по вашим инструкциям.
Итак, код у меня получился такой
забыл сказать. domain с лёгкостью прикрепляется с помощью функции =СЦЕПИТЬ(«domain:»;ссылка на домен)
а по поводу удаления дублей — меню Данные — кнопка «Удалить дубликаты» для Эксель 2010 и элементарная сводная таблица без каких-либо заморочек в Эксель 2003
а вообще Эксель лучше знать хоть немного, в нём с любыми текстовыми данными можно сотворить практически что угодно, причём как действовать конкретно можно всегда спросить у спецов на форумах, например, планета эксель — сам там пару раз консультировался
Notepad++ стал моим первым профессиональным инструментом в веб-разработке и создании сайтов.
В Notepad++, среди прочего, большое внимание уделяется собственному языку регулярных выражений.
Зная как обозначить запрос специальными поисковыми операторами, в Notepad++ можно реализовывать довольно серьезные задачи и работать с большими массивами данных.
Регулярные выражения Notepad++
Регулярные выражения могут использоваться в Notepad++ для множества логических операция: сортировка строк, удаление дубликатов, поиск и замена как отдельных символов, так и целых логических конструкций. По сути горизонт возможностей такого функционала не ограничен и зависит только от вашей фантазии по его применению.
Я позволил себе отсортировать регулярные выражения для Notepad++ в порядке их надобности и популярности использования. ?
Примеры и применение регулярных выражений в Notepad++
Согласитесь, весь этот список на вид звучит довольно нудно и напоминает что-то среднее между высшей математикой и программированием. ? Мне стоит привести примеры использования регулярных выражений и символов Notepad++.
Удалить пустые строки в Notepad++
Либо, что конечно же проще, если ваше выражение больше никаких условий не требует, воспользуйтесь пунктом в меню. Edit => Line Operations => Remove empty lines . Там же есть и пункт для удаления пустых строк с пробелом: Containing Blank Characters .
Удалить всё после символа / перед символом в строке в Notepad++
Регулярное выражение удаление всех данных в строке до определенного символа, или их группы я часто использую, например, при сортировке маркетинговых баз с e-mail.
Для того чтобы в Notepad++ удалить всё в строке перед определенным символом, используйте комбинацию .+(искомая-часть). Давайте я разберу подробнее. Например, у нас есть txt файл с почтовыми адресами коллег, по одному адресу в столбик. Кроме того в этой же строке могут содержаться и ФИО человека через пробел, табирование, или через запятую.
И таких контактов с списке у нас 500. Для того чтобы отделить домены, нам понадобится 2 действия в Notepad++, удалить всё в строках до определенного символа, а затем удалить всё в строках после.
Первая регулярное выражение для нас будет .+(@), в поле замены оставляем пустым.
Удалить дубликаты строк в Notepad++
Удаление дубликатов строк в Notepad++ это вообще отдельная большая тема. Мало кто знает как сконфигурировать поисковой запрос в текстовом редакторе и удалить повторяющиеся строки исключительно через Notepad++, не прибегая к помощи плагинов и сторонних расширений.
Важно, чтобы все галочки в поиске у вас были включены. И зациклить поиск, и применять регулярные выражения, тогда Notepad++ точно сработает как надо, и удалит из документа дубли строк.
Второй способ избавится от дублирования строк
Второй способ удалить дубликаты строк с помощью Notepad++ абсолютно не элегантен, но функционален при ежедневном использовании. Навигатор по репозиторию дополнений встроен прямо в ваш Notepad. Просто ставим плагин через меню Plugins => Plugin manager .
Нужный нам плагин называется TextFx Characters.
Не слишком сложно, правда? Устанавливаются плагины автоматически, нужно будет только перезагрузить утилиту. Жмёте установить и активировать.
Функционал плагина местами дублирует многие регулярные выражения в Notepad++, а по-моему мнению собственно на них и основан.
Настройка для удаления дубликатов строк находится в меню: Textfx => Tools => Sort Lines insensetive .
Не забудьте выделить данные в редакторе, перед тем как нажимать.
Notepad++: плагины и альтернативы.
Что касается альтернатив, Notepad++ любят за регулярные выражения, легкость, простоту и бесплатность. Такое сочетание вообще, пожалуй, единственное в этом кластере, потому лично я не вижу прямых конкурентов и альтернатив для Notepad.
P.S. Если вам была полезна эта статья, оставьте коммент, и я буду знать что двигаюсь в правильном направлении. Или задавайте вопросы! welcome ⬇️⬇️⬇️
Сайт обходится мне в копеечку, и как видите - здесь нет рекламы.
Понравилась статья?
Переведите хотя бы 10 руб:-)
P.S. Если нажать на номер карты - он скопируется!
Фотограф, блогер, специалист по рекламе в интернете. В прошлом веб-дизайнер/разработчик. Веду своё шоу в VK Клипах, люблю рок, джаз, Стивена Кинга и Харуки Мураками.
Текстовый файл с данными, обычно поступающими из экспорта CSV, может содержать нежелательные элементы, такие как пробелы или табуляции, которые необходимо удалить из файла, чтобы его можно было обработать.
Эту операцию можно выполнить либо с помощью встроенного в Windows приложения «Блокнот», либо с помощью отличного Notepad ++, который является моим любимым решением для редактирования многих файлов, поскольку он позволяет управлять текстовыми файлами с помощью вкладок и предоставляет отличные функции раскраски текста.
Как правило, в большинстве приложений вы можете удалить пробелы с помощью функции поиска и замены, обычно доступной с помощью сочетания клавиш CTRL + H.
Удалить пробелы в документе
Самым простым решением для выполнения этой операции с любым текстом является выполнение операции Notepad ++ по удалению пробелов в этом программном обеспечении для редактирования текста, так как это очень быстро и хорошо оптимизировано. Однако удалить пробелы можно практически в любой программе, которая управляет текстом.
Удалить WhiteSpace в Блокноте
Используя приложение Windows10 Notepad, удалить все пробелы из файла данных может быть довольно просто с помощью функции замены CTRL + H.
Все, что вам нужно сделать, это открыть новое окно Блокнота, вставить текст или открыть существующий файл, содержащий текст.
Используйте комбинацию клавиш CTRL + H, чтобы открыть форму замены, введите пробел в поле «Найти» и убедитесь, что поле «Заменить на» остается пустым.
Excel: удалить пробелы
Операция по удалению места в Excel также проста, как использование функции поиска и замены, доступной с помощью сочетания клавиш CTRL + H.
Появится поле Microsoft Excel «Найти и заменить», в котором вы можете заполнить поле «Найти что» пробелом, который нужно заменить, а поле «Заменить на» - пустой строкой, чтобы удалить лишние пробелы в Excel с помощью функции «Заменить все».
По умолчанию операция поиска и замены применяется только к текущему активному листу. Отображая дополнительные параметры, вы можете изменить область поиска пробелов и заменить всю книгу, изменив значение «Внутри» с листа на книгу.
Флажок «Перенести» означает, что операция поиска и замены начнется снова в начале файла и выполнит операцию до текущей позиции курсора, если ваш курсор находится не в начале файла.
В противном случае операция поиска и замены будет выполняться от текущей позиции курсора только до конца файла, таким образом не удаляя пробелы во всем файле Блокнота, а только от текущей позиции до конца файла.
Notepad ++: удалить пробелы в текстовом документе
Используя любую версию программного обеспечения Notepad ++, вы сможете легко выполнить расширенную операцию удаления пробелов в блокноте, которая может применяться к любому тексту, файлу, выделенному тексту или группе файлов, всего несколькими щелчками мыши.
Если вы еще не сделали этого, начните с загрузки и установки последней версии замечательного приложения Notepad ++ бесплатно с их веб-сайта:
Затем либо откройте файл как текст, в котором вы хотите удалить пробелы или другие нежелательные символы, и перейдите в поле «Заменить» с помощью сочетания клавиш CTRL + H.
В окне «Заменить» введите пробел в поле «Найти» и убедитесь, что поле «Заменить на» остается пустым.
- Замените следующее вхождение пробела в целевом отображаемом тексте, нажав кнопку «Заменить»,
- Замените все пробелы в целевом видимом текстовом файле, нажав кнопку «Заменить все»,
- Заменить только следующее или все вхождения в выделенном тексте, установив флажок «В выделенном» и выбрав функцию «Заменить» или «Заменить все»,
- Удалите пробелы во всех файлах Notepad ++, открытых в данный момент, нажав кнопку «Заменить все во всех открытых документах» - будьте осторожны, эту мощную операцию можно выполнить по ошибке, если вы нажмете эту кнопку вместо другой!
- Замените пробелы только от текущей позиции курсора до конца текста, сняв отметку с опции «Обтекать», что позволяет в противном случае применить операцию ко всему файлу.
После выбора операции, которая лучше всего работает в вашей ситуации, количество успешных операций удаления пробелов будет отображаться в поле состояния окна поиска и замены.
Идем дальше: используйте NotePad ++ для замены табуляции пробелами
В Notepad ++ можно выполнить замену вкладок пробелами таким образом: выберите вкладку с помощью мыши в тексте и скопируйте ее.
Затем откройте окно поиска и замены с помощью комбинации клавиш CTRL-H и вставьте вкладку, чтобы заменить ее пробелами в поле поиска, и введите пробел в поле замены.
Операция копирования и вставки необходима для копирования одной из вкладок для замены пробелов в Notepad ++, потому что, если вы попытаетесь ввести табуляцию, программа интерпретирует ее как сочетание клавиш для выделения следующего доступного поля в форме поиска. Поэтому, чтобы использовать Notepad ++ для замены табуляции пробелами, просто скопируйте табуляцию из текста и вставьте ее в поле поиска!
Удалить пробелы в документе Word
Удаление пробелов в документе Word или, точнее, замена двойных пробелов одним пробелом также может быть выполнено в Microsoft Word одним щелчком мыши.
Начните с открытия формы поиска и замены с помощью сочетания клавиш CTRL + H.
Затем введите в поле «найти, что» текст, который вы хотите найти, например двойной пробел, и введите в поле «Заменить на» текст, которым вы хотите заменить поиск, например одиночный пробел.
Затем просто нажмите кнопку «Заменить все», чтобы выполнить операцию поиска и замены всего текста в текущем открытом документе.
После операции замены будет отображено окно подтверждения с количеством замененных вхождений.
Вывод: удалите строку из любого текста
Вы даже можете пойти дальше, заменив любой символ или текст в документе пустой строкой символов - таким образом удалив символы из документов Notepad ++, открытых файлов, вставленного текста или выделенного текста!
Самым мощным инструментом для этой операции является замечательная программа Notepad ++, так как вы сможете выполнить операцию с выделением или группой файлов одним щелчком мыши.
Однако вы можете заменить любой текст в любых документах таким образом и использовать поле поиска и замены CTRL + H, чтобы удалить пробелы, избавиться от табуляций или, например, заменить двойные пробелы одинарными пробелами, тем самым исправляя ошибки в тексте внутри один клик!
Самые важные операции со строками в Notepad++. Как в notepad++ удалить текст в каждой строке до конца строки? Как в Notepad ++ добавить символ в начале строки?
Как начать работу со строками в Notepad++
Основные настройки для операций в Notepad++.
Как удалить дубли строк в Notepad++
Удаление дублирующих строк в Notepad++
Как добавить символы в начало строки в Notepad++
Удалить строку после определенного символа в Notepad++
Как в Notepad++ удалить текст в каждой строке до конца строки после заданного
Как в Notepad ++ добавить символ в начале каждой строки?
Как удалить все строки длиннее, например, 10 символов?
Найти: ^[^\r\n]?\r\n
Заменить на пустую строку.
Как удалить пустую строку в Notepad++
Как удалить строку и перенос строки?
Делаем поиск по регулярному выражению:
.*Слово.*
Затем заходим в раздел TextFX -> TextFX Edit -> Delete Blank Lines (необходимо предварительно установить плагин TextFX )
Добавление знаков в начале и конце строки
Добавление круглых скобок () в поле найти обязательно, иначе текст будет удален.
Удаление пустых строк, содержащих пробелы
Удаление всех символов в строке после обнаружения в строке пробела
Найти: ^(.+?)\s.+$
заменить на: \1
Как удалить строки меньше, например, 40 символов?
Как убрать разные символы после строки в Notepad++?
^.*»
заменяем на пустоту
Регулярные выражения в Notepad++:
. — Точка представляет один любой символ
^ — Начало строки
$ — Конец строки
\s — Пробел
\S — Не Пробел
\w — буква, цифра или подчёркивание _
\d — Любая цифра
\D — Любой символ, но не цифра
8 — Любая цифра
[a-z] — Любая буква от a до z (весь латинский набор символов) в нижнем регистре
[A-Z] — Любая буква от a до z в ВЕРХНЕМ регистре
[a-zA-Z] — Любая буква от a до z в любом регистре
[a-Z] — То же самое
* — «Повторитель». Означает, что предшествующий символ может повторяться (0 или более раз)
.* — Абсолютно любой набор символов. Например, условие
— найдет все что между тегами
Читать далее:
Отзывы 4
Добрый день.
Подскажите регулярку для Notepad++, голову сломал, то одно не так, то другое(
Есть документ с некоторым количеством строк. В каждой строке могут быть латинские (и кириллица) буквы и слова+цифры+символы. Порядок неизвестен.
Пример:
фурнитура winkhaus
winkhaus 2013 f dk
analog couple ja 388 фурнитура
пластиковое окно фурнитура
[winkhaus] 23003 000711 limited edition auto mechanical skeleton gold black
Нужно удалить все строки, кроме содержащих кириллицу. Должны остаться 1-я, 3-я и 4-я строки.
Нашел решение, подсказали на серче.
Делюсь.
^[^а-я]*$
А потом просто удалить пустые строки
Вот теперь интересно как сделать то же самое, только нужно удалить все строки с кириллицей)
Читайте также: