Удаляем дубли строк в нотепад++

Выбрать в меню «Плагины —> Plugin Manager —> Show Plugin Manager».
После чего в открывшемся окне, на первой вкладке «Available» в списке выбираем нужный нам плагин TextFX Characters и нажимаем «Install».
Как удалить повторяющиеся строки?:
- Открываем наш текстовый документ со списком;
- Выделяем весь текст;
- Переходим в меню TextFX —> TextFX Tools —> Sort lines case insensitive**
**Проверьте чтобы была отмечена опция «Sort outputs only UNIQUE lines».
Вот так вот быстро и удобно мы удалили дублирующиеся строки в notepad++ и отсортировали список.
Как с помощью Notepad++ удалить повторяющиеся строки (дубли)?
Зачастую вы имеете данные большого объема, строки которых повторяются в файле не один раз.
Поскольку дубли (повторения) – это лишний мусор и ненужные данные, то необходимо от них избавиться, и сделать это можно через программу Notepad++.
1. Итак, запустите программу и в верхнем меню нажмите «Plugins», пункты «Plugin Manager» – «Show Plugin Manager»:

После чего в открывшемся окне, во вкладке «Available» отметьте плагин «TextFX Characters» и нажмите «Install».

2. Как только плагин успешно установился (если нет – пишите об этом в комментариях), в пустое окно вставьте ваш текст с дублирующимися строками и нажмите комбинацию клавиш:
CTRL + A
Тем самым вы выделяете весь текст.
Перейдите в меню, раздел «TextFX», пункт «TextFX Tools». Проверьте, чтобы здесь стояла галочка у «Sort outputs only UNIQUE (at column) lines»:

Нажмите «Sort lines case insensitive (at column)». После этих действий дублирующиеся строки в вашем тексте будут удалены.
Обратите внимание, что способ не подойдет для новых версий программы, а также для программы, имеющей разрядность 64 бит.
Как удалить дубликаты строк в Notepad++

Вам понадобится плагин TextFX. Раньше он был включен в более старые версии Notepad ++, но если у вас есть более новая версия, вы можете добавить плагин из меню, перейдя в Plugins → Plugin Manager → Show Plugin Manager → Available tab → TextFX → Install. В некоторых случаях его также можно найти введя TextFX, но это одно и то же.

Теперь необходимые флажки и кнопки появятся в меню: TextFX → Инструменты TextFX.
Убедитесь, что установлен флажок «sort lines case sensitive». Затем выберите блок текста (Ctrl + A, чтобы выделить весь документ). Наконец, нажмите sort lines case sensitive (Сортировать строки с учетом регистра) или sort lines case insensitive (Сортировать строки без учета регистра).
При помощи поиска и замены по регулярным выражениям
Выполните поиск с заменой для поиска
^(.*?)$s+?^(?=.*^span class="hljs-number">1 span>$)
Это оставляет из всех повторяющихся строк последнее вхождение в файле.
Для этого не требуется сортировка, и повторяющиеся строки могут находиться в любом месте файла!
Вам нужно проверить параметры «Регулярное выражение» и обязательно удалите отметку с опции поиска “и новые строки”.
Вот подробный вид окна поиска для удаления дубликатов строк в Notepad++:
Удаление дублей строк: 3 способа быстрого решения проблемы
![]()

- View Larger Image
В своей повседневной деятельности очень часто сталкиваюсь с необходимостью быстро удалить дубли из каких-либо списков. Особенно актуальна данная процедура при работе с огромными массивами данных. Кто сталкивался с подобным, знает, что при работе со списками на несколько сот мегабайт, а то и несколько гигабайт, на первый план выходит быстродействие, ибо даже открыть такой файл на среднестатистическом компьютере (ноутбуке) бывает весьма проблематично. А посему сразу отпадают всевозможные и многочисленные онлайн сервисы, т.к. при их использовании накладываются огромные ограничения как каналом связи, так и возможностями браузера. При этом последний превращается в прожорливого до памяти монстра! Но как вы уже поняли из заголовка, выход есть и даже не единственный. Итак, поехали.
1. Удаление дублей при помощи Excel
Для того, чтобы воспользоваться данным способом, проделайте следующий ряд манипуляций:
- Перейдите по вкладку «Данные».
- Нажмите «Удалить дубликаты».
- На запрос выбора столбцов для удаления убедитесь, что выделены все. Если это не так, то нажмите «Выделите все»
- Нажмите «ОК».

Теперь осталось лишь дождаться процесса завершения работы программы и сохранить полученный результат.
Вывод: данный способ прост до безумия, однако величина списка ограничена максимальным количеством строк на листе редактора — 1 048 576 (версии 2007, 2010, 2013). Что касается скорости работы, то она очень даже высокая. Если ваш список укладывается в данный объём, то смело используйте его. Но что делать, если список больше?
2. Удаление дублей при помощи бесплатной программы Text Duplicate Killer
Для начала скачайте и установите утилиту. Скачать её можно здесь. Сразу после установки запустите её и сделайте следующее:
- Укажите ссылку на файл со списком
- Укажите выходной файл, нажав на волшебную палочку (файл сохранится в той же папке, что и основной список).
- Нажмите кнопку «Старт»

Дождитесь завершения работы программы и наслаждайтесь результатом.
Вывод: способ очень хорош тем, что не имеет ограничений по объёму списка, весьма стабилен, не требователен к памяти, а также тем, что позволяет работать с файлами без их предварительного открытия, что избавляет от дополнительного ожидания в самом начале в отличии от первого способа с Excel. Однако по причине того, что программа разбивает список на множество мелких подсписков, работает она со средней скоростью, которую иногда хотелось бы подувеличить
3. Удаление дублей при помощи бесплатной программы Notepad++
Чтобы воспользоваться данным способом, необходимо скачать редактор с официального сайта. Кстати, после установки выкиньте блокнот и переходите на эту программулину. Затем необходимо сделать следующее (подготовительный этап):
- Откройте меню «Плагины».
- Перейдите в подменю «Plugin Manager».
- Выберите пункт «Show Plugin Manager».
- В первой вкладке под названием «Avaliable» найдите и отметьте плагин под названием «TextFX Characters».
- Нажмите на кнопку «Install».

После завершения установки необходимо обязательно перезапустить программу. После этого в верхнем меню у вас отобразится новый пункт «TextFX» — это и есть тот инструмент, которым мы будем наводить марафет внутри нашего списка.
Теперь дело осталось за малым. Выделяем необходимый кусок текста, а т.к. речь идёт о списке целиком, то жмем заветную комбинацию Ctrl+A и выполняем следующую последовательность действий:
- Идем в меню «TextFX».
- Идём в подменю «TextFX Tools».
- Обязательно смотрим, чтобы была активна галка «+Sort outputs only UNIQUE (at column) lines».
- Жмем «Sort lines case sensitive (at column)».

Вот и все. Ждем окончания процесса.
Вывод: несмотря на долгий с первого взгляда ритуал подготовки к удалению, данный способ прежде всего хорош тем, что делает свою работу неимоверно быстро. Алгоритм работы программы устроен таким образом, что даже открытие файлов по несколько сот мегабайт не занимает много времени. Так, например, удаление дублей из списка объёмом 707 мегабайт у меня заняло всего лишь порядка 40 секунд (CPU i5 2.4; 4GB RAM). Это несомненный лидер из данного списка по скорости работы.
В заключении хочется отметить, что наверняка это не все варианты удаления дубликатов, однако, предложенной тройки мне в своей деятельности хватает с головой. Надеюсь и вам они составят добрую службу. А, если вы знаете способы ещё круче, велком в комментарии, обсудим.