еще
https://harrix.dev/blog/2014/remove-duplicate-lines/
http://website-lab.ru/article/regexp/shpargalka_po_regulyarnyim_vyirajeniyam/
копировать из режима редактирования - некоторые символы неправильно отображаются!
+++++ удаляет дубликаты внутри в любом тексте (?:^|∖G)(∖b∖w+∖b)#?(?=.*)
+++++ удаляет дубликаты строк ^(.*?)$∖s+?^(?=.*^∖1$)
^ss.*?# выбирает всё от начала по #
^(ss.*?∖#.*?)$ затрагивает все строки, очищает и не удаляет их
^(ss.*?∖#.*?)$∖s затрагивает все строки, очищает и не удаляет их, оставляет содержимое поcледней строки
заменить (.*)∖# на ∖1 оставляет все до #
ss://|∖#.* оставляет все между ss:// и #
^(.*?)$∖s+?^(?=.*^∖1$) дубли строк
([0-9]{1,3}[∖.]){3}[0-9]{1,3} выбирает IP адрес
∖d+∖.∖d+∖.∖d+∖.∖d+:∖d+ еще IP
∖d{1,3}∖.∖d{1,3}∖.∖d{1,3}∖.∖d{1,3} еще IP адрес
^.*([0-9]{1,3}[∖.]){3}[0-9]{1,3} начало строки ключа до конца IP адреса
(?i)(∖W|^)(туфта|проклятие|убирайся|бред|черт∖sвозьми|зараза)(∖W|$) поиск любого из слов в тексте
^(∖d+) .+$∖s+?^(?=.*^∖1).+$ находит повторяющиеся цифры с пробелом в начале строк (найдет: 123 йфувка и 123 укенгшл)
^(.*?)$s+?^(?=.*^слово$)b типа удаляет дубли с таким словом
(∖b(∖w+@.*.com)∖b.*)∖2∖b типа удаление дублей емейл в строках
для Linux - выдает в терминале список уникальных IP адресов из любого текстового файла (если для отсева SS-ключей, то часть до IP может быть разная у одного и того же IP, но вроде это не важно)
grep -Eo "(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])∖.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])" ss.txt | sort | uniq > res.txt
выдает уникальные адреса с портами (убирает дубли ключей), но IP останутся не уникальными
grep -Eo "(.*)∖#" ss.txt | sort | uniq
+++++
сортирует удаляет дубли = учитывает часть до IP и комментарий (если они разные, а IP одинаковые, то она выдаст оба)
не учитывает комментарий после # и на выходе оставляет весь ключ целиком
cat ss.txt | sort | uniq -u
или
++++ без комментариев, ПРОПАДАЮТ ДУБЛИКАТЫ И ОТ НИХ НИ ОДНОГО НЕ ОСТАЕТСЯ (из-за -u)
grep -Eo "^.*([0-9]{1,3}[∖.]){3}[0-9]{1,3}:([0-9]+)" ss.txt | sort | uniq -u > res.txt
+++ для носков не работает
сортирует удаляет дубли = на выходе уникальные строки! (одинаковые IP с разными портами) и на выходе оставляет весь ключ целиком
cat ss.txt | awk -FS: '{printf $1 "∖n"};' | sort | uniq
или
по одному IP с наибольшим портом
cat ss.txt | awk -FS: '{printf $1 "∖n"};' | sort | uniq
сортирует удаляет дубли = на выходе уникальные