Mam swoje referencje jako plik tekstowy z długą listą wpisów, a każda z nich ma dwa (lub więcej) pól.
Pierwsza kolumna to adres URL odwołania; druga kolumna to tytuł, który może się nieco różnić w zależności od tego, w jaki sposób dokonano wpisu. To samo dla trzeciego pola, które może być obecne lub nie.
Chcę zidentyfikować, ale nie usunąć wpisów, które mają identyczne pierwsze pole (URL referencyjny). Wiem o sort -k1,1 -u
tym, ale to automatycznie (nieinteraktywnie) usunie wszystkie oprócz pierwszego trafienia. Czy jest jakiś sposób, aby poinformować mnie, żebym mógł wybrać, który zachować?
W poniższym wyciągu z trzech linii, które mają to samo pierwsze pole ( http://unix.stackexchange.com/questions/49569/
), chciałbym zachować linię 2, ponieważ ma ona dodatkowe tagi (sort, CLI) i usuwa linie nr 1 i nr 3:
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
Czy istnieje program ułatwiający identyfikację takich „duplikatów”? Czy mogę ręcznie wyczyścić, usuwając osobiście wiersze nr 1 i nr 3?