Cut — Ай да Linux Wiki. Изучаем команды Linux: cut

В примерах мы будем использовать такой файл:

$ cat test.txt cat command for file oriented operations. cp command for copy files or directories. ls command to list out files and directories with its attributes.

1. Выборка колонок по символам

Для получения определённых колонок используется опция -c . В следующем примере мы получим 2-ой символ (2 колонка) в каждой строке:

$ cut -c2 test.txt a p s

2. Выборка колонок по символам с диапазоном значений

Диапазон символов можно получить, указав стартовую и конечную позицию символом « - «.

В следующем примере мы выделим символы с первого по третий в каждой строке:

$ cut -c1-3 test.txt cat cp ls

3. Выборка колонок с использованием стартовой или конечной позиции

Начальная или последняя позиция могут задавать с помощью опции -c .

В следующем примере мы задаём только стартовую колонку, с которой начинать выборку, перед символом « - «. Мы получим все символы, начиная с 3-го:

$ cut -c3- test.txt t command for file oriented operations. command for copy files or directories. command to list out files and directories with its attributes.

А в следующем примере — мы получим только первые 8 символов:

$ cut -c-8 test.txt cat comm cp comma ls comma

4. Выборка указанных полей

Вместо указания количества символов, можно задать выборку по целым полям, используя опции -d и -f . Опция -f указывает поля, которые необходимо получить, а опция -d — разделитель, по которым необходимо осуществлять разделение полей.

В следующем примере мы отобразим только первое поле файла /etc/passwd , используя разделитель « : » (двоеточие):

$ cut -d":" -f1 /etc/passwd root daemon bin sys sync games bala

5. Выборка различных полей

Вы так же можете осуществить выборку нескольких полей. В примере ниже будут выведены имена пользователей и домашние директории пользователей, у которых shell задан как /bin/bash:

$ grep "/bin/bash" /etc/passwd | cut -d":" -f1,6 root:/root bala:/home/bala

Что бы отобразить диапазон полей — укажите начальное и последнее поле, как в примере ниже. Ниже мы осуществим выборку полей с 1 по 4, 6 и 7:

$ grep "/bin/bash" /etc/passwd | cut -d":" -f1-4,6,7 root:x:0:0:/root:/bin/bash bala:x:1000:1000:/home/bala:/bin/bash

6. Выборка полей, если строка содержит разделитель

В нашем примере с /etc/passwd , если вы укажете разделитель отличный от « : » — вы получите целую строку.

В следующем примере мы укажем разделителем пайп (« | «), а утилита cut отобразит всю строку целиком, даже если такой разделитель не будет найден:

$ grep "/bin/bash" /etc/passwd | cut -d"|" -f1 root:x:0:0:root:/root:/bin/bash bala:x:1000:1000:bala,:/home/bala:/bin/bash

Однако, возможно отфильтровать строки, содержащие только разделитель, с использованием опции -s .

В следующем примере не будет показано ничего, так как -s отфильтрует строки, не содержащие разделитель « | «:

$ grep "/bin/bash" /etc/passwd | cut -d"|" -s -f1

7. Выборка всех полей, кроме заданных

Что бы использовать выборку по полям, кроме заданных — используйте опцию --complement .

В следующем примере вы выберем все поля, кроме поля 7:

$ grep "/bin/bash" /etc/passwd | cut -d":" --complement -s -f7 root:x:0:0:root:/root bala:x:1000:1000:bala,:/home/bala

8. Изменение разделителя в отображении результата

По умолчанию — в результатах разделитель будет тот же, который использовался при выборке.

Что бы изменить разделитель — используйте опцию --output-delimiter .

В примере ниже — мы заменим разделитель « : » на « # «:

$ grep "/bin/bash" /etc/passwd | cut -d":" -s -f1,6,7 --output-delimiter="#" root#/root#/bin/bash bala#/home/bala#/bin/bash

9. Заменить разделитель на символ новой строки

В следующем примере каждое поле в результатах вывода cut будет выведено в новой строке. Мы так же используем опцию --output-delimiter , но укажем ей параметр « n «:

$ grep bala /etc/passwd | cut -d":" -f1,6,7 --output-delimiter=$"n" bala /home/bala /bin/bash

10. Комбинирование утилиты Cut с другими утилитами Unix

Все возможности утилиты cut могут проявится при её использовании с другими утилитами для обработки stdout .

В следующем примере мы отобразим только самую нужную информацию из вывода утилиты ps:

$ ps axu | grep python | sed "s/s+/ /g" | cut -d" " -f2,11- 2231 /usr/bin/python /usr/lib/unity-lens-video/unity-lens-video 2311 /usr/bin/python /usr/lib/unity-scope-video-remote/unity-scope-video-remote 2414 /usr/bin/python /usr/lib/ubuntuone-client/ubuntuone-syncdaemon 2463 /usr/bin/python /usr/lib/system-service/system-service-d 3274 grep --color=auto python

Вэтом выпуске мы расскажем об основных возможностях форматирования вывода с помощью команд grep, sed, awk, cat и cut. Это может быть очень полезным, если соединять вместе такие вещи как Conky или скрипты, которые отображают информацию в терминале.

Сначала рассмотрим работу команды cut. Если бы мы хотели отобразить название дистрибутива в нашем скрипте, мы нашли бы его в /etc/issue. Если мы выполним cat /etc/issue, мы увидим много длинных строк со множеством экранирующих символов в них. Так, если мы выполним cat /etc/issue | head -n 1, мы уберём дополнительные строки, сузив вывод команды cat с помощью команды head, которая оставит только первую строку вывода. Пока всё хорошо, но что насчёт специальных символов? Для таких случаев у нас есть cut. Чтобы её использовать, мы должны указать разделитель, а затем сказать ей, что с ним делать. Мы могли бы выполнить следующую команду:

Cat /etc/issue|head -n 1|cut –-delimiter=" " -f 1,2

Эта команда говорит cut использовать в качестве разделителя знак пробела, и показать первые два поля (по существу, cut делит вывод на сегменты в соответствии с разделителем, поэтому поля 1 и 2 - это первые два поля до и после разделителя, в нашем случае это Ubuntu 8.10). Cut также можно использовать для отображения только определённого числа символов, используя флаг -c.

То же самое можно сделать и с помощью команды sed:

Cat /etc/issue|sed "{s/\\n// ; s/\\l// ; /^$/d}"

Это может показаться лишним, но первые два выражения (каждое из них разделено точкой с запятой) говорят sed заменить “\n” на “” (ничего), и то же самое для “\l”, убирая эти символы из вывода. Команда “/^$/d” говорит sed удалить все пустые строки (“^$” - это регулярное выражение для строки, которая начинается и заканчивается пустым символом, и посередине тоже ничего нет - т.е. пустая строка). Так "s/\\n\b//" просто говорит sed заменить (“s/”) “\n” (“\\n”) на “” (“//”). Причина, по которой эта команда в скобках, в том, что мы применяем три выражения на выходе, и хотим, чтобы результат появился только один раз, поэтому мы поместили выражения в скобки (“{}”), и разделили точкой с запятой.

В заключение, такой же результат мы можем получить с помощью awk:

Cat /etc/issue|awk "/\\n/ {print $1,$2}"

Эта команда тоже использует регулярные выражения, но её легче понять, чем sed. Команда awk "/\n/ {print $1, $2}" ищет любую строку, в которой есть “\n”, и затем печатает первые два поля (разделитель по умолчанию - это пробел, но вы можете определить свой с помощью флага -F). Это позволяет нам отбросить лишнюю строку и \l из вывода команды. Вы можете также отказаться от обрезания вывода в команде cat /etc/issue (или любой другой), так как они все могут быть применены к определенному файлу в конце команды. Я использовал cat для того, чтобы оставить команды более понятными.

Это всё рассматривается только как поверхностный взгляд на возможности awk, sed и cut. Из-за их гибкой реализации сложно написать краткое вводное руководство для всех них. Пояснения приведены, чтобы показать, как команды работают, а не описывать их полный потенциал. В реальном мире использование этих команд будет в первой половине любого собственного скрипта (ниже приведен пример, который также выводит информацию о скрипте, но часть не обязательно подходит к этой статье; она оставлена, чтобы оставить скрипт завершённым). Пример также содержит вызов для каждого, кто желает его попробовать: сообразите, как использовать одну из трёх команд, чтобы убрать параграф в памятной части скрипта, и, если вы хотите больше практики, попробуйте заменить каждое использование cut, sed или awk на другую команду, делающую то же самое (т.е. заменить команду cut на awk). Конечно, никакого приза нет, но это хорошая практика, чтобы понять внутреннюю работу этих команд.

Дополнительная информация.


Команда cut позволяет выбрать из каждой строки файла нужную часть (по единому правилу для всех строк) и показать выборку на экране дисплея.

Команда имеет три основные опции:

  • -b - когда объектом выбора являются байты;
  • - когда объектом выбора являются символы;
  • -f - когда объектом выбора являются элементы форматирования текста (колонки, столбцы и прочее).

Начнем с наиболее очевидного - символов (опция -с)

Опция -с

Например, возьмем файл /etc/shells, в целом виде он выглядит так: /bin/bash /bin/tcsh /bin/csh /bin/ash /bin/ksh /bin/zsh

Теперь применим команду:

$ cut -c 1,5 /etc/shells // // // // // //

В данном примере опция -c означает, что объектом выбора будут символы, 1,5 означает, что мы выбираем символы 1 и 5 (счет идет с 1), а все остальное содержимое файла игнорируется.

Можно выбирать символы не по порядковым номерам, а диапазонами:

$ cut -c 1-5 /etc/shells /bin/ /bin/ /bin/ /bin/ /bin/ /bin/

В этом случае мы выбрали символы в диапазоне с 1 по 5 (включительно).

Можно указать несколько диапазонов через запятую:

~$ cut -c 1-5,8-9 /etc/shells /bin/sh /bin/sh /bin/h /bin/h /bin/h /bin/h

Первые три примера имеют чисто демонстрационный характер и не имеют практического смысла. Следующий пример может претендовать на некий смысл:

$ cut -c 6- /etc/shells bash tcsh csh ash ksh zsh

Тут мы получили список доступных в системе шеллов. Для этого мы не стали указывать правую границу диапазона, что заставляет команду выдавать все содержимое строк от указанного символа до конца строки. Можно оставить прочерк с левой стороны, тогда выборка пойдет от начала строки до указанного символа.

Интересно, что все эти примеры не всегда работают с русскими символами (в кодировке UTF-8, по крайней мере) - выдают какую-то странную ступенчатую распечатку:

$ cut -c 1- rus.txt йцукенгшщзхъ фывапролджэё ячсмитьбю.ёё

Это полный текст файла rus.txt. Программа сработала правильно.

$ cut -c 1-5 rus.txt йц? фы? яч? $

А вот тут начались странности. Забавно, что даже следующее приглашение командной строки вышло по "лесенке". А вот в "настоящей" консоли, вызываемой нажатием Ctrl+Alt+F2, вывод той же команды выглядел более или менее прилично:

$ cut -c 1-5 rus.txt йц фы яч

Как выяснилось в многочисленных опытах, символы кириллицы в кодировке UTF-8 состоят из двух байтов, поэтому нужно вводить удвоенные числовые значения. Скажем, если заменить в предыдущей команде 5 на 6 (или любое другое четное число), то и в эмуляторе консоли все будет как надо:

$ cut -c 1-6 rus.txt йцу фыв ячс

Для чистоты эксперимента я запустил Knoppix5.1, у которого по умолчанию кодировка koi-8, так там никакой разницы с английским текстом не наблюдается - каждая буква представлена одним байтом:

$ cut -c 1-5 rus.txt йцуке фывап ячсми

Так что с национальными кодировками ухо надо держать востро!

Надеюсь, что с опцией -c ясность полная, можно переходить к следующей.

Опция -b

Весьма похожа на предыдущую опцию, как по способу задания выборки байт, так и по результатам, ведь в большинстве случаев один байт определяет один символ. $ cut -b 1-6 /etc/shells /bin/b /bin/t /bin/c /bin/a /bin/k /bin/z

Мы выбрали первые 6 байт из каждой строки файла /etc/shells.

Точно так же как и с опцией -с, можно использовать способы выборки n,m; -n; и n-. Остается лишь добавить, что символы табуляции и backspace (возврат назад на один символ с удалением его) трактуются как любой другой символ - они и занимают один байт. (Не поручусь за национальные кодировки).

Опция -f

Объектом выбора данной опции являются те самые загадочные "поля", о которых я говорил в предисловии. Оказалось все просто. Выбираем мы колонки текста, или столбцы, или что еще там, разделенные знаком табуляции. Так как я таких файлов никогда не встречал, то пришлось создать специально для опытов. Вот содержимое файла tab.txt:

Qwer tyui op asdf ghjk llll zxcv bnm, ....

А вот команда:

$ cut -f 1,2 tab.txt qwer tyui asdf ghjk zxcv bnm,

Все как ожидалось, выбраны две первые колонки. Еще пример:

$ cut -f 2- tab.txt tyui op ghjk llll bnm, ....

В общем понятно, схема та же, только с колонками. Вопрос в другом - где взять такие файлы с колонками, разделенными знаком табуляции, чтобы их обрабатывать?

К счастью, есть опция -d, предназначенная для работы в паре с опцией -f и понимающая другие разделители текста, кроме знаков табуляции. В директории /etc полно файлов, содержащих столбцы данных, разделенных всякими разделителями; беда только, что они довольно длинные для примеров. Я возьму первые десять строчек из файла /etc/group и создам файл group10.txt.

$ cut -f 1- -d: group10.txt root::0:root bin::1:root,bin,daemon daemon::2:root,bin,daemon sys::3:root,bin,adm adm::4:root,adm,daemon tty::5: disk:!:6:root,adm,haldaemon,ya,alex lp::7:lp,ya,alex mem::8: kmem::9:

В этом примере, опция -f приказывает отбирать все столбцы, с первого до последнего, а опция -d указывает на символ, являющийся разделителем -d: разделителем служит двоеточие. Выше на экране файл group10.txt полностью.

$ cut -f 1,3 -d: group10.txt root:0 bin:1 daemon:2 sys:3 adm:4 tty:5 disk:6 lp:7 mem:8 kmem:9

А сейчас мы отобрали первый и третий столбцы, то есть узнали идентификационный номер каждой группы. В остальном все те же правила выбора объекта, что и для прочих опций. Символы, разделяющие столбцы, разумеется, могут быть иными, нежели двоеточие. Их нужно задавать при помощи опции -d <символ>. Есть и более наглядный способ употребления опции -d. Вместо только что описанной конструкции (-d <символ>) пишем --delim=<символ>, это кажется более надежным, чем при помощи пробела.

Остались две опции: -s и -n

Опция -s употребляется с опцией -f и приказывает не выводить на экран строки, не содержащие символов-разделителей. Ясно даже мне.

Оставшиеся неясности

Опция -n осталась неопознанной мною. Она велит ничего не делать с многобайтными символами, в частности не разбивать их. Что это за символы я не знаю, как не знаю и того, что команда cut делает с ними по умолчанию. Есть и еще одна загадка. Как обозначить разделитель, если таковым является пробел? Или два-три пробела? Все мои эксперименты ни к чему не привели. Может кто-нибудь знает? Напишите мне, мой адрес в начале статьи.

Внимание: Опции -c, -b, и -f могут употребляться только поодиночке.

Опции --help и --version общеизвестны, и задерживаться на них я не буду.

Резюме программы cut

Программа применима и эффективно работает с регулярными файлами, те есть с файлами, где из строчки в строчку повторяется некая структура информации (всякого рода списки, перечни, распечатки и прочее). Трудно представить себе, как ее можно использовать с обычным текстом, не разбитым на строки. Наличие трех подходов (байты, символы и столбцы) к определению выборки позволяют добиться успеха почти в любом случае, не одним способом, так другим. Особенно полезной может быть команда в качестве фильтра в составе программных каналов (pipes).

Описание

Команда cut позволяет выбрать из каждой строки файла нужную часть (по единому правилу для всех строк) и показать выборку на экране дисплея.

Команда имеет три основные опции:

  • -b - когда объектом выбора являются байты;
  • -с - когда объектом выбора являются символы;
  • -f - когда объектом выбора являются элементы форматирования текста (колонки, столбцы и прочее).

Внимание: Опции -c, -b, и -f могут употребляться только поодиночке.

Основные параметры

Опция -с

Например, возьмем файл /etc/shells, в целом виде он выглядит так:

/bin/bash /bin/tcsh /bin/csh /bin/ash /bin/ksh /bin/zsh

Теперь применим команду:

$ cut -c 1,5 /etc/shells // // // // // //

В данном примере опция -c означает, что объектом выбора будут символы, цифры 1 и 5 означают, что мы выбираем первый и пятый символы строки (счет идет с 1), а все остальное содержимое файла игнорируется.

Можно выбирать символы не по порядковым номерам, а диапазонами:

Cut -c 1-5 /etc/shells /bin/ /bin/ /bin/ /bin/ /bin/ /bin/

В этом случае мы выбрали символы в диапазоне с 1 по 5 (включительно).

Можно указать несколько диапазонов через запятую:

Cut -c 1-5,8-9 /etc/shells /bin/sh /bin/sh /bin/h /bin/h /bin/h /bin/h

Первые три примера имеют чисто демонстрационный характер и не имеют практического смысла. Следующий пример может претендовать на некий смысл:

$ cut -c 6- /etc/shells bash tcsh csh ash ksh zsh

Тут мы получили список доступных в системе шеллов. Для этого мы не стали указывать правую границу диапазона, что заставляет команду выдавать все содержимое строк от указанного символа до конца строки. Можно оставить прочерк с левой стороны, тогда выборка пойдет от начала строки до указанного символа.

Надеюсь, что с опцией -c ясность полная, можно переходить к следующей.

Опция -b

Весьма похожа на предыдущую опцию, как по способу задания выборки байт, так и по результатам, ведь в большинстве случаев один байт определяет один символ.

Cut -b 1-6 /etc/shells /bin/b /bin/t /bin/c /bin/a /bin/k /bin/z

Мы выбрали первые 6 байт из каждой строки файла /etc/shells.

Точно так же как и с опцией -с, можно использовать способы выборки n,m; -n; и n-. Остается лишь добавить, что символы табуляции и backspace (возврат назад на один символ с удалением его) трактуются как любой другой символ - они и занимают один байт. (Не поручусь за национальные кодировки).

Опция -f

Объектом выбора данной опции являются те самые загадочные "поля", которые так смущают в мане программы. Оказалось все просто. Выбираем мы колонки текста, или столбцы, или что еще там, разделенные знаком табуляции. Так как я таких файлов никогда не встречал, то пришлось создать специально для опытов. Вот содержимое файла tab.txt:

Qwer tyui op asdf ghjk llll zxcv bnm, ....

А вот команда:

$ cut -f 1,2 tab.txt qwer tyui asdf ghjk zxcv bnm,

Все как ожидалось, выбраны две первые колонки. Еще пример:

Cut -f 2- tab.txt tyui op ghjk llll bnm, ....

В общем понятно, схема та же, только с колонками. Вопрос в другом - где взять такие файлы с колонками, разделенными знаком табуляции, чтобы их обрабатывать?

К счастью, есть опция -d, предназначенная для работы в паре с опцией -f и понимающая другие разделители текста, кроме знаков табуляции. В директории /etc полно файлов, содержащих столбцы данных, разделенных всякими разделителями; беда только, что они довольно длинные для примеров. Я возьму первые десять строчек из файла /etc/group и создам файл group10.txt.

Cut -f 1- -d: group10.txt root::0:root bin::1:root,bin,daemon daemon::2:root,bin,daemon sys::3:root,bin,adm adm::4:root,adm,daemon tty::5: disk:!:6:root,adm,haldaemon,ya,alex lp::7:lp,ya,alex mem::8: kmem::9:

В этом примере, опция -f приказывает отбирать все столбцы, с первого до последнего, а опция -d указывает на символ, являющийся разделителем -d: разделителем служит двоеточие. Выше на экране файл group10.txt полностью.

Cut -f 1,3 -d: group10.txt root:0 bin:1 daemon:2 sys:3 adm:4 tty:5 disk:6 lp:7 mem:8 kmem:9

А сейчас мы отобрали первый и третий столбцы, то есть узнали идентификационный номер каждой группы. В остальном все те же правила выбора объекта, что и для прочих опций. Символы, разделяющие столбцы, разумеется, могут быть иными, нежели двоеточие. Их нужно задавать при помощи опции -d <символ>. Есть и более наглядный способ употребления опции -d. Вместо только что описанной конструкции (-d <символ>) пишем --delim=<символ>, это кажется более надежным, чем при помощи пробела.

Небольшая хитрость. Во многих файлах символом разделения служит пробел, или несколько пробелов подряд (например файл /etc/fstab). Чтобы указать разделитель для таких файлов, нужно заключить пробел в кавычки (одинарные или двойные); только тогда програма поймет, что разделителем служит пробел:

Cut -f 1-21 -d " " /etc/fstab /dev/hda7 swap /dev/hdb5 swap /dev/hdb1 / devpts /dev/pts devpts proc /proc usbfs /proc/bus/usb /dev/hda1 /mnt/win_c /dev/hda5 /mnt/win_d /dev/fd0 /mnt/floppy

Как указать разделителем несколько пробелов, осталось неизвестным.

Опция -s

Опция -s употребляется с опцией -f и приказывает не выводить на экран строки, не содержащие символов-разделителей. Ясно даже мне.

Опция -n

Опция -n употребляется вместе с опцией -b (когда объектом выборки являются байты). Эта опция пишется первой и запрещает команде разбивать многобайтные символы. Другими словами, если символ записывается более чем одним байтом, и мы, указывая выборку, случайно попадем на такой многобайтный символ, то в выводе программы появятся вопросительные знаки, либо квадратики, свидетельствующие о том, что программа не до конца считала этот символ и не знает как его интерпретировать. Например:

Cut -b 1-5 rus.txt йц? фы? яч?

(Символы кириллицы в кодировке UTF-8 состоят из 2 байтов). Стоит добавить опцию -n, как команда перестанет пытаться читать часть многобайтного символа:

Cut -n -b 1-5 rus.txt йц фы яч

Опция --complement

Встречается в версиях команды cut от GNU Coreutils. Но редко встречается в манах. Опция употребляется совместно с опциями -b, -c и -f. Эта опция дополнит выборку всеми остальными объектами выбора. Другими словами, те объекты, которые вы укажете, не появятся в выводе команды, зато все остальные - появятся. Например:

Cut -f 1 --complement tab.txt tyui op ghjk llll bnm, ....

Указанный первый столбец не появился, зато остальные два оказались в выводе команды. Опция очень удобна, когда у вас множество столбцов или колонок текста, а вам нужно распечатать их все, за исключением одной-двух-трех.

Опции --help и --version общеизвестны, и задерживаться на них я не буду.

Команда cut и символы кириллицы

Некоторые новейшие версии программы cut, в некоторых дистрибутивах, неплохо справляются с кириллическими символами. Другие версии, в других дистрибутивах не справляются вовсе. Я было попытался дать несколько примеров с кириллицей, но результаты на разных машинах, на разных дистрибутивах, и с разными версиями команды могли только сбить читателя с толку, не внеся никакой ясности. Поэтому общие рекомендации: не бойтесь пробовать работать с родным языком, если не получается, обновите версию программы, не выходит - попробуйте дистрибутив с другой кодировкой по умолчанию.

Несколько слов о версиях

В Линукс дистрибутивах в основном встречается команда cut от GNU Coreutils. Программа разрабатывается и новые версии появляются регулярно. Советую иметь новейшую стабильную версию. Мне попадались версии не первой свежести, которые откровенно "глючили" и не различали, скажем, опций -b и -c (cut (GNU coreutils) 5.97), а я-то думал, что так и надо. Поэтому при первом подозрении попробуйте другой дистрибутив (или LiveCD).

Резюме программы cut

Программа применима и эффективно работает с регулярными файлами, те есть с файлами, где из строчки в строчку повторяется некая структура информации (всякого рода списки, перечни, распечатки и прочее). Трудно представить себе, как ее можно использовать с обычным текстом, не разбитым на строки. Наличие трех подходов (байты, символы и столбцы) к определению выборки позволяют добиться успеха почти в любом случае, не одним способом, так другим. Особенно полезной может быть команда в качестве фильтра в составе программных каналов (pipes).


Автор: Rares Aioanei
Дата публикации: 5 января 2012 года
Перевод: А. Кривошей
Дата публикации перевода: 2 ноября 2012 г.

1. Введение

Если вы думаете, что можете администрировать Linux без использования команды cut, то вы совершенно правы. Однако владение этой очень простой утилитой командной строки даст вам определенные преимущества, так как позволит повысить эффективность своей работы. Проще говоря, cut - это одна из многих утилит для фильтрации текста, предлагаемых операционной системой Linux. Она фильтрует STDIN из другой команды или из файла и отправляет фильтрованный вывод в STDOUT.

2. Часто используемые опции

Давайте без долгих предисловий перейдем сразу к делу и изучим наиболее часто используемые опции командной строки.

-b, --bytes=LIST
выбрать из файла только заданные байты согласно списку
-c, --characters=LIST
выбрать из файла заданные символы согласно списку
-f, --fields=LIST
выбирает только поля, перечисленные в списке. Разделителем по умолчанию служит TAB. Значение по умолчанию может быть переопределено с помощью опции -d.
-d, --delimiter=DELIMITER
Позволяет задать разделитель полей. Как уже говорилось выше, значением по умолчанию является TAB, но эта опция позволяет переопределить его.

3. Использование списков

Список (list) в данном случае может состоять из одного или набора байтов, символов или полей. Например, для вывода только второго байта список будет включать единственное число 2.
Поэтому:

2 - будет выведен только второй байт, символ или поле, считая с первого.
2-5 - будут выведены все байты, символы и поля со второго по пятый.
-3 - будут выведены все байты, символы и поля до четвертого.
5- - будут выведены все байты, символы или поля, начиная с пятого.
1,3,6 - будут выведены только первый, третий и шестой байты, символы или поля.
1,3- - будут выведены первый и все байты, символы или поля, начиная с третьего.

4. Выборка по символам

Приведенные ниже примеры говорят сами за себя. Мы использовали опцию -c, чтобы выводить только заданный диапазон символов из файла cut.txt.

Echo cut-command > cut.txt $ cut -c 2 cut.txt u $ cut -c -3 cut.txt cut $ cut -c 2-5 cut.txt ut-c $ cut -c 5- cut.txt command

5. Выборка по байтам

Приницип работы опции -b (побайтно) похож на описанный выше для работы с символами. Мы знаем, что один символ имеет размер 1 байт, поэтому результат выполнения команды с опцией -b будет тот же самый.

$ cut -b 2 cut.txt u $ cut -b -3 cut.txt cut $ cut -b 2-5 cut.txt ut-c $ cut -b 5- cut.txt command

cut.txt - это простой текстовый файл в кодировке ASCII. Различия будут заметны только при использовании многобайтных кодировок, таких как UTF-8 Unicode. Например:

$ echo Lubos > cut.txt $ file cut.txt cut.txt: UTF-8 Unicode text $ cut -b 1-3 cut.txt Lu $ cut -c 1-3 cut.txt Lub

6. Выборка по полям

Как уже говорилось ранее, поле, используемое командной cut по умолчанию - это TAB. Например, создадим файл, где общим разделителем является TAB.
Подсказка: если вы не знаете, как вставить TAB в командной строке, используйте комбинацию клавиш CTRL + V, перед тем, как нажать TAB.

$ echo "1 2 3" > cut.txt $ echo "4 5 6" >> cut.txt $ cat cut.txt 1 2 3 4 5 6 $ cut -f2- cut.txt 2 3 5 6

В примере выше были выведены только второй и третий столбцы, потому что TAB является общим разделителем и в то же время используется командной cut как поле по умолчанию. Убедиться в том, что вы использовали TAB вместо пробела можно с помощью команды od:

$ echo "1 2" > tab.txt $ echo "1 2" > space.txt $ od -a tab.txt 0000000 1 ht 2 nl 0000004 $ od -a space.txt 0000000 1 sp sp sp sp sp sp sp sp 2 nl 0000013

Если необходимо переопределить поведение команды, чтобы использовать другой разделитель, имеется опция -d.

$ echo 1-2-3-4 > cut.txt $ echo 5-6-7-8 >> cut.txt $ cat cut.txt 1-2-3-4 5-6-7-8 $ cut -d - -f-2,4 cut.txt 1-2-4 5-6-8

Классический пример, где нам необходимо использовать опцию -d, чтобы извлечь список пользователей текущей системы из файла /etc/passwd.

$ cut -d: -f 1 /etc/passwd root daemon bin sys sync games man lp mail news uucp proxy www-data ...

Необходимо отметить, что для получения единообразного вывода общий разделитель должен быть унифицирован по каждой строке ввода. Например, в следующем примере было бы сложно использовать пробел в качестве общего разделителя.

$ cat cut.txt cut command w command awk command wc command $ cut -d " " -f2 cut.txt command command

В этом случае было бы намного проще воспользоваться командой awk или sed, чтобы сначала заменить множественные пробелы на единый разделитель, например запятую.

$ sed "s/\s\+/,/" cut.txt | cut -d , -f2 command command command command $ awk "{ print $2; }" cut.txt command command command command

7. Исключение данных с помощью complement

Команда cut позволяет вам выборочно включать требуемые данные в вывод. В случае, если вам необходимо выбрать данные для их исключения из вывода, очень полезна опция complement.
Пример:

$ echo 12345678 > cut.txt $ cat cut.txt 12345678 $ cut --complement -c -2,4,6- cut.txt 35

8. Примеры

Синтаксис команды Описание