<<< оглавление >>>

руководство пользователя для gnu awk

arnold d. robbins
перевод балуева а. н.

6. печатный вывод

одно из наиболее частых действий есть печать, или вывод, части или всего входа. оператор print используется для простого вывода. оператор printf употребляют знатоки форматирования. оба оператора описаны в этой главе.

6.1 оператор print

оператор print производит печать в стандартном формате. вы только указываете цепочки и номера для печати в списке, разделенном запятыми. они печатаются с разделением пробелами и newline. оператор выглядит так: print item1, item2, ... весь список можно заключать в скобки. они необходимы, если в каком-нибудь из выражений в списке используется операция отношения `>' ; в противном случае он может быть спутан с перенаправлением (см. раздел 6.6 [перенаправления выхода print и printf], стр. 70).

аргументы (items) могут быть строковыми постоянными или числами, полями текущей записи (такими как $1), переменными или другими выражениями awks. численные значения превращаются в цепочки и затем печатаются.

оператор print руководствуется общими правилами. кроме двух исключений, вы не можете указывать как печатать данные --- в сколько столбцов, использовать ли экспоненциальные обозначения для чисел и пр. (по поводу исключений см. раздел 6.3 [разделители вывода], стр.63, и раздел 6.4 [управление численным выводом при печати], стр 64.) для этого нужен оператор printf (см. раздел 6.5 [употребление операторов printf для декоративной печати], стр. 64).

простой оператор `print' без аргументов эквивалентен `print $0': он печатает всю текущую запись. для печати пустой строки употребляют `print ""', где "" означает пустую цепочку. для печати фиксированного куска текста используют строковые постоянные, такие как "don't panic" в качестве одного аргумента. если вы забудете указать символы двойных кавычек, ваш текст будет воспринят как выражение awk и вы, вероятно, получите ошибку. помните, что пробел печатается между каждой парой значений аргументов.

каждый оператор print выдает по крайней мере одну строку, но не ограничивается одной строкой. если значение аргумента есть цепочка, содержащая newline, то newline входит в вывод вместе с остатком цепочки. поэтому один оператор print этим способом может выдать любое число строк.

6.2 примеры операторов print

вот примеры печати цепочек, содержащих внутренние newline (`\n' есть управляющая последовательность для представления символа newline; см. раздел 4.2 [управляющие последовательности], стр. 24):

$ awk 'begin { print "line one\nline two\nline three" }'
-| line one
-| line two
-| line three

следущий пример печатает два первых поля
каждой входной записи с пробелом между ними:

$ awk '{ print $1, $2 }' inventory-shipped
-| jan 13
-| feb 15
-| mar 15...

обычная ошибка при употреблении оператора --- пропуск запятой между двумя аргументами оператора print. это часто приводит к печати аргументов на выходе подряд, без пробелов. причина в том, что расположение рядом двух строковых выражений в awk означает их конкатенацию.

вот результат той же самой программы
с пропущенной запятой:

$ awk '{ print $1 $2 }' inventory-shipped

-| jan13
-| feb15
-| mar15...

для человека, незнакомого с файлом `inventory-shipped', результат обоих примеров имеет мало смысла. заголовок в начале пояснит результат. добавим заголовки к нашей таблице месяцев ($1) и зеленых корзин, отправленных морем ($2). сделаем это с помощью образца begin (см. раздел 8.1.5 [специальные образцы begin и end], стр. 100) для печати заголовков один раз:

awk 'begin { print "month crates" print "----- ------" } { print $1, $2 }' inventory-shipped

вы уже догадались, что получится? при исполнении программа напечатает следующее:


month crates ----- ------ jan 13 feb 15 mar 15...

заголовки и табличные данные не выравниваются! можно исправить это, печатая несколько пробелов между полями:

awk 'begin { print "month crates"
print "----- ------" }{ print $1, " ", $2 }' inventory-shipped

нетрудно себе представить, что этот путь окажется сложным, если используется много столбцов. подсчет пробелов для двух или трех довольно прост, но если их больше, вы можете сбиться в подсчете. для таких целей был создан оператор printf (см. раздел 6.5 [использование операторов printf для декоративной печати], стр. 64); одно из его назначений состоит в выравнивании столбцов данных. заметим, что можно продолжать операторы print или printf, используя newline после любой запятой (см. раздел 2.6 [awk-операторы и строки], стр. 17).

6.3 разделители выхода

как уже говорилось, операторы печати содержат списки аргументов, разделенных запятыми. на печати образы аргументов нормально разделяются одиночными пробелами. но это не обязательно так, а только по умолчанию. можно указывать любую цепочку символов для использования в качестве разделителя полей на выходе с помощью встроенной переменной ofs. начальное значение этой переменной есть цепочка " ", т.е. один пробел. результат отдельного оператора печати называется выходной записью. каждый оператор печати выдает одну выходную запись, а затем выдает цепочку, называемую разделителем выходных записей. встроенная переменная ors указывает эту цепочку.

ее начальное значение есть "\n", т.e. символ newline; таким образом, нормально каждый оператор печати выдает отдельную строку. можно изменять разделители выходных полей и записей присваиванием новых значений переменным ofs и/или ors. обычное место делать это есть правило begin (см. раздел 8.1.5 [специальные образцы begin и end], стр. 100), т.е. до обработки любого входа. можно также делать это присваиванием в командной строке, перед именами входных файлов, или с помощью параметра командной строки `-v' (см. раздел 14.1 [параметры командной строки], стр. 161).

следующий пример печатает первое и второе поля каждой входной записи, разделенные точкой с запятой и добавляет пустую строку после каждой печатаемой строки:


$ awk 'begin { ofs = ";";ors = "\n\n" } 
>            { print $1, $2 }' bbs-list

-| aardvark;555-5553

-| alpo-net;555-3412

-| barfly;555-7685...

усли значение ors не содержит newline, весь выход пойдет в одну строку, если вы не вставите newline каким-нибудь другим путем.

6.4 управление печатью численного вывода

если используете оператор print для печати числовых значений, awk внутри себя превращает число в цепочку символов и печатает эту цепочку. awk использует для этого функцию sprintf (см. раздел 12.3 [встроенные функции для действий со строками], стр. 137). в настоящий момент достаточно сказать, что sprintf воспринимает указания формата о форме числа (или цепочки), и что имеется много видов форматирования чисел. различные спецификации форматов подробно обсуждаются в разделе 6.5.2 [буквы, управляющие форматом], стр. 65.

встроенная переменная ofmt содержит спецификацию формата по умолчанию, которую print использует с sprintf при превращении числа в цепочку символов для печати. это значение ofmt есть "%.6g". используя различные значения ofmt в качестве спецификаций формата, можно менять форму чисел, печатаемых оператором print.

вот короткий пример:

$ awk 'begin { 
> ofmt = "%.0f" # печатает числа как целые (округленные)
> print 17.23 }'
-| 17

соответственно стандарту posix, действия awk становятся неопределенными, если ofmt содержит что-нибудь кроме спецификаций преобразования чисел с плавающей запятой (d.c.).

6.5 использование операторов printf для декоративной печати

если необходим более полный контроль за форматом печати, который обеспечивает print, используйте printf. с его помощью можно указывать ширину печати каждого аргумента и различные форматы для чисел (такие как основание системы счисления, печатать ли экспоненту, знак и сколько цифр после десятичной точки). это делается с помощью цепочки, называемой форматной цепочкой, которая определяет, как и где печатать другие аргументы.

6.5.1 введение в описание оператора printf

оператор printf имеет следующую форму:

printf формат, аргумент1, аргумент2, ...

весь список аргументов можно заключать в скобки. скобки необходимы, если в в выражениях какого-нибудь аргумента использован знак `>' оператора отношения, так как иначе он может быть спутан с перенаправлением (см. раздел 6.6 [перенаправление выхода print и printf], стр. 70).

разница между printf и print состоит в аргументе format. он представляет выражение, значением которого является цепочка; она определяет форму вывода каждого из остальных аргументов и называется форматной строкой. эта цепочка очень похожа на форматную строку функции printf в библиотеке ansi c. большая часть форматного текста без изменений поступает на вывод. в нем содержатся также части, специфицирующие формат, по одной на каждый аргумент. каждый спецификатор формата предписывает поместить вывод следующего аргумента из списка аргументов в соответствующем ему месте форматного текста. оператор printf не завершает автоматически вывод переходом к новой строке. он выдает только то, что указано в форматной строке. так что если вы хотите перейти к новой строке, вы должны указать это в форматной строке. переменные разделителей вывода ofs и ors не действуют на операторы printf.

например:

begin {
ors = "\nouch!\n"; ofs = "!" msg = "don't panic!";

printf "%s\n", msg }

эта программа все так же печатает знакомый совет

`don't panic!'.

6.5.2 буквы управления форматом

спецификатор формата начинается с символа `%' и кончается буквой управления форматом; она сообщает оператору printf, как выводить аргумент. (если вы фактически хотите вывести `%', пишите `%%'.) буква управления форматом указывает, какой вид значения печатать. остальная часть спецификатора формата состоит из выборочных модификаторов, служащих параметрами действия, такими как ширина поля.

приведем список букв управления форматом:

c   печатает число в виде одного символа  ascii.
так, `printf "%c", 65' выводит букву `a'.
выводом строкового значения будет первый символ цепочки.

d и i  эквивалентны. обе печатают десятичное целое.
спецификация `%i' введена для совместимости с  ansi c.

e или e  означают число в научной (экспоненциальной) форме.

например,

printf "%4.3e\n", 1950 напечатает `1.950e+03', с четырьмя значащими цифрами, из которых три расположены после десятичной точки. `4.3' представляют модификаторы, обсуждаемые ниже. `%e' использует `e' вместо `e' в печатаемом результате.

f означает печать числа с плавающей точкой. например, printf "%4.3f", 1950 выдает `1950.000', с четырьмя значащими цифрами, три из которых следуют за десятичной точкой. `4.3' есть модификаторы, обсуждаемые ниже.

g g означает печать числа в экспоненциальной форме или с плавающей точкой, выбирая ту, которая содержит меньше символов. если результат печатается в экспоненциальной форме, `%g' использует `e' вместо `e'.

o означает печать восьмеричного целого без знака. (в этой форме с основанием восемь используются цифры от `0' до `7'; десятичное число восемь представляется как восьмеричное `10'.)

s      означает печать цепочки.

x x означает печать шестнадцатеричных целых без знака. (в шестнадцатеричной форме с основанием 16 цифрами служат цифры от `0' до `9' и буквы от `a' до `f'. шестнадцатеричная цифра `f' представляет десятичное число 15.) `%x' предписывает использовать буквы от `a' до `f' вместо букв от `a' до `f'.

% этот символ в действительности не есть буква управления форматом, но имеет особый смысл при использовании после `%': последовательность `%%' выдает один `%'. он не использует аргумент и игнорирует всякие модификаторы.

при использовании букв, управляющих форматом целых чисел, для чисел, выходящих за пределы, установленные для целых типа c long, gawk переключается на формат `%g'. другие версии awk могут печатать неправильные значения или предпринимать совершенно иные действия (d.c.).

6.5.3 модификаторы в форматах для printf

спецификатор формата может включать в себя модификаторы, определяющие, какая порция значения аргумента печатается и сколько места получает. модификаторы располагаются между `%' и управляющей форматом буквой. в следующих ниже примерах мы используем маркер "ffl" для представления пробелов в выводе. приведем возможные модификаторы в порядке, в котором они могут появиться:

- знак минуса, используется перед модификатором ширины (см. ниже), требует выравнивания аргумента по левому краю поля указанной ширины. нормально аргумент выравнивается по правому краю. так, printf "%-4s", "foo" печатает `fooffl'.

пробел при выдаче чисел предваряет пробелом положительные значения и минусом отрицательные.

+ знак плюса пишется перед модификатором ширины (см. ниже), требует всегда ставить знак числа во всех случаях. `+' подавляет модификатор пробел.

# означает "альтернативную форму" для некоторых управляющих букв. для `%o' требует добавить ведущий ноль. для for `%x' и `%x' добавить ведущий `0x' или`0x' в случае ненулевого результата. для `%e', `%e'и `%f' результат всегда будет иметь десятичную точку. при `%g' и `%g' завершающие нули не удаляются из результата.

0 ведущий `0' (ноль) действует как флажок, указывающий, что вывод должен заполняться нулями вместо пробелов. это применяется даже к нечисловым форматам вывода (d.c.). этот флажок действует только тогда, когда ширина поля больше печатаемого значения.

ширина это число, указывающее желаемую минимальную ширину поля. помещение любого числа между знаком `%' управляющий форматом буквы требует расширения поля до указанного размера. способ сделать это по умолчанию состоит в заполнении поля пробелами слева.

например, printf "%4s", "foo" печатает `fflfoo'. значение ширины есть минимальная ширина, а не максимальная. если значение аргумента требует знаков больше, чем указанная ширина, ширина увеличивается до необходимой. так printf "%4s", "foobar" печатает `foobar'. указание знака минус перед шириной предписывает пополнять вывод пробелами справа, а не слева.

.prec (точность) это число, которое указывает точность при печати. в случае форматов `e', `e' и `f' оно означает количество цифр, которые вы хотите напечатать справа от десятичной точки. для форматов `g' и `g' оно указывает максимальное количество значащих цифр. для форматов `d', `o', `i', `u', `x' и `x' оно указывает минимальное количество печатаемых цифр. для цепочек оно указывает максимальное количество знаков из цепочки, которые должны быть напечатаны. таким образом,


printf "%.4s", "foobar" печатает `foob'.

поддерживаются также динамическая ширина и свойство prec оператора printf из библиотеки си (for example, "%*.*s"). вместо явного указания ширины и/или значений prec в форматной строке их можно передавать в списке аргументов.

например:

w = 5 p = 3 s = "abcdefg" printf "%*.*s\n", w, p, s
в точности эквивалентно
s = "abcdefg" printf "%5.3s\n", s

обе программы напечатают `fflfflabc'.

ранние версии awk не имели этой возможности. если вам приходится использовать такую версию, можно моделировать упомянутое свойство, используя конкатенацию при построении форматной строки, подобен следующему:

w = 5 p = 3 s = "abcdefg"

printf "%" w "." p "s\n", s

это не очень легко читать, но это работает.

си-программисты могли привыкнуть употреблять дополнительные флажки `l' и `h' в форматной строке printf. но они отсутствуют в awk. большинство реализаций awk молчаливо игнорируют эти флажки. если `--lint' указано в командной строке (см. раздел 14.1 [параметры командной строки], стр. 161), gawk предостережет от их использования. если указано `--posix', их использование приведет к фатальной ошибке.

6.5.4 примеры употребления printf

покажем, как использовать printf для выдачи выровненной таблицы:
awk '{ printf "%-10s %s\n", $1, $2 }' bbs-list печатает имена досок объявлений

($1) из файла `bbs-list' в виде цепочки 10 символов, выровненной по левому краю. она также печатает телефонные номера ($2) дальше в строке. это оформляется в виде выровненной двух-столбцовой таблицы имен и телефонных номеров:


$ awk '{ printf "%-10s %s\n", $1, $2 }' bbs-list
-| aardvark 555-5553
-| alpo-net 555-3412
-| barfly 555-7685
-| bites 555-1675
-| camelot 555-0542
-| core 555-2912
-| fooey 555-1234
-| foot 555-6699
-| macfoo 555-6480
-| sdace 555-3430
-| sabafoo 555-2127


заметили ли вы, что мы не указывали, чтобы телефонные номера печатались как числа? они должны печататься как цепочки, потому что разделены знаком дефиса если бы мы пытались напечатать телефонные номера как числа, все что мы могли бы получить, было тремя первыми цифрами, `555'. это было бы очень плохо.

мы не указывали ширину телефонных номеров, потому что они располагаются в концах своих строк. после них не нужно располагать пробелы. мы могли бы сделать нашу таблицу красивее, добавив заголовки вверху колонок. чтобы сделать это, используем образец begin (см. раздел 8.1.5 [специальные образцы begin и end], стр.100), чтобы заголовок напечатался только один раз, в начале awk-программы:

awk 'begin { print "name number"
print "---- ------" } { printf "%-10s %s\n", $1, $2 }' bbs-list

в этом примере мы смешали опереторы print и printf. мы могли употребить только операторы printf для получения того же результата:

awk 'begin { printf "%-10s %s\n", "name", "number"
printf "%-10s %s\n", "----", "------" } { printf "%-10s %s\n", $1,
 $2 }' bbs-list

печатая заголовок каждой колонки с теми же спецификациями формата, которые использовались для элементов столбца, мы обеспечили выравнивание заголовков так же как и столбцов.

факт, что та же спецификация формата используется три раза, может быть подчеркнут помещением ее в переменную, подобно следующему:

awk 'begin { format = "%-10s %s\n"

printf format, "name", "number"

printf format, "----", "------" } { printf

format, $1, $2 }' bbs-list

попробуйте с помощью printf расположить в одой линии заголовки и табличные данные для нашей `inventory-shipped', рассмотренной ранее в разделе об операторе print (см. раздел 6.1 [оператор print], стр. 61).

6.6 перенаправление вывода от print и printf

до сих пор мы имели дело с выходом от печати только на стандартное устройство, обычно на терминал. и print и printf могут также посылать результаты своей работы в другие места. это называется перенаправлением.

перенаправление ставится после операторов print или printf. перенаправление в awk записывается точно так же как и в командах оболочки, только они пишутся внутри awk-программы.

имеются три формы перенаправления: в файл, в конец файла, и в вывод по конвейеру в другую команду. мы покажем их для оператора print, но они точно такие же и для printf.

print items > output-file

этот тип перенаправления печатает в файле с именем output-file, заданном любым выражением. его значение преобразуется в цепочку и затем используется как имя файла (см. главу 7 [выражения], стр. 77).

когда используется такой тип перенаправления, выходной файл очищается перед выводом в него. во втором случае результаты дописываются в конец указанного файла без его предварительной очистки. если файла не было, он создается.

вот пример того, как awk-программа напишет список имен bbs в файл `name-list' и список телефонных номеров в файл `phone-list'. каждый выходной файл содержит по одному имени или номеру в каждой строке.

$ awk '{ print $2 > "phone-list" ?
print $1 ? "name-list" }' bbs-list
 $ cat phone-list
-| 555-5553
-| 555-3412...
$ cat name-list
-| aardvark
-| alpo-net...
print items >> output-file

этот тип перенаправления выдает результаты в существующий выходной файл с именем output-file. разница между этим и перенаправлением с одним только `>' состоит в том, что прежнее содержимое ( если оно было) выходного файла не стирается. вместо этого выход от awk приписывается в конец файла. если файла не было, он создается вновь.

команда print items

можно также посылать результаты печати вместо файла в другую программу через конвейер. этот тип перенаправления открывает конвейер для команды и передает значения аргументов по этому конвейеру другому процессу, созданному для выполнения команды. команда перенаправления аргумента фактически является выражением awk. его значение преобразуется в цепочку, содержание которой служит командой оболочки, подлежащей исполнению. например, следущее производит два файла, один --- несортированный список имен bbs и другой --- список, отсортированный в обратном алфавитном порядке:

awk '{ print $1 > "names.unsorted"
command = "sort -r > names.sorted"
print $1 | command }' bbs-list

здесь не отсортированный список пишется с обычным перенаправлением, а отсортированный записывается по конвейеру через утилиту сортировки. следующий пример использует перенаправление для отправки сообщения в почтовый список `bug-system'. это может быть полезным поддержки системы, если ошибки часто обнаруживаются при исполнении сценария awk.

report = "mail bug-system"
print "awk script failed:",
$0 | report m =
("at record number " fnr " of " filename)
print m | report close(report)

сообщение строится с использованием конкатенации строк и сохраняется в переменной m. затем оно посылается через конвейер в почтовую программу. мы вызываем функцию close, потому что полезно закрывать конвейер как только весь вывод поступил в него. см. раздел 6.8 [закрытие входных и выходных файлов и конвейеров], стр. 74, для подробного ознакомления. этот пример также иллюстрирует использование переменных для представления файлов или команд: необязательно использовать всегда строковые константы. использование переменных является полезной идеей, так как awk требует, чтобы всегда строковые значения одинаково записывались.

перенаправление вывода с использованием `>', `>>' или `|' просит систему открывать файл или конвейер только если соответствующий файл или команда, указанные вами, еще не использовались вашей программой или были закрыты после последнего обращения к ним.

как ранее уже говорилось (см. раздел 5.8.8 [обзор вариантов getline], стр. 59), многие реализации awk ограничивают число конвейеров, которые может открыть awk-программа, только одним! в gawk такого ограничения нет. вы можете открыть их столько, сколько позволяет используемая операционная система.

6.7 специальные имена файлов в gawk

выполняемые программы обычно используют три входных и выходных потока, доступных им для чтения и записи. это стандартные ввод, вывод и сообщения об ошибках. по умолчанию они привязаны к вашему терминалу, но часто перенаправляются оболочкой через операторы `<', `<<', `>', `>>', `>&' и `|'. выход по ошибке обычно используется для печати сообщений об ошибках; причина того, что имеются отдельные потоки standard output и standard error состоит в том, что их можно отдельно перенаправлять. в других реализациях awk единственный способ написать сообщение об ошибке в standard error в awk-программе таков:

print "serious error detected!" | "cat 1>&2"

это открывает конвейер к команде оболочки, которая имеет доступ к потоку standard error, полученный от процесса awk. это далеко от элегантности и неэффективно, поскольку требует отдельного процесса. поэтому авторы awk-программ часто отказываются от этого. вместо него они выводят сообщения об ошибках на терминал подобно следующему:

print "serious error detected!" > "/dev/tty"

это обычно имеет тот же самый эффект, но не всегда: хотя стандартным выходом для ошибок служит терминал, он может быть перенаправлен. и когда это случается, запись на терминал происходит неправильно. в случае, когда awk исполняется из фонового задания, оно вообще может не иметь терминала. тогда открытие /dev/tty невозможно, и gawk генерирует специальные файловые имена для доступа к трем стандартным потокам. когда вы перенаправляете ввод или вывод в gawk и имя файла соответствует одному из этих специальных имен, то gawk непосредственно использует поток, которому оно соответствует.

`/dev/stdin'

стандартный ввод (file descriptor 0).

`/dev/stdout'

стандартный вывод (file descriptor 1).

`/dev/stderr'

стандартный выход в случае ошибки (file descriptor 2).

`/dev/fd/n '

файл, соответствующий файловому дескриптору n. такой файл должен быть открыт программой, инициирующей выполнение awk (обычно это делает оболочка). если вы не предприняли специальных мер в оболочке, из которой вы запускаете gawk, вам доступны только дескрипторы 0, 1 и 2. имена файлов `/dev/stdin', `/dev/stdout' и `/dev/stderr' являются алиасами для `/dev/fd/0', `/dev/fd/1' и `/dev/fd/2' соответственно, но они больше самопонятны.

хороший способ писать сообщения об ошибках в программах gawk ---- пользоваться именем `/dev/stderr' подобно следующему:

print "serious error detected!" > "/dev/stderr"

gawk имеет также специальные файловые имена, дающие доступ к информации о исполняющихся процессах gawk. каждый из этих "файлов" обеспечивает одну запись с информацией. чтобы прочесть их более одного раза, нужно сначала закрыть их функцией close (см. раздел 6.8 [закрытие входных и выходных файлов и конвейеров], стр. 74). имена этих файлов:

`/dev/pid'

чтение этого файла сообщает идентификатор id текущего процесса, в десятичном виде, заканчивая переводом строки.

`/dev/ppid'

чтение этого файла выдает идентификатор процесса, породившего текущий процесс, в десятичной форме, заканчивая его переводом строки.

`/dev/pgrpid'

чтение этого файла дает идентификатор группы процессов для текущего процесса.

`/dev/user'

чтение этого файла выдает одну запись с полями, разделенными пробелами. поля содержат следующую информацию:

$1 ответ на системный вызов  getuid

(идентифицирующий номер пользователя (real user id number)).

$2 ответ на системный вызов  geteuid  (the effective user id number).

$3 ответ на системный вызов  getgid (the real group id number).

$4 ответ на системный вызов  getegid (the effective group id number).

если имеются дополнительные поля, они содержат групповые идентификаторы, сообщаемые системным вызовом getgroups. (кратные группы поддерживаются не на всех системах.)

указанные специальные имена файлов могут использоваться в командной строке как файлы с данными , а также для перенаправлений i/o в программе awk. они не должны использоваться как исходные файлы с параметром `-f'.

распознавание этих специальных файлов имен невозможно, если gawk действует в совместимом режиме (см. раздел 14.1 [параметры командной строки], стр. 161).

внимание: если ваша система имеет каталог `/dev/fd' (или с именем одного из перечисленных выше специальных файлов), интерпретация этих файловых имен производится самой gawk. например, использование `/dev/fd/4' для вывода приведет к записи на дескриптор файла 4, а не на дескриптор нового файла, который был скопирован (dup'ed) с файлового дескриптора 4. в большинстве случаев это не имеет значения; однако, важно не закрывать никаких файлов, относящихся к файловым дескрипторам 0, 1 и 2. если закрыть один из таких файлов, могут произойти непредсказуемые результаты.

специальные файлы, содержащие относящуюся к процессу информацию, могут быть удалены из последующих версий gawk. см. раздел c.3 [вероятные будущие расширения], стр.299.

6.8 закрытие входных и выходных файлов и конвейеров

если одно и то же имя файла или той же команды оболочки использовано в getline (см. раздел 5.8 [явный ввод с getline], стр. 53) более одного раза во время выполнения awk-программы, то файл открывается (или команда исполняется) только в первый раз. в это время первая запись ввода читается из этого файла или команды. в следующий раз, когда тот же файл или команда используются в getline, другая запись читается из них и т.д. подобно этому, когда файл или команда открывается для вывода, имя файла или команды запоминается и впоследствии awk дописывает информацию в тот же самый файл или команду. файл или конвейер остаются открытыми до выхода из awk. из этого следует, что если вы хотите читать тот же самый файл опять с начала или хотите снова запустить ту же команду оболочки (вместо продолжения чтения информации из команды), вы должны предпринять специальные шаги. именно, вы должны употребить функцию

 close следующим образом:

close(имя файла) или close(команда)

аргументом close может быть любое выражение. его значение должно точно соответствовать цепочке, используемой для открытия файла или запуска команды (включая пробелы и другие дополнительные символы).

например, если вы открываете конвейер так:

"sort -r names" > getline foo

то вы должны закрывать его так:

close("sort -r names")

если такой вызов функции исполняется, то следующая getline из этого файла или команды, или следующий print или printf для этого файла или команды снова откроет этот файл или перезапустит эту команду. по той причине, что выражение, использованное для закрытия файла или конвейера, должно точно соответствовать выражению, использованному при открытии файла или запуске команды, полезно использовать переменную для запоминания имени файла или команды.

предыдущий пример превратится в

sortcom = "sort -r names" sortcom > getline foo ...

close(sortcom)

это поможет избежать трудно обнаруживаемых типографических ошибок в ваших awk-программах. приведем несколько причин, по которым может понадобиться закрывать выходной файл:

а. записать в файл и позднее прочесть записанное в той же самой программе awk. для этого закройте файл после окончания записи в него. затем вы можете начать чтение из него по getline.

б. писать во многие файлы последовательно в той же самой awk-программе. если вы не будете закрывать их, в конце концов вы превысите системный предел на количество открытых файлов в одном процессе. так что закрывайте каждый файл после окончания записи в него.

в. осуществить конец команды. когда вы пере направляете вывод через конвейер, команда чтения конвейера обычно продолжает читать ввод до тех пор, пока конвейер открыт. часто это значит, что команда не может фактически выполнить свою работу, пока конвейер не будет закрыт. например, если вы перенаправляете вывод в почтовую программу, сообщение фактически не будет послано до закрытия конвейера.

г. выполнить ту же самую программу во второй раз с теми же аргументами. это не то же самое, что дать больше входных данных при первом прогоне! предположим, например, что вы передаете результат по конвейеру в почтовую программу. если вы выводите несколько строк, перенаправленных в этот конвейер, не закрывая его, создается одно сообщение из нескольких строк. наоборот, если вы закрываете конвейер после выдачи каждой строки, то каждая строка становится отдельным сообщением.

операция close возвращает в ответ 0, если успешно завершилась. в противном случае ответ будет не ноль и gawk устанавливает в переменной errno цепочку с описанием ошибки.

если вы используете больше файлов, чем позволяет открыть система, gawk будет пытаться мультиплексировать доступные открытые файлы среди ваших файлов с данными. способности gawk в этой области зависят от возможностей вашей операционной системы, и это не всегда сработает. поэтому для надежности программы и большей переносимости следует всегда закрывать файлы после окончания работы с ними.


<<< оглавление >>>