Сжатие информации

Сжатие информации возможно при наличии избыточности в сообщении. Различают следующие виды избыточности.

Естественная избыточность связана с  первичным алфавитом, а искусственная с вторичным алфавитом.  Мысль, выраженная более кратко без потери информации, обуславливает семантическую избыточность. Статистическая избыточность обуславливается не равновероятностным распределением качественных признаков первичного алфавита и их взаимозависимостью.  

Классификация сжатия по виду информации

1.   Побуквенное сжатие

2.   Сжатие слов и словосочетаний

3.   Сжатие и свертывание текста

4.   Сжатие массивов чисел

5.   Сжатие графической информации  

1) Побуквенное сжатие

·     Оптимальные коды (коды Хаффмана)

·     Блочное кодирование

·     Переход к кодированию с основанием больше двух :

                

2) Сжатие слов и словосочетаний

·     Аббревиатура

·     Иероглифы

·     Отбрасывание окончаний слов

·     Отбрасывание часто повторяющихся букв

·     Выборочное отбрасывание букв

КИБЕРНЕТИКА

КБРЕИА

КРИ

·     Лексическое кодирование

При лексическом кодировании отдельные лексемы заменяются   двоичными кодами

Наименование лексем

Длина в байтах

N-кол. лексем

log2N бит

Фамилия

20

1000

10 бит

Имя

15

100

7 бит

Отчество

20

100

7 бит

Должность

30

50

6 бит

Отдел

50

30

5 бит

 

135байт

 

»5 байт

Таким образом, получили сжатие в 135/5=27 раз.

        3) Сжатие и свертывание текста

·     Библиогафическое описание (УДК, Автор, наименование, издательство)

·     Аннотация (до 2/3 страницы)

·     Реферат (до 16 стр., Автореферат - один печатный лист) 

4)    Сжатие массивов чисел

При сжатии массивов чисел широко используется метод Бабко. На предприятиях номенклатура (это изделия, материалы, инструменты и др.) кодируются десятичными номерами. Массивы таких чисел могут составлять десятки тысяч. Если этот массив чисел упорядочить в порядке возрастания, то последующие числа будут отличаться от предыдущих чисел только младшими разрядами. Тогда можно все повторяющиеся цифры заменить одним символом, например w.  

5 5 3 8 1 4 2

5 5 3 8 1 4 2

5 5 3 8 1 4 3

w3 w5 w 6 1

5 5 3 8 1 4 5

w3

5 5 3 8  16 1

 

5 5 3 8 1 6 3

 

        5) Сжатие графической информации

·    Кодирование серий «0» и «1»

L(0) : M(0) = 2L(0)-1

L(1) : M(1) = 2L(1)-1  

0

000

00

001

000

010

0000

011

00000

100

больше 5-ти нулей

101

больше 10-ти нулей

110

больше 15-ти нулей

111

Пример :

  18 нулей

  Код - 111010 

·    Замена повторяющихся символов их количеством

Пример :

AAAABBBCCCCCDD

Код - 4A3B5C2D

·     Короткие коды и коды повторения 

Для сжатия информации  широко используются программы-упаковщики (архиваторы). Наиболее популярными являются PKZIP/PKUNZIP, ARJ, ARC, LHARC, PAK, RAR, WINRAR, WINZIP и др.

Сжатие данных применяется при резервном копировании, при хранении информации, а также при передаче в телекоммуникационных сетях. Сжатые данные будут передаваться быстрее по сети.

Hosted by uCoz