Маленькое исследование. Нам похожую штуку давеча давали в универе в качестве дз, но так как я сейчас сам разрабатываю утилиту для сжатия файлов, я решил пойти чуть дальше и провести чуть более глубокий анализ. Надо признать, глубины ему сильно недостает, поскольку я сознательно не учитываю несколько порой немаловажных факторов, но это уже в принципе что-то.
Сейчас опишу свои выводы на основе всего этого.
Начнем с того, что зипы сосут бибу. Что гнушный, что кацевский. Хотя есть и довольно удивительный момент: гзип умудрился выиграть по сжатию на jpeg файлах, которые, между прочим, уже изначально неплохо так сжаты. Интересно, почему так.
Ну и, очевидно, рар в среднем тащит. При этом в среднем рар4 сжимает почти в три раза лучше простого рара (это если судить просто по соотношении количества зеленых строчек). Рары обеих версий проиграли зипам только на трех файлах. Причем лично мне вообще непонятно, почему рар4 лучше всех сжал файлы с цифрами корня из двух, но так обосрался на файле с двойкой в стомиллионной степени, хотя по сути эти файлы состоят из одного и того же алфавита из десяти цифр и должны иметь практически равную энтропию. Можно еще отметить интересную закономерность касательно wav-файлов: обычный рар лучше сжимает более простые файлы: запись одного звука, запись шума леса и дорожка мультитрека с большими интервалами тишины - а рар4 умудряется затащить файлы уже полноценных треков, которые по идее куда менее предсказуемы.
Итоговый рейтинг получается такой:
- RAR4
- RAR
- GZIP
- ZIP