Автоопределение кодировки текстового файла в shell
Anarchist 17 мая, 2012 - 10:18
Когда-то давным-давно, лет 10 с гаком тому назад, была ныне мёртвая утилитка --- Russian Anywhere.
Как практически следует из названия, утилитка перекодировала текстовые файлы.
При этом в отличие от iconv
'а не останавливается на символе, которые не может перекодировать (отсутствующий в to charset).
И, что куда интереснее, умеет (пусть не всегда правильно) самостоятельно определять кодировку исходного файла.
С учётом реально существующего зоопарка кодировок многострадального русского языка и отношением одной небезызвестной фирмы к стандартам --- функция мечтами крайне полезная.
Вопрос: есть ли актуальная (ныне здравствующая) shell-утилита, умеющая в том числе автоопределение кодировки текстового файла или ничего не упустил?
»
- Для комментирования войдите или зарегистрируйтесь
>>При этом в отличие от
>>При этом в отличие от iconv
Вы бы хоть ман на него почитали. Ну нельзя же так, с такими то гаками, право слово.
man iconv
.....
-c Omit any characters that are invalid in the codeset of ...
.....
>>И, что куда интереснее, умеет самостоятельно определять кодировку ....
Лет эдак пять назад (с гаком) в наставлениях по ютификации генты рекомендовалась утилита app-i18n/enca
.
...и ведь читал, но не обратил вниманния (поленился лезть в словарь).
Оно.
Опять же: установлено, и помнил ведь (когда-то давно).
Вот что значит отсутствие практики.
* практически стыдно
:wq
--
Live free or die
.
По предварительным результатам автоопределение
enca
качественно не отличается от ручного перебора по известному списку (KOI8-R/CP1251/CP866/UTF8, экзотика типа ISO идёт особняком).Что можно проделать и ручками.
Интересны же более экзотические ситуации, когда подстановка значений списка известного набора не помогает.
:wq
--
Live free or die
Anarchist
Какие кодировки не известны enca?
Я ♥ Gentoo & Funtoo