Как да извечем Униикод тибетски текст от PDF файл?

Не съществува директен начин. Обикновено тибетският тескст в един PDF файл присъства като вграден обект с местна не уникод кодировка. Това се отнася и за всички останали езици включително и българския. Съответствието между код, шрифт и действителен текст при източните езици (китайски, японски , корейски, санскрит, хинди) е сложно, когато става въпрос за еднобайтово кодиране. Няма как с помощта на 128 или 256 комбинации да постигнем многообразие от 2000 или повече символа, което означава, че за изписването дори на една дума на източен език се налага използването на няколко кодови таблици при еднобайтово кодиране, всяка асоциирана с различен шрифтов файл. Затова когато си мислим за тибетски неуникод шрифт с конкретно име зад това стоят група от файлове. Например шрифта dedris съдържа 30 файла, повечети от които съдържат средно около 90 глифа. Те покриват общо около 2500 комбинации. Работата се усложнява когато се опре до стандартизация на всичко това. Решаването на проблема с източните езици е основната мотивация за изобретяване на стандарта за многобайтово кодиране Unicode. Следователно липсващите шрифтове във вашата операционната са само част от проблема.

Разбирането на същността на проблема трябва да дава отговор и на въпроса: Необходима ли е тибетизация на акаунта ни в операционната система? (ще бъде дописано по-нататък, тъй като излиза от темата)

И така, за достигане до заветната ни цел са необходими три стъпки.

1. Идентификация на необходимите не-уникод шрифтове, изтегляне и инсталиране.

За да извечем кода на местния език ни трябват съответните шрифтове, които са въведени в PDF. Как да разберем кои са те?

Като отворим PDF, отиваме на свойства (properties) и после на шрифтове (fonts). По пътя на изключване на познатото (Arial, Times New Romman,...) разбираме кои са тибетските шрифтове.

Те всъщност са няои от дадените в тази таблица.

Тук предлагам една много вероятна група шрифтове - Natartha-Sambahota (dedris,ededris,sama), които да изтеглите. Разархивирате ги и ги инсталирате (може не всички, но поне колкото са използвани в PDF-а). Това става като ги маркирате и с десен бутон на мишката избeрате install. Може да добавите и TibetanCalligraphic_fonts, но от тях много малко символи се ползват.

В настоящата инструкция използвам следните означения:
  • име на не-уникод шрифт
  • име на уникод шрифт
за да подчертая, че не-уникод шрифтовете трябва да се ползват само за разпознавателни цели.

2. Създаване на RTF-файл, в който тибетските букви се виждат

След като вече са инсталирани шрифтовете, може или целият PDF да се конверитра в Word файл, с помощта на интелегентен конвертор, или с Copy/Paste да се пренасят отделни избрани пасажи в подходящ редактор. Ако конвертора предлага RTF-формат, избирате го него. Ако не, отваряте с М$ Word (или Libre Office Writer) .docx файла и го запазвате като RTF-файл.

Това, че виждате тибетските букви, не означава, че с това работата приключва. Нито трябва да ви притеснява, че нещо е разбутано в разположението и новият текст не излежда добре форматиран. Не се занимавайте с форматиране. Не ви интересуват недостатъците на форматирането, интересува ви да получите всички символи в Unicode. На картинката се вижда, че като маркираме тибетска буква, се изписва един от шрифтовете, които e инсталиран. Той е влезнал в редактора като код с асоциираната към него местна кодова таблица и затова го вижаме. Ако маркираме повече букви или цяла строфа, името на шрифта изчезва. Спокойно, това не е дефект на конвертирането, нито пък липсващ шрифт, а особеност на азиатските букви. За да реализираме тяхното многообразие при еднобайтовото кодиране, един вид шрифт може да е недостатъчен, дори когато изписваме една дума камо ли цяла строфа. Затова, ако фиксираме един шрифт (например Dedris-a) за цялата строфа, разваляме текста, губим информация. Това е основание да не се барника по текста, докато още не разполагаме с Уникода. Като демонстрация на последното, можем да маркираме една тибетска строфа и от менюто да изберем най-стандартния Unicode шрифт възпроизвеждащ тибетските букви - Microsoft Himalaya. Поставете курсора върху картинката с docx-файла, за да видите какво става с текста. Ето това е ясна индикация, че не работим с текст в уникод. (Microsoft Himalaya върви към базисната инсталация на Windows поне от 7-ма версия насам. (Ако виждате тибетските букви སྐྱབས་སུ་མཆི། значи в операционната ви система има работещ тибетски шрифт).

Запазваме информацията в RTF-файл.

3. Обръщане na RTF-a с местни кодировки в RTF с Unicode за тибетски.

Съществува специализирана миниатюрна програмка Attu за тази цел, която трябва да се изтегли и инсталира.

Ето го резултата!

Виждаме, че на маркираните редове съответства шрифт Microsoft Himalaya, който бе предварително избран в конвертора Attu. Наместването на символите за гласни букви (лулички и крилца) става като натиснем два пъти бутона за курсив. Сравняваме резултата с първоначално създадения DOCX.

Уникод символите �� � са поставени от Attu където има неразпознат (неасоцииран със шрифт) код. В сучая това са текстови интервали със специфичен код, който още в DOCX файла виждаме като квадратчета - □□ □. Освен това двойната ваджра в двата последни прозореца е допълнително увеличена, за да се види колко грозно изглежда в уникод шрифтa Microsoft Himalaya в сравнение с не-уникод шрифта TibetanCaligraphicSkt4. Какво да правим в случай, че искаме да я ползваме като текстови символ? Винаги трябва първо да мислим за това всичко да е в Unicode! Форматирането е задача за избор на шрифтове, след като е постигнат кода. Следователно няма да се връщаме към TibetanCaligraphicSkt4, а ще търсим да инсталираме Unicode шрифт, по-добър от предназначения за общо ползване и комуникация Microsoft Himalaya, такъв с добра калиграфия, с красива ваджра. Тъкмо това ни съветват в сайта.

``Click on the font name in the leftmost column to access information on that fonts, including downloads if available. "Legacy" that these fonts use non-Unicode standards, such that they are no longer of use. We strongly recommend against using them for any purpose other than viewing materials already created in those fonts. For new work, please use Unicode.''

Някои Unicode шрифтове като тези (плъзнете курсора по редовете):

са свободно достъпни, други като Sambhota tibetan fonts са платени. Предложените по-горе над 60 неуникод шрифтови файла са изтеглени от FontsGeek един по един.

Предимства на Unicode

Unicode е като конвертируемата валута, с която можем да пазаруваме по цял свят и най-вече в интернет: Amazon, e-Bay, PayPal,... Файл с уникод текст е като кредитна карта в конвертируема валута: долари, евро. Всяка модерна програма, допускаща въвеждане на текст работи с Unicode.

Някои полезни връзки и съвети