Цахим тооцоолуурт бид тоглоом тоглох, зураг зурахаас бусад бараг бүх ажлыг бичиж хийдэг. Программ бичих, баримт боловсруулах, хоорондоо э-мэйлээр, чатаар харилцах гээд бүгд орно. Тэгвэл тэмдэгт кодчилол гэдэг нь ердөө л ямар үсгийг хэд гэсэн кодоор тэмдэглэж хадгалахыг заадаг стандарт юм.
Яагаад заавал стандарт гэж?
Бат А үсгийг 12, В үсгийг 65, Цэцэг А-г 65, В-г 12 гэсэн кодоор код оноож хадгалаад байвал хоорондоо яаж ойлголцох вэ? ААВ гэж бичихэд Батын тооцоолуурт 12 12 65, Цэцэгийнхэд 65 65 12 гэж хадгалагдана. Тэгэхээр Батын ААВ гэсэн үгийг Цэцэг ВВА, Цэцгийн ААВ гэсэн үг Батад ВВА болж харагдана гэсэн үг. Тиймээс хоёулаа үсэг бүрээ ижил кодоор тэмдэглэж байж л хоорондоо зөв ойлголцоно гэсэн үг.
Бид нэг тэмдэгт буюу үсгийг 1 байт гэж үзэж тооцоолуурт тэмдэглэдэг тухай дунд сургуульдаа үздэг боловч боловч өдгөө ихэнхдээ 2 ба түүнээс дээш байтаар хадгалж байна.
Яагаад?
Анх компьютер үүссэн цагаас эхлэн ASCII хэмээх стандартаар кодолж байсан бөгөөд нийт 7 битээр тэмдэглэж байв. 1 бит нь 0 эсвэл 1 гэсэн утга авах боломжтой тул 2^7 буюу 128 тэмдэгт л тэмдэглэх боломжтой юм. Тиймээс тэрхүү 128 тэмдэгтэд зөвхөн Англи латин цагаан толгойн үсгүүд болон Араб 10 цифр болон бусад онцгой тэмдэгтүүд л багтжээ.
Гэтэл германы умлауттай (ä,ö,ü), францын диалекттай (á, â,…) гэх мэт үсгүүд багтаж чадаагүй юм. Тиймээс ANSI тэмдэгт кодчилол үүсжээ. Ингээд европын улсууд бичиг үсгээ Latin 1, Latin 2, … Latin 8 гэсэн нэрээр өргөтгөж оруулж ирснээс гадна кирил бичиг ч бас KOI бүл, RUSCII, CP866, CP1251 гэх мэтээр 128-256 дахь байрлалууд дээр үсгээ байрлуулж кодолж эхэлжээ.
Гэтэл энэ нь хоорондоо харилцахад олон асуудлыг дагуулж эхэлсэн бөгөөд латин үсгүүд ч хоорондоо хөрвөж чадахгүй байлаа. Жишээлбэл илгээгч Latin1 тэмдэгт кодчиллоор бичээд явуулахад хүлээн авч буй хүн Latin2-р уншихад хэдий ижил латин үсгүүд боловч үг нь утгагүй алдаатай болж харагдах жишээний өмнө дурдсан ASCII кодчиллын асуудлууд гарч байв. Бид ч бас тэр зовлонг дайрсан. Ариал мон фонтын асуудал гэвэл хүн бүр мэднэ дээ. Одоо ч асуудалтай хүмүүс байсаар байдаг.
Ингээд Майкрософт, Адобэ, АйБиЭм гэх мэт мэдээллийн системийн томоохон корпорациуд бүгд нэг ширээний ард сууж тохиролцохоос өөр аргагүй болсон юм. Хорвоо ертөнцийн бүх зүйл шүтэн барилдлагаар оршин тогтнодгийн нэг жишээ энэ юм.
Улс бүр өөр өөрийн тогоон дотроо кодчилоод хоорондоо бичиг үсгээр харилцах аргагүй байдалд оржээ гээд ойлгочиход болно. Ийнхүү ЮНИКОД хэмээх байгууллага үүсэж дэлхийн бүх бичгийг нэгтгэсэн тэмдэгт кодчиллын стандарт бий болгохоор ажиллаж эхэлжээ.
Нэг тэмдэгтийг хадгалах зайг 2 болгож өргөтгөсөн боловч дэлхий дээр санаанд оромгүй олон бичиг байдаг болж таарснаар цааш нэг тэмдэгтийг 3,4 байтаар тэмдэглэх болсон байна. Түүнийг дагаад өөр техникийн асуудлууд ч урган гарч эхэлжээ. Жишээлбэл нэг бичгийн өөр өөр тэмдэгт зарим нь 2 зарим нь 3 байтаар тэмдэглэгдэж байхад яаж хоорондох зохицлыг нь барих вэ? Олон давхар тэмдэгт кодчилол үүсвэл яах вэ? гэх мэт.
Одоогоор Юникод стандартын 10 хувилбар гарсан бөгөөд ISO стандарт шууд авч баталдаг. Өмнөх нийтлэлд дурдаж байсанчлан локаль нь цахим орчинд улс орны тусгаар тогтнолыг илэрхийлж байдаг бол Юникод нь бичиг үсгийн оршин тогтнолыг илэрхийлэх хэмжээнд хүрчээ. Тус байгууллага болоод стандарт ийм хүчирхэг болсон шалтгаан нь ерөөсөө л их гүрэн, жижиг улс эсвэл хүчирхэг том компани гэж тус тусын амбицыг хөөж гүрийж суулгүйгээр нэгдэж чадсан явдал юм. Тиймээс дэлхийн хүн бүр тус стандартыг хүссэн хүсээгүй хэрэглэх болжээ.
Юникод стандартын ачаар бид кирил бичгийн ө,ү үсгийн асуудлаас гарсан юм. Мөн Монгол бичгээ ч эхний хувилбараар оруулж дөнгөсөн боловч асуудлаа бүрэн дүүрэн шийдэлгүй хаяснаас болоод өдгөө олон асуудлыг дагуулж, өдөр тутмын хэрэглээнд нэвтэрч өгөхгүй байгаа нь харамсалтай. Мөн Юникод байгууллагын ч шүдний өвчин болоод байгаа юм.
Яг юу нь асуудал болоод яагаад гэдгийг тусад нь тайлбарлахгүй бол энгийнээр тайлбарлахад нэлээд түвэгтэй. Нэг тэмдэгтийн дүрс буруу эсвэл дутуу л бол тус бичгээр бичих, хэрэглэх ямар ч боломжгүй болчхож байгаа юм.
Жишээ нь та х үсэг байхгүйгээр кирилээр бичих гээд оролдоод үзвэл чадах уу? Эсвэл Z үсгийн дээд доод зураас дутуу байсан бол латин бичиг хэрэглэж чадах уу? Эсвэл Z үсгийг 1. дээд хөндлөн зураас, 2. Ташуу зураас, 3. Доод хөндлөн зураас гэж 3 удаа товчлуур дарж байж гаргаж ирж бичдэг бол ямархуу бүтээмжтэй байх сан бол?
Эдгээр нь зөвхөн хэрэглээ дагасан өнгөц асуудал бөгөөд нарийвчилбал арай өөр асуудлууд руу ороод явчихна. Жишээлбэл та Attack of the Mongolian Vowel Separator гэж сонссон уу? Үгүй бол Гүүглэдээд үзээрэй. Нэг тэмдэгтийн класс 2 удаа өөрчлөгдөх хооронд хакердуулах хэмжээнд хүрчхэж байгаа юм.
За тэгээд гараас хэрхэн хялбар оруулах, хэрхэн эрэмбэлэх, дэлгэцэд хэрхэн үзүүлэх буюу ренжер, фонттойгоо хэрхэн уялдах, хуучин legacy системүүдэд яаж дэмжигдэх зэргийг шийдэх цогц асуудал болдог.
Болорсофт ХХК-ийг үүсгэн байгуулагч С.Бадрал
Цахим тооцоолуурт бид тоглоом тоглох, зураг зурахаас бусад бараг бүх ажлыг бичиж хийдэг. Программ бичих, баримт боловсруулах, хоорондоо э-мэйлээр, чатаар харилцах гээд бүгд орно. Тэгвэл тэмдэгт кодчилол гэдэг нь ердөө л ямар үсгийг хэд гэсэн кодоор тэмдэглэж хадгалахыг заадаг стандарт юм.
Яагаад заавал стандарт гэж?
Бат А үсгийг 12, В үсгийг 65, Цэцэг А-г 65, В-г 12 гэсэн кодоор код оноож хадгалаад байвал хоорондоо яаж ойлголцох вэ? ААВ гэж бичихэд Батын тооцоолуурт 12 12 65, Цэцэгийнхэд 65 65 12 гэж хадгалагдана. Тэгэхээр Батын ААВ гэсэн үгийг Цэцэг ВВА, Цэцгийн ААВ гэсэн үг Батад ВВА болж харагдана гэсэн үг. Тиймээс хоёулаа үсэг бүрээ ижил кодоор тэмдэглэж байж л хоорондоо зөв ойлголцоно гэсэн үг.
Бид нэг тэмдэгт буюу үсгийг 1 байт гэж үзэж тооцоолуурт тэмдэглэдэг тухай дунд сургуульдаа үздэг боловч боловч өдгөө ихэнхдээ 2 ба түүнээс дээш байтаар хадгалж байна.
Яагаад?
Анх компьютер үүссэн цагаас эхлэн ASCII хэмээх стандартаар кодолж байсан бөгөөд нийт 7 битээр тэмдэглэж байв. 1 бит нь 0 эсвэл 1 гэсэн утга авах боломжтой тул 2^7 буюу 128 тэмдэгт л тэмдэглэх боломжтой юм. Тиймээс тэрхүү 128 тэмдэгтэд зөвхөн Англи латин цагаан толгойн үсгүүд болон Араб 10 цифр болон бусад онцгой тэмдэгтүүд л багтжээ.
Гэтэл германы умлауттай (ä,ö,ü), францын диалекттай (á, â,…) гэх мэт үсгүүд багтаж чадаагүй юм. Тиймээс ANSI тэмдэгт кодчилол үүсжээ. Ингээд европын улсууд бичиг үсгээ Latin 1, Latin 2, … Latin 8 гэсэн нэрээр өргөтгөж оруулж ирснээс гадна кирил бичиг ч бас KOI бүл, RUSCII, CP866, CP1251 гэх мэтээр 128-256 дахь байрлалууд дээр үсгээ байрлуулж кодолж эхэлжээ.
Гэтэл энэ нь хоорондоо харилцахад олон асуудлыг дагуулж эхэлсэн бөгөөд латин үсгүүд ч хоорондоо хөрвөж чадахгүй байлаа. Жишээлбэл илгээгч Latin1 тэмдэгт кодчиллоор бичээд явуулахад хүлээн авч буй хүн Latin2-р уншихад хэдий ижил латин үсгүүд боловч үг нь утгагүй алдаатай болж харагдах жишээний өмнө дурдсан ASCII кодчиллын асуудлууд гарч байв. Бид ч бас тэр зовлонг дайрсан. Ариал мон фонтын асуудал гэвэл хүн бүр мэднэ дээ. Одоо ч асуудалтай хүмүүс байсаар байдаг.
Ингээд Майкрософт, Адобэ, АйБиЭм гэх мэт мэдээллийн системийн томоохон корпорациуд бүгд нэг ширээний ард сууж тохиролцохоос өөр аргагүй болсон юм. Хорвоо ертөнцийн бүх зүйл шүтэн барилдлагаар оршин тогтнодгийн нэг жишээ энэ юм.
Улс бүр өөр өөрийн тогоон дотроо кодчилоод хоорондоо бичиг үсгээр харилцах аргагүй байдалд оржээ гээд ойлгочиход болно. Ийнхүү ЮНИКОД хэмээх байгууллага үүсэж дэлхийн бүх бичгийг нэгтгэсэн тэмдэгт кодчиллын стандарт бий болгохоор ажиллаж эхэлжээ.
Нэг тэмдэгтийг хадгалах зайг 2 болгож өргөтгөсөн боловч дэлхий дээр санаанд оромгүй олон бичиг байдаг болж таарснаар цааш нэг тэмдэгтийг 3,4 байтаар тэмдэглэх болсон байна. Түүнийг дагаад өөр техникийн асуудлууд ч урган гарч эхэлжээ. Жишээлбэл нэг бичгийн өөр өөр тэмдэгт зарим нь 2 зарим нь 3 байтаар тэмдэглэгдэж байхад яаж хоорондох зохицлыг нь барих вэ? Олон давхар тэмдэгт кодчилол үүсвэл яах вэ? гэх мэт.
Одоогоор Юникод стандартын 10 хувилбар гарсан бөгөөд ISO стандарт шууд авч баталдаг. Өмнөх нийтлэлд дурдаж байсанчлан локаль нь цахим орчинд улс орны тусгаар тогтнолыг илэрхийлж байдаг бол Юникод нь бичиг үсгийн оршин тогтнолыг илэрхийлэх хэмжээнд хүрчээ. Тус байгууллага болоод стандарт ийм хүчирхэг болсон шалтгаан нь ерөөсөө л их гүрэн, жижиг улс эсвэл хүчирхэг том компани гэж тус тусын амбицыг хөөж гүрийж суулгүйгээр нэгдэж чадсан явдал юм. Тиймээс дэлхийн хүн бүр тус стандартыг хүссэн хүсээгүй хэрэглэх болжээ.
Юникод стандартын ачаар бид кирил бичгийн ө,ү үсгийн асуудлаас гарсан юм. Мөн Монгол бичгээ ч эхний хувилбараар оруулж дөнгөсөн боловч асуудлаа бүрэн дүүрэн шийдэлгүй хаяснаас болоод өдгөө олон асуудлыг дагуулж, өдөр тутмын хэрэглээнд нэвтэрч өгөхгүй байгаа нь харамсалтай. Мөн Юникод байгууллагын ч шүдний өвчин болоод байгаа юм.
Яг юу нь асуудал болоод яагаад гэдгийг тусад нь тайлбарлахгүй бол энгийнээр тайлбарлахад нэлээд түвэгтэй. Нэг тэмдэгтийн дүрс буруу эсвэл дутуу л бол тус бичгээр бичих, хэрэглэх ямар ч боломжгүй болчхож байгаа юм.
Жишээ нь та х үсэг байхгүйгээр кирилээр бичих гээд оролдоод үзвэл чадах уу? Эсвэл Z үсгийн дээд доод зураас дутуу байсан бол латин бичиг хэрэглэж чадах уу? Эсвэл Z үсгийг 1. дээд хөндлөн зураас, 2. Ташуу зураас, 3. Доод хөндлөн зураас гэж 3 удаа товчлуур дарж байж гаргаж ирж бичдэг бол ямархуу бүтээмжтэй байх сан бол?
Эдгээр нь зөвхөн хэрэглээ дагасан өнгөц асуудал бөгөөд нарийвчилбал арай өөр асуудлууд руу ороод явчихна. Жишээлбэл та Attack of the Mongolian Vowel Separator гэж сонссон уу? Үгүй бол Гүүглэдээд үзээрэй. Нэг тэмдэгтийн класс 2 удаа өөрчлөгдөх хооронд хакердуулах хэмжээнд хүрчхэж байгаа юм.
За тэгээд гараас хэрхэн хялбар оруулах, хэрхэн эрэмбэлэх, дэлгэцэд хэрхэн үзүүлэх буюу ренжер, фонттойгоо хэрхэн уялдах, хуучин legacy системүүдэд яаж дэмжигдэх зэргийг шийдэх цогц асуудал болдог.
Болорсофт ХХК-ийг үүсгэн байгуулагч С.Бадрал