Поддерживать
www.wikidata.ru-ru.nina.az
Yuniko d angl Unicode standart kodirovaniya simvolov vklyuchayushij v sebya znaki pochti vseh pismennyh yazykov mira V nastoyashee vremya standart yavlyaetsya preobladayushim v Internete Logotip Konsorciuma Yunikoda Standart predlozhen v 1991 godu nekommercheskoj organizaciej Konsorcium Yunikoda angl Unicode Consortium Unicode Inc Primenenie etogo standarta pozvolyaet zakodirovat ochen bolshoe chislo simvolov iz raznyh sistem pismennosti v dokumentah zakodirovannyh po standartu Yunikod mogut sosedstvovat kitajskie ieroglify matematicheskie simvoly bukvy grecheskogo alfavita latinicy i kirillicy simvoly muzykalnoj notnoj notacii pri etom stanovitsya nenuzhnym pereklyuchenie kodovyh stranic Standart sostoit iz dvuh osnovnyh chastej universalnogo nabora simvolov angl Universal character set UCS i semejstva kodirovok angl Unicode transformation format UTF Universalnyj nabor simvolov perechislyaet dopustimye po standartu Yunikod simvoly i prisvaivaet kazhdomu simvolu kod v vide neotricatelnogo celogo chisla zapisyvaemogo obychno v shestnadcaterichnoj forme s prefiksom U naprimer U 040F Semejstvo kodirovok opredelyaet sposoby preobrazovaniya kodov simvolov dlya peredachi v potoke ili v fajle Kody v standarte Yunikod razdeleny na neskolko oblastej Oblast s kodami ot U 0000 do U 007F soderzhit simvoly nabora ASCII i kody etih simvolov sovpadayut s ih kodami v ASCII Dalee raspolozheny oblasti simvolov drugih sistem pismennosti znaki punktuacii i tehnicheskie simvoly Chast kodov zarezervirovana dlya ispolzovaniya v budushem Pod simvoly kirillicy vydeleny oblasti znakov s kodami ot U 0400 do U 052F ot U 2DE0 do U 2DFF ot U A640 do U A69F sm Kirillica v Yunikode Predposylki sozdaniya i razvitie YunikodaUnicode eto unikalnyj kod dlya lyubogo simvola nezavisimo ot platformy nezavisimo ot programmy nezavisimo ot yazyka Konsorcium Yunikoda K koncu 1980 h godov standartom stali 8 bitnye kodirovki ih sushestvovalo uzhe bolshoe mnozhestvo i postoyanno poyavlyalis novye Eto obyasnyalos kak rasshireniem kruga podderzhivaemyh yazykov tak i stremleniem sozdavat kodirovki chastichno sovmestimye mezhdu soboj harakternyj primer poyavlenie alternativnoj kodirovki dlya russkogo yazyka obuslovlennoe ekspluataciej zapadnyh programm sozdannyh dlya kodirovki CP437 V rezultate poyavilos neskolko problem problema nepravilnoj raskodirovki problema ogranichennosti nabora simvolov problema preobrazovaniya odnoj kodirovki v druguyu problema dublirovaniya shriftov Problema nepravilnoj raskodirovki vyzyvala poyavlenie v dokumente simvolov inostrannyh yazykov ne predpolagavshihsya v dokumente ili poyavlenie ne predpolagavshihsya psevdograficheskih simvolov prozvannyh russkoyazychnymi polzovatelyami krakozyabrami Problema vo mnogom byla vyzvana otsutstviem standartizirovannoj formy ukazaniya kodirovki dlya fajla ili potoka Problemu mozhno bylo reshit libo posledovatelnym vnedreniem standarta ukazaniya kodirovki libo vnedreniem obshej dlya vseh yazykov kodirovki Problema ogranichennosti nabora simvolov Problemu mozhno bylo reshit libo pereklyucheniem shriftov vnutri dokumenta libo vnedreniem shirokoj kodirovki Pereklyuchenie shriftov izdavna praktikovalos v tekstovyh processorah prichyom chasto ispolzovalis shrifty s nestandartnoj kodirovkoj t n dingbat fonts V itoge pri popytke perenosa dokumenta v druguyu sistemu vse nestandartnye simvoly prevrashalis v krakozyabry Problema preobrazovaniya odnoj kodirovki v druguyu Problemu mozhno bylo reshit libo sostavleniem tablic perekodirovki dlya kazhdoj pary kodirovok libo ispolzovaniem promezhutochnogo preobrazovaniya v tretyu kodirovku vklyuchayushuyu vse simvoly vseh kodirovok Problema dublirovaniya shriftov Dlya kazhdoj kodirovki sozdavalsya svoj shrift dazhe esli nabory simvolov v kodirovkah sovpadali chastichno ili polnostyu Problemu mozhno bylo reshit putyom sozdaniya bolshih shriftov iz kotoryh vposledstvii vybiralis by nuzhnye dlya dannoj kodirovki simvoly Odnako eto trebovalo sozdaniya edinogo reestra simvolov chtoby opredelyat chemu chto sootvetstvuet Byla priznana neobhodimost sozdaniya edinoj shirokoj kodirovki Kodirovki s peremennoj dlinoj simvola shiroko ispolzuyushiesya v Vostochnoj Azii byli priznany slishkom slozhnymi v ispolzovanii poetomu bylo resheno ispolzovat simvoly fiksirovannoj shiriny Ispolzovanie 32 bitnyh simvolov kazalos slishkom rastochitelnym poetomu bylo resheno ispolzovat 16 bitnye Pervaya versiya Yunikoda predstavlyala soboj kodirovku s fiksirovannym razmerom simvola v 16 bit to est obshee chislo kodov bylo 216 65 536 S teh por simvoly stali oboznachat chetyrmya shestnadcaterichnymi ciframi naprimer U 04F0 Pri etom v Yunikode planirovalos kodirovat ne vse sushestvuyushie simvoly a tolko te kotorye neobhodimy v povsednevnom obihode Redko ispolzuemye simvoly dolzhny byli razmeshatsya v oblasti polzovatelskih simvolov private use area kotoraya pervonachalno zanimala kody U D800 U F8FF Chtoby ispolzovat Yunikod takzhe i v kachestve promezhutochnogo zvena pri preobrazovanii raznyh kodirovok drug v druga v nego vklyuchili vse simvoly predstavlennye vo vseh naibolee izvestnyh kodirovkah V dalnejshem odnako bylo prinyato reshenie kodirovat vse simvoly i v svyazi s etim znachitelno rasshirit kodovuyu oblast Odnovremenno s etim kody simvolov stali rassmatrivatsya ne kak 16 bitnye znacheniya a kak abstraktnye chisla kotorye v kompyutere mogut predstavlyatsya mnozhestvom raznyh sposobov sm sposoby predstavleniya Poskolku v ryade kompyuternyh sistem naprimer Windows NT fiksirovannye 16 bitnye simvoly uzhe ispolzovalis v kachestve kodirovki po umolchaniyu bylo resheno vse naibolee vazhnye znaki kodirovat tolko v predelah pervyh 65 536 pozicij tak nazyvaemaya angl Basic Multilingual Plane BMP Ostalnoe prostranstvo ispolzuetsya dlya dopolnitelnyh simvolov angl supplementary characters sistem pisma vymershih yazykov ili ochen redko ispolzuemyh kitajskih ieroglifov matematicheskih i muzykalnyh simvolov Dlya sovmestimosti so starymi 16 bitnymi sistemami byla izobretena sistema UTF 16 gde pervye 65 536 pozicij za isklyucheniem pozicij iz intervala U D800 U DFFF otobrazhayutsya neposredstvenno kak 16 bitnye chisla a ostalnye predstavlyayutsya v vide surrogatnyh par pervyj element pary iz oblasti U D800 U DBFF vtoroj element pary iz oblasti U DC00 U DFFF Dlya surrogatnyh par byla ispolzovana chast kodovogo prostranstva 2048 pozicij otvedyonnogo dlya chastnogo ispolzovaniya Poskolku v UTF 16 mozhno otobrazit tolko 220 216 2048 1 112 064 simvolov to eto chislo i bylo vybrano v kachestve okonchatelnoj velichiny kodovogo prostranstva Yunikoda diapazon kodov 0x000000 0x10FFFF Hotya kodovaya oblast Yunikoda byla rasshirena za predely 216 uzhe v versii 2 0 pervye simvoly v verhnej oblasti byli razmesheny tolko v versii 3 1 Rol etoj kodirovki v veb sektore postoyanno rastyot Na nachalo 2010 dolya veb sajtov ispolzuyushih Yunikod sostavila okolo 50 Versii YunikodaRabota po dorabotke standarta prodolzhaetsya Novye versii vypuskayutsya po mere izmeneniya i popolneniya tablic simvolov Parallelno vypuskayutsya novye dokumenty ISO IEC 10646 Pervyj standart vypushen v 1991 godu poslednej versiej na dannyj moment yavlyaetsya 15 1 0 12 sentyabrya 2023 Versii standarta 1 0 5 0 publikovalis kak knigi i imeyut ISBN Nomer versii standarta sostavlen iz tryoh cifr naprimer 3 1 1 Tretyu cifru menyayut pri vnesenii v standart nebolshih izmenenij ne dobavlyayushih novyh simvolov isklyuchenie versiya 1 0 1 v kotoroj dobavleny unificirovannye ideogrammy kitajskogo yaponskogo i korejskogo pisma Baza dannyh simvolov Yunikoda Unicode Character Database dostupna dlya vseh versij na oficialnom sajte kak v prostom tekstovom tak i v XML formate Fajly rasprostranyayutsya pod BSD podobnoj licenziej Versii Yunikoda Nomer versii Data publikacii ISBN knigi Izdanie ISO IEC 10646 Kolichestvo pis men no stej Kolichestvo simvolov Izmeneniya1 0 0 Oktyabr 1991 ISBN 0 201 56788 1 Vol 1 23 7161 Iznachalno Yunikod soderzhal simvoly sleduyushih pismennostej arabskoe pismo armyanskoe pismo bengalskoe pismo chzhuinskoe pismo kirillica devanagari gruzinskoe pismo grecheskoe i koptskoe pismo gudzharati gurmukhi hangyl evrejskoe pismo hiragana kannada katakana laosskoe pismo latinica malayalam oriya tamilskoe pismo telugu tajskoe pismo i tibetskoe pismo1 0 1 Iyun 1992 ISBN 0 201 60845 6 Vol 2 24 28 359 Dobavleny 20 902 unificirovannye ideogrammy kitajskogo yaponskogo i korejskogo pisma1 1 Iyun 1993 ISO IEC 10646 1 1993 23 34 233 Dobavleno 4306 slogov hangylya dopolnivshih uzhe imeyushiesya v kodirovke 2350 simvolov Udaleny simvoly tibetskogo pisma2 0 Iyul 1996 ISBN 0 201 48345 9 ISO IEC 10646 1 1993 i Amendments 5 6 7 24 38 950 Udaleny dobavlennye ranee slogi hangylya i dobavleny 11 172 novyh sloga hangylya s novymi kodami Vozvrasheny udalyonnye ranee simvoly tibetskogo pisma simvoly poluchili novye kody i byli razmesheny v raznyh tablicah Vvedyon mehanizm surrogatnyh angl surrogate simvolov Vydeleno mesto dlya ploskostej angl planes 15 i 162 1 Maj 1998 ISO IEC 10646 1 1993 Amendments 5 6 7 dva simvola iz Amendment 18 24 38 952 Dobavleny simvol evro i zamenyayushij simvol3 0 Sentyabr 1999 ISBN 0 201 61633 5 ISO IEC 10646 1 2000 37 49 259 Dobavleny pismo cheroki efiopskoe pismo khmerskoe pismo mongolskie pismennosti birmanskoe pismo ogamicheskoe pismo runy singalskoe pismo sirijskoe pismo tana kanadskoe slogovoe pismo i pismo i a takzhe simvoly shrifta Brajlya3 1 Mart 2001 ISO IEC 10646 1 2000 ISO IEC 10646 2 2001 40 94 205 Dobavleny dezeretskoe pismo gotskoe pismo i angl a takzhe simvoly zapadnoj i vizantijskoj muzyki 42 711 unificirovannyh ideogramm kitajskogo yaponskogo i korejskogo pisma Vydeleno mesto dlya ploskostej 1 2 i 143 2 Mart 2002 ISO IEC 10646 1 2000 i Amendment 1 ISO IEC 10646 2 2001 44 95 221 Dobavleny pismo buhid angl bajbajin i pismo tagbanva4 0 Aprel 2003 ISBN 0 321 18578 1 ISO IEC 10646 2003 51 96 447 Dobavleny kiprskoe pismo pismo limbu linejnoe pismo B somalijskoe pismo alfavit shou pismo ly i ugaritskoe pismo a takzhe simvoly geksagramm4 1 Mart 2005 ISO IEC 10646 2003 i Amendment 1 59 97 720 Dobavleny pismo lontara glagolica pismo kharoshthi novoe pismo ly drevnepersidskaya klinopis silhetskoe nagari i drevnelivijskoe pismo Simvoly koptskogo pisma byli otdeleny ot simvolov grecheskogo pisma Takzhe dobavleny simvoly staryh grecheskih cifr muzykalnye simvoly Drevnej Grecii i simvol grivny valyuty Ukrainy 5 0 Iyul 2006 ISBN 0 321 48091 0 ISO IEC 10646 2003 Amendments 1 2 chetyre simvola iz Amendment 3 64 99 089 Dobavleny balijskoe pismo klinopis pismo nko mongolskoe kvadratnoe pismo i finikijskoe pismo5 1 Aprel 2008 ISO IEC 10646 2003 i Amendments 1 2 3 4 75 100 713 Dobavleny karijskoe pismo chamskaya pismennost pismo kaya li pismo lepcha likijskoe pismo lidijskoe pismo pismo ol chiki redzhangskoe pismo pismo saurashtra sundanskoe pismo drevnetyurkskoe pismo i pismo vai Dobavleny simvoly festskogo diska simvoly kostej dlya madzhonga i domino zaglavnaya bukva escet ẞ a takzhe bukvy latinicy ispolzovavshiesya v srednevekovyh rukopisyah dlya angl Novymi simvolami dopolnen nabor simvolov birmanskogo pisma5 2 Oktyabr 2009 ISO IEC 10646 2003 i Amendments 1 2 3 4 5 6 90 107 361 Dobavleny avestijskoe pismo pismo bamum egipetskoe ieroglificheskoe pismo po angl soderzhashemu 1071 simvol imperskoe aramejskoe pismo angl angl yavanskoe pismo pismo kajthi pismo lisu pismo manipuri yuzhnoaravijskoe pismo drevnetyurkskoe pismo samarityanskoe pismo pismo lanna i angl Dobavleny 4149 novyh angl CJK C simvoly vedijskogo pisma simvol tenge valyuty Kazahstana a takzhe rasshiren nabor simvolov chamo starogo hangylya6 0 Oktyabr 2010 ISO IEC 10646 2010 i simvol indijskoj rupii 93 109 449 Dobavleny batakskoe pismo pismo brahmi mandejskoe pismo Dobavleny simvoly igralnyh kart dorozhnyh znakov geograficheskih kart alhimii emotikona i emodzi a takzhe 222 angl CJK D 6 1 Yanvar 2012 ISO IEC 10646 2012 100 110 181 Dobavleny pismo chakma meroitskij kursiv i meroitskie ieroglify pismo myao pismo sharada angl i pismo takri6 2 Sentyabr 2012 ISO IEC 10646 2012 i simvol tureckoj liry 100 110 182 Dobavlen simvol tureckoj liry valyuty Turcii 6 3 Sentyabr 2013 ISO IEC 10646 2012 i shest simvolov 100 110 187 Dobavleno pyat simvolov dlya formatirovaniya dvunapravlennogo teksta7 0 16 iyunya 2014 ISO IEC 10646 2012 Amendments 1 2 i simvol rublya 123 113 021 Dobavleny pismo bassa agvanskoe pismo stenografiya Dyuploje elbasanskoe pismo pismo grantha angl angl linejnoe pismo A angl manihejskoe pismo pismo kikakui pismo modi angl nabatejskoe pismo severnoaravijskoe pismo drevnepermskoe pismo pismo pahau palmirskoe pismo angl angl siddhamatrika pismo tirhuta varang kshiti i angl a takzhe simvol rossijskogo rublya i simvol azerbajdzhanskogo manata8 0 17 iyunya 2015 ISO IEC 10646 2014 Amendment 1 simvol lari 9 uni fi ci ro van nyh ideogramm KKYa 41 emodzi 129 120 737 Dobavleny pismo ahom anatolijskie ieroglify vengerskie runy SignWriting 5776 Unificirovannye ideogrammy KKYa rasshirenie E strochnye bukvy pisma cheroki bukvy latinicy dlya nemeckoj dialektologii 41 emodzi a takzhe pyat simvolov izmeneniya cveta kozhi dlya emotikonov Dobavlen simvol lari valyuty Gruzii 9 0 21 iyunya 2016 ISO IEC 10646 2014 Amendments 1 2 adlam neva yaponskie simvoly dlya TV 74 emodzi i simvolov 135 128 237 Dobavleny pismo osejdzh tangutskoe pismo a takzhe 72 emodzi i yaponskie simvoly dlya televideniya10 0 20 iyunya 2017 ISO IEC 10646 2017 56 emodzi 285 simvolov hentajgany 3 simvola kvadratnogo pisma Dzanabadzara 139 136 755 Dobavleny kvadratnoe pismo Dzanabadzara pismo soyombo pismo nyuj shu pismo hentajgana 7494 Unificirovannye ideogrammy KKYa rasshirenie F a takzhe 56 emodzi i simvol bitkojna11 0 Iyun 2018 ISO IEC 10646 2017 146 137 439 Dobavleny dogra gruzinskoe pismo mtavruli gundzhalskoe gondi hanifi indijskie cifry sijyak makasarskoe pismo medefajdrin drevne sogdijskoe pismo cifry majya 5 ideogramm KKYa simvoly syanci i polovin zvyozdochek dlya ocenki a takzhe 145 emodzi chetyre simvola izmeneniya prichyoski dlya emotikonov i simvol kopilefta12 0 Mart 2019 ISO IEC 10646 2017 Amendments 1 2 a takzhe 62 dopol ni tel nyh simvolov 150 137 993 Dobavleny elimajskoe pismo angl hmong vancho dopolneniya dlya pisma Pollarda malaya kana dlya staryh yaponskih tekstov istoricheskie drobi i simvoly tamilskogo pisma bukvy laosskogo pisma dlya pali bukvy latinicy dlya transliteracii ugaritskogo upravlyayushie simvoly formatirovaniya egipetskih ieroglifov a takzhe 61 emodzi12 1 Maj 2019 150 137 994 Dobavlen kvadratnyj simvol epohi rejva13 0 Mart 2020 154 143 924 Dobavleny pismo maloe kidanskoe pismo ezidskoe pismo 4969 ideogramm KKYa vklyuchaya 4939 a takzhe 55 emodzi simvoly Creative Commons i simvoly dlya unasledovannoj vychislitelnoj tehniki Vydeleno mesto dlya ploskosti 314 0 Sentyabr 2021 159 144 762 Dobavleny pismo kipro minojskoe pismo vitkutskoe pismo staroujgurskoe pismo dopolnitelnye bukvy latinicy bloki Rasshirennaya latinica F Rasshirennaya latinica G dlya ispolzovaniya v rasshireniyah dlya MFA dobavlenie arabskogo pisma dlya ispolzovaniya v yazykah Afriki Irana Pakistana Malajzii Indonezii Yavy i Bosnii a takzhe dopolneniya dlya ispolzovaniya v Korane drugie dopolneniya dlya podderzhki yazykov Severnoj Ameriki Filippin Indii i Mongolii dobavlenie simvola soma notopisi znamennogo peniya i 37 emodzi 15 0 Sentyabr 2022 161 149 251 Dobavleny dlya yazyka mundari 1950 kavi staroyavanskij kaktovikskie cifry simvoly kirillicy dlya zapisi transkripcii latinskie bukvy dlya zapisi yazyka malayalam 3 ligatury iz tureckogo Korana 1 egipetskij ieroglif simvoly dlya peredachi zatyortyh egipetskih ieroglifov simvoly iz dzhajnizma zvezda bahaizma simvoly pyati transneptunovyh obektov i 31 emodzi vklyuchaya cveta kozhi 15 1 12 sentyabrya 2023 161 149 878 Dobavleny 897 ieroglifov kitajskih imyon kotorye kitajcy hoteli raspolozhit na ploskosti 0A 622 iz nih opoznany kak novye Takzhe 5 simvolov struktury kitajskih ieroglifov 10 raznyh posledovatelnostej emodzi i 18 posledovatelnostej izobrazhayushih lyudej kotorye smotryat vpravo isklyuchaya cveta kozhi Primechaniya Vklyuchaya edinstvennyj kod shrift Brajlya edinstvennuyu stenograficheskuyu sistemu stenografiya Dyuploje a takzhe katakanu hiraganu zhestovoe pismo Satton isklyuchaya hentajganu schitaetsya hiraganoj dva alternativnyh gruzinskih alfavita schitayutsya gruzinskim a takzhe drugie netekstovye chetyre vida not cherchenie matematicheskie znaki Unificirovannye sistemy kitajskie i yaponskie ieroglify arabskij urdu shahmukhi pegon i volofal schitayutsya za odnu grecheskij i koptskij do versii 4 1 kogda ih razunificirovali tozhe Pri dalnejshem obnovlenii dannyh fajl PropertyValueAliases txt razdel sc kolichestvo strok v etom razdele minus tri poslednie tri tehnicheskie Vklyuchaya pechataemye angl graphic upravlyayushie angl control i formatiruyushie angl format simvoly ne vklyuchaya lichnye simvoly angl private use nesimvolnye pozicii angl noncharacters poloviny surrogatnyh par angl surrogate code points neoficialno zanyatye U 1D548 azhurnoe ℚ pri oficialnom U 211A ispolzuetsya chtoby garantirovanno nabrat slovo odnim shriftom U 11C09 nachalnoe slogovoe LL v sanskrite bukva est no ne najdena v istochnikah imenno pismom bhajkshuki Press relizy Yunikoda dayut cifru na 65 menshe ne uchityvayut upravlyayushie 00 1F 7F 9F Stoit priznat chto kategoriya etih simvolov ponachalu neskolko raz menyalas Pri dalnejshem obnovlenii dannyh kolichestvo zayavlennyh simvolov 65 Kodovoe prostranstvoHotya forma zapisi UTF 8 pozvolyaet kodirovat do 221 2 097 152 kodovyh pozicij bylo prinyato reshenie ispolzovat lish 1 112 064 dlya sovmestimosti s UTF 16 Vprochem dazhe i etogo v dannyj moment bolee chem dostatochno v versii 15 1 ispolzuetsya vsego 149 878 kodovyh pozicij Kodovoe prostranstvo razbito na 17 ploskostej angl planes po 216 65 536 simvolov Nulevaya ploskost plane 0 nazyvaetsya bazovoj basic i soderzhit simvoly naibolee upotrebitelnyh pismennostej Ostalnye ploskosti dopolnitelnye supplementary Pervaya ploskost plane 1 ispolzuetsya v osnovnom dlya istoricheskih pismennostej vtoraya plane 2 dlya redko ispolzuemyh ieroglifov kitajskogo pisma KKYa tretya plane 3 zarezervirovana dlya arhaichnyh kitajskih ieroglifov Ploskost 14 otvedena dlya simvolov ispolzuemyh po osobomu naznacheniyu Ploskosti 15 i 16 vydeleny dlya chastnogo upotrebleniya Dlya oboznacheniya simvolov Unicode ispolzuetsya zapis vida U xxxx dlya kodov 0 FFFF ili U xxxxx dlya kodov 10000 FFFFF ili U xxxxxx dlya kodov 100000 10FFFF gde xxx shestnadcaterichnye cifry Naprimer simvol ya U 044F imeet kod 044F16 110310 Ploskosti YunikodaPloskost Nazvanie Diapazon simvolov0 Bazovaya mnogoyazykovaya ploskost Basic Multilingual Plane BMP U 0000 U FFFF1 Dopolnitelnaya mnogoyazykovaya ploskost Supplementary Multilingual Plane SMP U 10000 U 1FFFF2 Dopolnitelnaya ideograficheskaya ploskost Supplementary Ideographic Plane SIP U 20000 U 2FFFF3 Tretichnaya ideograficheskaya ploskost Tertiary Ideographic Plane TIP U 30000 U 3FFFF4 13 ne ispolzuyutsya U 40000 U DFFFF14 Dopolnitelnaya specializirovannaya ploskost Supplementary Special purpose Plane SSP U E0000 U EFFFF15 16 Dopolnitelnye oblasti dlya chastnogo ispolzovaniya Supplementary Private Use Area A B SPUA A B U F0000 U 10FFFFSistema kodirovaniyaUniversalnaya sistema kodirovaniya Yunikod predstavlyaet soboj nabor graficheskih simvolov i sposob ih kodirovaniya dlya kompyuternoj obrabotki tekstovyh dannyh Graficheskie ili pechataemye simvoly eto simvoly imeyushie vidimoe izobrazhenie Graficheskim simvolam protivopostavlyayutsya upravlyayushie i formatiruyushie simvoly Graficheskie simvoly vklyuchayut v sebya sleduyushie gruppy bukvy soderzhashiesya hotya by v odnom iz obsluzhivaemyh alfavitov cifry znaki punktuacii specialnye znaki matematicheskie tehnicheskie ideogrammy i pr razdeliteli diakriticheskie metki vklyuchaya nevidimye Yunikod eto sistema dlya linejnogo predstavleniya teksta Simvoly imeyushie dopolnitelnye nad ili podstrochnye elementy mogut byt predstavleny v vide postroennoj po opredelyonnym pravilam posledovatelnosti kodov sostavnoj variant composite character ili v vide edinogo simvola monolitnyj variant precomposed character S 2014 goda schitaetsya chto vse bukvy krupnyh pismennostej v Yunikod vneseny i esli simvol dostupen v sostavnom variante dublirovat ego v monolitnom vide ne nuzhno Obshie principy Garantii stabilnosti Kak tolko simvol poyavilsya v kodirovke on ne sdvinetsya i ne ischeznet Takim obrazom kazhdyj novyj Yunikod budet nadmnozhestvom starogo Esli simvol okazhetsya plohim ego zapreshayut Esli zhe potrebuetsya izmenit poryadok simvolov eto delaetsya ne peremenoj pozicij a nacionalnym poryadkom sortirovki Est i drugie bolee tonkie garantii stabilnosti naprimer ne budut menyatsya tablicy normalizacii Dinamicheskaya komponovka Takoj vysokoj celi kak universalnost Yunikod dobivaetsya putyom dinamicheskoj sborki pechatnogo teksta Inogda dlya udobstva delayut i monolitnye simvoly no v celom A A Logicheskij poryadok Simvoly v stroke zapisyvayutsya priblizitelno v poryadke prochteniya v tom chisle v dvunapravlennom pisme arabskij tekst kodiruetsya sprava nalevo a okazavsheesya v nyom evropejskoe chislo sleva napravo Metka umlyaut oglasovka idyot posle osnovnogo simvola Est isklyucheniya s vizualnym poryadkom naprimer laosskij Preobrazuemost Esli v vazhnoj kodirovke dve formy odnogo simvola zakodirovany raznymi poziciyami eto delaet i Yunikod Preobrazovanie ne obyazatelno 1 1 odin simvol drugoj kodirovki mozhet preobrazovatsya v neskolko simvolov Yunikoda i naoborot Prostoj tekst Yunikod kodiruet prostoj tekst bez oformleniya Schitaetsya chto prostoj tekst dolzhen hranit dostatochno dannyh chtoby chitaemo otobrazit ego i bolshe nichego Semantika Svojstva simvolov zadayutsya formalno s pomoshyu formatov CSV i XML Simvoly ne glify Simvol edinica smysla Glif izobrazhenie soderzhasheesya v shrifte i vyvodyasheesya na ekran pechat Tak v shrifte arabskogo stilya nastali k budut tysyachi glifov No v kodirovke okolo 200 simvolov standartnogo arabskogo peredayushih smysl I naoborot inogda sm Unifikaciya raznye simvoly mogut imet odinakovyj glif Narushenie etogo principa ili istoricheskoe s s sushestvovalo eshyo do principa dinamicheskoj komponovki ili vyzvano slozhnostyami shriftov Ţ Ț poslednee ispolzuetsya v moldavskom i rumynskom Universalnost Yunikod razrabotan dlya lyudej raznyh yazykov i professij rabotayushih v biznese obrazovanii religii i nauke dlya sovremennyh i istoricheskih tekstov Za predelami Yunikoda lezhat pismennosti pro kotorye malo chto izvestno chtoby nadyozhno zakodirovat simvoly pismennosti chi polzovateli ne prishli k de fakto standartu netekstovye naprimer piktograficheskie pismennosti Unifikaciya Yunikod staraetsya ne dublirovat simvoly Tak anglijskaya bukva vaj francuzskaya igrek i nemeckaya ipsilon odna i ta zhe kodovaya poziciya Y Malo togo shodnye ieroglify kitajskogo i yaponskogo odna kodovaya poziciya Sushestvuet neskolko vazhnyh isklyuchenij Shodnye bukvy raznyh pismennostej kodiruyutsya raznymi kodovymi poziciyami Chasto pozicii dubliruyutsya dlya uprosheniya obrabotki tak v Yunikode tri bukvy D s raznymi strochnymi Matematicheskij shtrih i takoj zhe shtrih dlya indikacii myagkosti zvukov raznye simvoly vtoroj schitaetsya bukvoj modifikatorom Preobrazuemost mozhet idti vrazrez s unifikaciej strochnaya grecheskaya sigma imeet dve raznyh formy i oni raznye kodovye pozicii Effektivnost Yunikod ustroen tak chtoby effektivnye realizacii byli osushestvimy Kody simvolov posledovatelnye chisla ot 0 do 10FFFF16 eto pozvolyaet imet delo s tablicami poiska UTF 8 i UTF 16 samosinhroniziruyushiesya kody a vazhnejshie simvoly dostupny bez raskodirovki Yunikod izbegaet formatiruyushih simvolov kotorye menyayut vnutrennee sostoyanie I mnogoe drugoe Politika konsorciuma Konsorcium ne sozdayot novogo a konstatiruet slozhivshijsya poryadok veshej Naprimer kartinki emodzi byli dobavleny potomu chto yaponskie operatory mobilnoj svyazi shiroko ih ispolzovali Dlya etogo dobavlenie simvola prohodit cherez slozhnyj process I naprimer simvol rossijskogo rublya proshyol ego za tri mesyaca kak tolko poluchil oficialnyj status prichyom do etogo on mnogo let de fakto ispolzovalsya i ego otkazyvalis vklyuchit v Yunikod Tovarnye znaki kodiruyut tolko v poryadke isklyucheniya Tak v Yunikode net flaga Windows ili yabloka Apple Emodzi ne vvodyatsya v Yunikod esli Ponyatie mozhno poluchit kombinaciej imeyushihsya simvolov myt ruki voda ruki Belku chasto izobrazhayut kartinkoj burunduka Ponyatie slishkom specificheskoe esli na kartinke yaponskogo blyuda sushi risuyut naprimer sushi s krevetkoj to ne stoit zaprashivat drugie vidy sushi Ponyatie mozhet vyzvat volnu novyh dobavlenij Kartinka soderzhit tekst Konsorcium perestal vklyuchat takie emodzi Kartinka prehodyashaya naprimer virus COVID 19 Nekotorye proizvoditeli risuyut virus na meste emodzi mikroorganizm Trebuetsya zakodirovat konkretnoe izobrazhenie naprimer internet mem Variacii napravleniya dvizheniya s Yunikoda 15 1 ih ponemnogu vnosyat Kombiniruyushie metkiPredstavlenie simvola J U 0419 v vide bazovogo simvola I U 0418 i kombiniruyushej metki U 0306 Simvoly v Yunikode podrazdelyayutsya na bazovye angl base characters i kombiniruyushie angl combining marks Metki obychno sleduyut za bazovym simvolom i izmenyayut ego otobrazhenie opredelyonnym obrazom K kombiniruyushim simvolam naprimer otnosyatsya diakriticheskie znaki znaki udareniya Naprimer russkuyu bukvu J v Yunikode mozhno zapisat v vide bazovogo simvola I U 0418 i kombiniruyushego simvola U 0306 otobrazhaemogo nad bazovym Kombiniruyushie simvoly pomecheny v tablicah simvolov Yunikoda osobymi kategoriyami Nonspacing Mark neprotyazhyonnaya metka takovye obychno otobrazhayutsya nad ili pod bazovym simvolom i krajne redko razdvigayut kegelnuyu ploshadku simvola naprimer i Enclosing Mark ohvatyvayushaya metka eti metki ohvatyvayut simvol so vseh storon i v ideale dolzhny rasshiryat ego kegelnuyu ploshadku Spacing Mark protyazhyonnaya metka predstavlyaet soboj glif pered ili posle osnovnogo simvola obladayushij sobstvennoj kegelnoj ploshadkoj Osobyj tip kombiniruyushih simvolov selektory varianta nachertaniya angl variation selectors Oni dejstvuyut tolko na te bazovye simvoly dlya kotoryh takie varianty opredeleny K primeru v versii Yunikoda 5 0 varianty nachertaniya opredeleny dlya ryada matematicheskih simvolov dlya simvolov tradicionnogo mongolskogo alfavita i dlya simvolov mongolskogo kvadratnogo pisma Algoritmy normalizaciiIz za nalichiya v Yunikode kombiniruyushih simvolov odni i te zhe znaki pismennosti mozhno predstavit razlichnymi kodami Tak naprimer bukvu J v primere vyshe mozhno zapisat kak otdelnym simvolom tak i sochetaniem bazovogo i kombinirovannogo Iz za etogo sravnenie strok bajt za bajtom stanovitsya nevozmozhnym Algoritmy normalizacii angl normalization forms reshayut etu problemu vypolnyaya privedenie simvolov k opredelyonnomu standartnomu vidu Privedenie osushestvlyaetsya putyom zameny simvolov na ekvivalentnye s ispolzovaniem tablic i pravil Dekompoziciej nazyvaetsya zamena razlozhenie odnogo simvola na neskolko sostavlyayushih simvolov a kompoziciej naoborot zamena soedinenie neskolkih sostavlyayushih simvolov na odin simvol V standarte Yunikoda opredeleny chetyre algoritma normalizacii teksta NFD NFC NFKD i NFKC Kanonicheskaya dekompoziciya NFD NFD angl normalization form D D ot angl decomposition forma normalizacii D kanonicheskaya dekompoziciya algoritm soglasno kotoromu vypolnyaetsya rekursivnoe razlozhenie sostavnyh simvolov angl precomposed characters na posledovatelnost iz odnogo ili neskolkih prostyh simvolov v sootvetstvii s tablicami dekompozicii Rekursivnoe potomu chto v processe razlozheniya sostavnoj simvol mozhet byt razlozhen na neskolko drugih nekotorye iz kotoryh tozhe yavlyayutsya sostavnymi i k kotorym primenyaetsya dalnejshee razlozhenie Primery WU 2126 WU 03A9AU 00C5 AU 0041 U 030AṩU 1E69 sU 0073 U 0323 U 0307ḋ U 1E0B U 0323 dU 0064 U 0323 U 0307q U 0071 U 0307 U 0323 qU 0071 U 0323 U 0307Kanonicheskaya kompoziciya NFC NFC angl normalization form C C ot angl composition forma normalizacii C algoritm soglasno kotoromu posledovatelno vypolnyayutsya kanonicheskaya dekompoziciya i kanonicheskaya kompoziciya Snachala kanonicheskaya dekompoziciya algoritm NFD privodit tekst k forme D Zatem kanonicheskaya kompoziciya operaciya obratnaya NFD obrabatyvaet tekst ot nachala k koncu s uchyotom sleduyushih pravil simvol S schitaetsya nachalnym esli imeet nulevoj klass kombiniruemosti angl combining class of zero soglasno tablice simvolov Yunikoda v lyuboj posledovatelnosti simvolov nachinayushejsya s simvola S simvol C blokiruetsya ot S tolko esli mezhdu S i C est kakoj libo simvol B kotoryj libo yavlyaetsya nachalnym libo imeet odinakovyj ili bolshij klass kombiniruemosti chem C Eto pravilo rasprostranyaetsya tolko na stroki proshedshie kanonicheskuyu dekompoziciyu simvol schitaetsya pervichnym kompozitom esli imeet kanonicheskuyu dekompoziciyu v tablice simvolov Yunikoda ili kanonicheskuyu dekompoziciyu dlya hangylya i on ne vhodit v spisok isklyuchenij simvol X mozhet byt pervichno sovmeshyon s simvolom Y esli i tolko esli sushestvuet pervichnyj kompozit Z kanonicheski ekvivalentnyj posledovatelnosti lt X Y gt esli ocherednoj simvol C ne blokiruetsya poslednim vstrechennym nachalnym bazovym simvolom L i on mozhet byt uspeshno pervichno sovmeshyon s nim to L zamenyaetsya na kompozit L C a C udalyaetsya Primer oU 006F U 0302 oU 00F4Sovmestimaya dekompoziciya NFKD NFKD angl normalization form KD forma normalizacii KD sovmestimaya dekompoziciya algoritm soglasno kotoromu posledovatelno vypolnyayutsya kanonicheskaya dekompoziciya i zameny simvolov teksta po tablicam sovmestimoj dekompozicii Tablicy sovmestimoj dekompozicii predusmatrivayut zamenu na pochti ekvivalentnye simvoly pohozhih na bukvy ℍ i ℌ obvedyonnyh kruzhkami s izmenyonnymi razmerami カ i カ povyornutyh i stepenej i drobej drugih Primery ℍU 210D HU 0048 U 2460 1U 0031カU FF76 カU 30AB U FE37 U 007B U 2079 9U 0039 U 00BC 1 4U 0031 U 2044 U 0034 U 2122 T MU 0054 U 004DSovmestimaya kompoziciya NFKC NFKC angl normalization form KC forma normalizacii KC algoritm soglasno kotoromu posledovatelno vypolnyayutsya sovmestimaya dekompoziciya algoritm NFKD i kanonicheskaya kompoziciya algoritm NFC Primery Ishodnyj tekst NFD NFC NFKD NFKCfiU FB01 fiU FB01 fiU FB01 f iU 0066 U 0069 f iU 0066 U 00692 U 0032 U 2075 2 U 0032 U 2075 2 U 0032 U 2075 2 5U 0032 U 0035 2 5U 0032 U 0035ẛ U 1E9B U 0323 ſ U 017F U 0323 U 0307 ẛ U 1E9B U 0323 s U 0073 U 0323 U 0307 ṩU 1E69jU 0439 i U 0438 U 0306 jU 0439 i U 0438 U 0306 jU 0439yoU 0451 e U 0435 U 0308 yoU 0451 e U 0435 U 0308 yoU 0451AU 0410 AU 0410 AU 0410 AU 0410 AU 0410がU 304C か U 304B U 3099 がU 304C か U 304B U 3099 がU 304C U 2167 U 2167 U 2167 V I I IU 0056 U 0049 U 0049 U 0049 V I I IU 0056 U 0049 U 0049 U 0049cU 00E7 c U 0063 U 0327 cU 00E7 c U 0063 U 0327 cU 00E7Dvunapravlennoe pismoStandart Yunikod podderzhivaet pismennosti yazykov kak s napravleniem napisaniya sleva napravo angl left to right LTR tak i s napisaniem sprava nalevo angl right to left RTL naprimer arabskoe i evrejskoe pismo V oboih sluchayah simvoly hranyatsya v estestvennom poryadke ih otobrazhenie s uchyotom nuzhnogo napravleniya pisma obespechivaetsya prilozheniem Krome togo Yunikod podderzhivaet kombinirovannye teksty sochetayushie fragmenty s raznym napravleniem pisma Dannaya vozmozhnost nazyvaetsya dvunapravlennost angl bidirectional text BiDi Nekotorye uproshyonnye obrabotchiki teksta naprimer v sotovyh telefonah mogut podderzhivat Yunikod no ne imet podderzhki dvunapravlennosti Vse simvoly Yunikoda podeleny na neskolko kategorij pishushiesya sleva napravo pishushiesya sprava nalevo i pishushiesya v lyubom napravlenii Simvoly poslednej kategorii v osnovnom eto znaki punktuacii pri otobrazhenii prinimayut napravlenie okruzhayushego ih teksta Predstavlennye simvolyShema osnovnoj mnogoyazychnoj ploskosti YunikodaOsnovnaya statya Ploskost Yunikod Yunikod vklyuchaet prakticheski vse sovremennye pismennosti v tom chisle arabskuyu armyanskuyu bengalskuyu birmanskuyu glagolicu grecheskuyu gruzinskuyu devanagari evrejskuyu kirillicu kitajskuyu kitajskie ieroglify aktivno ispolzuyutsya v yaponskom yazyke a takzhe izredka v korejskom koptskuyu khmerskuyu latinskuyu tamilskuyu korejskuyu hangyl cheroki efiopskuyu yaponskuyu kotoraya vklyuchaet v sebya krome slogovoj azbuki eshyo i kitajskie ieroglify i drugie S akademicheskimi celyami dobavleny mnogie istoricheskie pismennosti v tom chisle germanskie runy drevnetyurkskie runy drevnegrecheskaya pismennost egipetskie ieroglify klinopis pismennost majya etrusskij alfavit V Yunikode predstavlen shirokij nabor matematicheskih i muzykalnyh simvolov a takzhe piktogramm Gosudarstvennye flagi ne vklyucheny v Yunikod napryamuyu Dlya ih kodirovaniya ispolzuyutsya pary iz 26 bukvennyh simvolov prednaznachennyh dlya predstavleniya dvuhbukvennyh kodov stran po standartu ISO 3166 1 alpha 2 Eti bukvy zakodirovany v diapazone ot U 1F1E6 regional indicator symbol letter a HTML amp 127462 do U 1F1FF regional indicator symbol letter z HTML amp 127487 V Yunikod principialno ne vklyuchayutsya logotipy kompanij i produktov hotya oni i vstrechayutsya v shriftah naprimer logotip Apple v kodirovke MacRoman 0xF0 ili logotip Windows v shrifte Wingdings 0xFF V yunikodovskih shriftah logotipy dolzhny razmeshatsya tolko v oblasti polzovatelskih simvolov Sushestvuyut svobodnye besplatnye shrifty vklyuchayushie v sebya logotipy kompanij programmnyh produktov i drugie tovarnye znaki naprimer angl ISO IEC 10646Konsorcium Yunikoda rabotaet v tesnoj svyazi s rabochej gruppoj ISO IEC JTC1 SC2 WG2 kotoraya zanimaetsya razrabotkoj mezhdunarodnogo standarta 10646 ISO IEC 10646 Mezhdu standartom Yunikoda i ISO IEC 10646 ustanovlena sinhronizaciya hotya kazhdyj standart ispolzuet svoyu terminologiyu i sistemu dokumentacii Sotrudnichestvo Konsorciuma Yunikoda s Mezhdunarodnoj organizaciej po standartizacii angl International Organization for Standardization ISO nachalos v 1991 godu V 1993 godu ISO vypustila standart DIS 10646 1 Dlya sinhronizacii s nim Konsorcium utverdil standart Yunikoda versii 1 1 v kotoryj byli vneseny dopolnitelnye simvoly iz DIS 10646 1 V rezultate znacheniya zakodirovannyh simvolov v Unicode 1 1 i DIS 10646 1 polnostyu sovpali V dalnejshem sotrudnichestvo dvuh organizacij prodolzhilos V 2000 godu standart Unicode 3 0 byl sinhronizirovan s ISO IEC 10646 1 2000 Predstoyashaya tretya versiya ISO IEC 10646 budet sinhronizirovana s Unicode 4 0 Vozmozhno eti specifikacii dazhe budut opublikovany kak edinyj standart Analogichno formatam UTF 16 i UTF 32 v standarte Yunikoda standart ISO IEC 10646 takzhe imeet dve osnovnye formy kodirovaniya simvolov UCS 2 2 bajta na simvol analogichno UTF 16 i UCS 4 4 bajta na simvol analogichno UTF 32 UCS znachit universalnyj nabor kodirovannyh simvolov angl universal coded character set UCS 2 mozhno schitat podmnozhestvom UTF 16 UTF 16 bez surrogatnyh par a UCS 4 yavlyaetsya sinonimom dlya UTF 32 Razlichiya standartov Yunikod i ISO IEC 10646 nebolshie razlichiya v terminologii ISO IEC 10646 ne vklyuchaet razdely neobhodimye dlya polnocennoj realizacii podderzhki Yunikoda net dannyh o dvoichnom kodirovanii simvolov net opisaniya algoritmov sravneniya angl collation i otrisovki angl rendering simvolov net perechnya svojstv simvolov naprimer net perechnya svojstv neobhodimyh dlya realizacii podderzhki dvunapravlennogo angl bi directional pisma Sposoby predstavleniyaYunikod imeet neskolko form predstavleniya angl Unicode transformation format UTF UTF 8 UTF 16 UTF 16BE UTF 16LE i UTF 32 UTF 32BE UTF 32LE Byla razrabotana takzhe forma predstavleniya UTF 7 dlya peredachi po semibitnym kanalam no iz za nesovmestimosti s ASCII ona ne poluchila rasprostraneniya i ne vklyuchena v standart 1 aprelya 2005 goda byli predlozheny dve shutochnye formy predstavleniya UTF 9 i UTF 18 RFC 4042 V Microsoft Windows NT i osnovannyh na nej sistemah Windows 2000 i Windows XP v osnovnom ispolzuetsya forma UTF 16LE V UNIX podobnyh operacionnyh sistemah GNU Linux BSD i Mac OS X prinyata forma UTF 8 dlya fajlov i UTF 32 ili UTF 8 dlya obrabotki simvolov v operativnoj pamyati Punycode drugaya forma kodirovaniya posledovatelnostej Unicode simvolov v tak nazyvaemye ACE posledovatelnosti kotorye sostoyat tolko iz alfavitno cifrovyh simvolov kak eto razresheno v domennyh imenah UTF 8 Osnovnaya statya UTF 8 UTF 8 predstavlenie Yunikoda obespechivayushee naibolshuyu kompaktnost i obratnuyu sovmestimost s 7 bitnoj sistemoj ASCII tekst sostoyashij tolko iz simvolov s nomerami menshe 128 pri zapisi v UTF 8 prevrashaetsya v obychnyj tekst ASCII i mozhet byt otobrazhyon lyuboj programmoj rabotayushej s ASCII i naoborot tekst zakodirovannyj 7 bitnoj ASCII mozhet byt otobrazhyon programmoj prednaznachennoj dlya raboty s UTF 8 Ostalnye simvoly Yunikoda izobrazhayutsya posledovatelnostyami dlinoj ot 2 do 4 bajt v kotoryh pervyj bajt vsegda imeet masku 11xxxxxx a ostalnye 10xxxxxx V UTF 8 ne ispolzuyutsya surrogatnye pary Format UTF 8 byl izobretyon 2 sentyabrya 1992 goda Kenom Tompsonom i Robom Pajkom i realizovan v OS Plan 9 Sejchas standart UTF 8 oficialno zakreplyon v dokumentah RFC 3629 i ISO IEC 10646 Annex D UTF 16 i UTF 32 Osnovnye stati UTF 16 i UTF 32 UTF 16 kodirovka pozvolyayushaya zapisyvat simvoly Yunikoda v diapazonah U 0000 U D7FF i U E000 U 10FFFF obshim kolichestvom 1 112 064 Pri etom kazhdyj simvol zapisyvaetsya odnim ili dvumya slovami surrogatnaya para Kodirovka UTF 16 opisana v prilozhenii Q k mezhdunarodnomu standartu ISO IEC 10646 a takzhe ej posvyashyon dokument IETF RFC 2781 pod nazvaniem UTF 16 an encoding of ISO 10646 UTF 32 sposob predstavleniya Yunikoda pri kotorom kazhdyj simvol zanimaet rovno 4 bajta Glavnoe preimushestvo UTF 32 pered kodirovkami peremennoj dliny zaklyuchaetsya v tom chto simvoly Yunikod v nej neposredstvenno indeksiruemy poetomu najti simvol po nomeru ego pozicii v fajle mozhno chrezvychajno bystro i poluchenie lyubogo simvola n j pozicii pri etom yavlyaetsya operaciej zanimayushej vsegda odinakovoe vremya Eto takzhe delaet zamenu simvolov v strokah UTF 32 ochen prostoj Naprotiv kodirovki s peremennoj dlinoj trebuyut posledovatelnogo dostupa k simvolu n j pozicii chto mozhet byt ochen zatratnoj po vremeni operaciej Glavnyj nedostatok UTF 32 eto neeffektivnoe ispolzovanie prostranstva tak kak dlya hraneniya lyubogo simvola ispolzuetsya chetyre bajta Simvoly lezhashie za predelami nulevoj bazovoj ploskosti kodovogo prostranstva redko ispolzuyutsya v bolshinstve tekstov Poetomu udvoenie v sravnenii s UTF 16 zanimaemogo strokami v UTF 32 prostranstva zachastuyu ne opravdano Poryadok bajtov Osnovnaya statya Poryadok bajtov V potoke dannyh UTF 16 mladshij bajt mozhet zapisyvatsya libo pered starshim angl UTF 16 little endian UTF 16LE libo posle starshego angl UTF 16 big endian UTF 16BE Analogichno sushestvuet dva varianta chetyryohbajtnoj kodirovki UTF 32LE i UTF 32BE Marker posledovatelnosti bajtov Osnovnaya statya Marker posledovatelnosti bajtov Dlya ukazaniya na ispolzovanie Yunikoda v nachale tekstovogo fajla ili potoka mozhet peredavatsya Marker posledovatelnosti bajtov angl byte order mark BOM simvol U FEFF nerazryvnyj probel nulevoj shiriny Po ego vidu mozhno legko razlichit kak format predstavleniya Yunikoda tak i posledovatelnost bajtov Marker posledovatelnosti bajtov mozhet prinimat sleduyushij vid UTF 8 EF BB BF UTF 16BE FE FF UTF 16LE FF FE UTF 32BE 00 00 FE FF UTF 32LE FF FE 00 00Yunikod i tradicionnye kodirovki Vnedrenie Yunikoda privelo k izmeneniyu podhoda k tradicionnym 8 bitnym kodirovkam Esli ranshe takaya kodirovka vsegda zadavalas neposredstvenno to teper ona mozhet zadavatsya tablicej sootvetstviya mezhdu dannoj kodirovkoj i Yunikodom Fakticheski pochti vse 8 bitnye kodirovki teper mozhno rassmatrivat kak formu predstavleniya nekotorogo podmnozhestva Yunikoda I eto namnogo uprostilo sozdanie programm kotorye dolzhny rabotat s mnozhestvom raznyh kodirovok teper chtoby dobavit podderzhku eshyo odnoj kodirovki nado vsego lish dobavit eshyo odnu tablicu perekodirovki simvolov v Yunikod Krome togo mnogie formaty dannyh pozvolyayut vstavlyat lyubye simvoly Yunikoda dazhe esli dokument zapisan v staroj 8 bitnoj kodirovke Naprimer v HTML mozhno ispolzovat kody s ampersandom Realizacii Bolshinstvo sovremennyh operacionnyh sistem v toj ili inoj stepeni obespechivaet podderzhku Yunikoda V operacionnyh sistemah semejstva Windows NT dlya vnutrennego predstavleniya imyon fajlov i drugih sistemnyh strok ispolzuetsya dvuhbajtovaya kodirovka UTF 16LE Sistemnye vyzovy prinimayushie strokovye parametry sushestvuyut v odnobajtnom i dvuhbajtnom variantah Podrobnee sm v state Yunikod v operacionnyh sistemah semejstva Microsoft Windows UNIX podobnye operacionnye sistemy v tom chisle GNU Linux BSD OS X ispolzuyut dlya predstavleniya Yunikoda kodirovku UTF 8 Bolshinstvo programm mozhet rabotat s UTF 8 kak s tradicionnymi odnobajtnymi kodirovkami ne obrashaya vnimaniya na to chto simvol predstavlyaetsya kak neskolko posledovatelnyh bajt Dlya raboty s otdelnymi simvolami stroki obychno perekodiruyutsya v UCS 4 tak chto kazhdomu simvolu sootvetstvuet mashinnoe slovo Odnoj iz pervyh uspeshnyh kommercheskih realizacij Yunikoda stala sreda programmirovaniya Java V nej principialno otkazalis ot 8 bitnogo predstavleniya simvolov v polzu 16 bitnogo Eto reshenie uvelichilo rashod pamyati no pozvolilo vernut v programmirovanie vazhnuyu abstrakciyu proizvolnyj odinochnyj simvol tip char V chastnosti programmist mog rabotat so strokoj kak s prostym massivom Uspeh ne byl okonchatelnym Yunikod pereros ogranichenie v 16 bit i k versii J2SE 5 0 proizvolnyj simvol snova stal zanimat peremennoe chislo edinic pamyati odin char ili dva sm surrogatnaya para Sejchas kogda bolshinstvo skolko yazykov programmirovaniya podderzhivaet stroki Yunikoda hotya ih predstavlenie mozhet razlichatsya v zavisimosti ot realizacii Metody vvodaPoskolku ni odna raskladka klaviatury ne mozhet pozvolit vvodit vse simvoly Yunikoda odnovremenno ot operacionnyh sistem i prikladnyh programm trebuetsya podderzhka alternativnyh metodov vvoda proizvolnyh simvolov Yunikoda Microsoft Windows Osnovnaya statya Yunikod v operacionnyh sistemah semejstva Microsoft Windows Nachinaya s Windows 2000 sluzhebnaya programma Tablica simvolov charmap exe podderzhivaet simvoly Yunikoda i pozvolyaet kopirovat ih v bufer obmena Realizovana podderzhka tolko bazovoj ploskosti kody simvolov U 0000 U FFFF simvoly s kodami ot U 10000 Tablica simvolov ne otobrazhaet Pohozhaya tablica est v Microsoft Word Inogda mozhno nabrat shestnadcaterichnyj kod nazhat Alt X i kod budet zamenyon na sootvetstvuyushij simvol naprimer v WordPad Microsoft Word V redaktorah Alt X vypolnyaet i obratnoe preobrazovanie V programmah rabotayushih v srede Windows chtoby poluchit simvol Unicode nuzhno pri nazhatoj klavishe Alt nabrat desyatichnoe znachenie koda simvola na cifrovoj klaviature naprimer kombinacii Alt 0171 i Alt 0187 vyvodyat levuyu i pravuyu kavychki yolochki sootvetstvenno Alt 0151 dlinnoe tire Alt 0769 znak udareniya Alt 0133 mnogotochie i pr Macintosh V Mac OS 8 5 i bolee pozdnih versiyah podderzhivaetsya metod vvoda nazyvaemyj Unicode Hex Input Pri zazhatoj klavishe Option trebuetsya nabrat chetyryohznachnyj shestnadcaterichnyj kod trebuemogo simvola Etot metod pozvolyaet vvodit simvoly s kodami bolshimi U FFFD ispolzuya pary surrogatov takie pary operacionnoj sistemoj budut avtomaticheski zameneny na odinochnye simvoly Etot metod vvoda pered ispolzovaniem nuzhno aktivizirovat v sootvetstvuyushem razdele sistemnyh nastroek i zatem vybrat kak tekushij metod vvoda v menyu klaviatury Nachinaya s Mac OS X 10 2 sushestvuet takzhe prilozhenie Character Palette pozvolyayushee vybirat simvoly iz tablicy v kotoroj mozhno vydelyat simvoly opredelyonnogo bloka ili simvoly podderzhivaemye konkretnym shriftom GNU Linux V GNOME takzhe est utilita Tablica simvolov ranee gucharmap pozvolyayushaya otobrazhat simvoly opredelyonnogo bloka ili sistemy pisma i predostavlyayushaya vozmozhnost poiska po nazvaniyu ili opisaniyu simvola Kogda kod nuzhnogo simvola izvesten ego mozhno vvesti v sootvetstvii so standartom ISO 14755 pri zazhatyh klavishah Ctrl Shift vvesti shestnadcaterichnyj kod nachinaya s nekotoroj versii GTK vvod koda nuzhno predvarit nazhatiem klavishi U Vvodimyj shestnadcaterichnyj kod mozhet imet do 32 bit v dlinu pozvolyaya vvodit lyubye simvoly Yunikoda bez ispolzovaniya surrogatnyh par Vse prilozheniya X Window vklyuchaya GNOME i KDE podderzhivayut vvod pri pomoshi klavishi Compose Dlya klaviatur na kotoryh net otdelnoj klavishi Compose dlya etoj celi mozhno naznachit lyubuyu klavishu naprimer Caps Lock Konsol GNU Linux takzhe dopuskaet vvod simvola Yunikoda po ego kodu dlya etogo desyatichnyj kod simvola nuzhno vvesti ciframi rasshirennogo bloka klaviatury pri zazhatoj klavishe Alt Mozhno vvodit simvoly i po ih shestnadcaterichnomu kodu dlya etogo nuzhno zazhat klavishu AltGr i dlya vvoda cifr A F ispolzovat klavishi rasshirennogo bloka klaviatury ot NumLock do Enter po chasovoj strelke Podderzhivaetsya takzhe i vvod v sootvetstvii s ISO 14755 Dlya togo chtoby perechislennye sposoby mogli rabotat nuzhno vklyuchit v konsoli rezhim Yunikoda vyzovom unicode start 1 i vybrat podhodyashij shrift vyzovom setfont 8 Mozilla Firefox dlya Linux podderzhivaet vvod simvolov po ISO 14755 Problemy YunikodaV Yunikode anglijskoe a i polskoe a odin i tot zhe simvol Tochno tak zhe odnim i tem zhe simvolom no otlichayushimsya ot a latinskogo schitayutsya russkoe a i serbskoe a Takoj princip kodirovaniya ne universalen po vidimomu resheniya na vse sluchai zhizni voobshe ne mozhet sushestvovat Teksty na kitajskom korejskom i yaponskom yazykah imeyut tradicionnoe napisanie sverhu vniz nachinaya s pravogo verhnego ugla Pereklyuchenie gorizontalnogo i vertikalnogo napisaniya dlya etih yazykov ne predusmotreno v Yunikode eto dolzhno osushestvlyatsya sredstvami yazykov razmetki ili vnutrennimi mehanizmami tekstovyh processorov Nalichie ili otsutstvie v Yunikode raznyh nachertanij odnogo i togo zhe simvola v zavisimosti ot yazyka Nuzhno sledit chtoby tekst vsegda byl pravilno pomechen kak otnosyashijsya k tomu ili drugomu yazyku Tak kitajskie ieroglify mogut imet raznye nachertaniya v kitajskom yaponskom kandzi i korejskom hancha no pri etom v Yunikode oboznachayutsya odnim i tem zhe simvolom tak nazyvaemaya KKYa unifikaciya hotya uproshyonnye i polnye ieroglify vsyo zhe imeyut raznye kody Analogichno russkij i serbskij yazyki ispolzuyut raznoe nachertanie kursivnyh bukv p i t v serbskom oni vyglyadyat kak p i i t sh sm serbskij kursiv Perevod iz strochnyh bukv v zaglavnye tozhe zavisit ot yazyka Naprimer v tureckom sushestvuyut bukvy Ii i Ii takim obrazom tureckie pravila izmeneniya registra konfliktuyut s anglijskimi kotorye predpisyvayut i perevodit v I Podobnye problemy est i v drugih yazykah naprimer v kanadskom dialekte francuzskogo yazyka registr perevoditsya nemnogo ne tak kak vo Francii Dazhe s arabskimi ciframi est opredelyonnye tipografskie tonkosti cifry byvayut propisnymi i strochnymi proporcionalnymi i monoshirinnymi dlya Yunikoda raznicy mezhdu nimi net Podobnye nyuansy ostayutsya za programmnym obespecheniem Nekotorye nedostatki svyazany ne s samim Yunikodom a s vozmozhnostyami obrabotchikov teksta Fajly nelatinskogo teksta v Yunikode vsegda zanimayut bolshe mesta tak kak odin simvol kodiruetsya ne odnim bajtom kak v razlichnyh nacionalnyh kodirovkah a posledovatelnostyu bajtov isklyuchenie sostavlyaet UTF 8 dlya yazykov alfavit kotoryh ukladyvaetsya v ASCII a takzhe nalichie v tekste simvolov dvuh i bolee yazykov alfavit kotoryh ne ukladyvaetsya v ASCII Fajl shrifta vseh simvolov tablicy Yunikod zanimaet sravnitelno mnogo mesta v pamyati i trebuet bo lshih vychislitelnyh resursov chem shrift tolko odnogo nacionalnogo yazyka polzovatelya S uvelicheniem moshnosti kompyuternyh sistem i udeshevleniem pamyati i diskovogo prostranstva eta problema stanovitsya vsyo menee sushestvennoj tem ne menee ona ostayotsya aktualnoj dlya portativnyh ustrojstv naprimer dlya mobilnyh telefonov Hotya podderzhka Yunikoda realizovana v naibolee rasprostranyonnyh operacionnyh sistemah do sih por ne vsyo prikladnoe programmnoe obespechenie podderzhivaet korrektnuyu rabotu s nim V chastnosti ne vsegda obrabatyvayutsya metki poryadka bajtov BOM i ploho podderzhivayutsya diakriticheskie simvoly Problema yavlyaetsya vremennoj i est sledstvie sravnitelnoj novizny standartov Yunikoda v sravnenii s odnobajtovymi nacionalnymi kodirovkami Proizvoditelnost vseh programm obrabotki strok v tom chisle i sortirovok v BD snizhaetsya pri ispolzovanii Yunikoda vmesto odnobajtovyh kodirovok Nekotorye redkie sistemy pisma vsyo eshyo ne predstavleny dolzhnym obrazom v Yunikode Izobrazhenie dlinnyh nadstrochnyh simvolov prostirayushihsya nad neskolkimi bukvami kak naprimer v cerkovnoslavyanskom yazyke poka ne realizovano Napisanie slova Unicode Unicode odnovremenno i imya sobstvennoe ili chast imeni naprimer Unicode Consortium i imya naricatelnoe proishodyashee iz anglijskogo yazyka Na pervyj vzglyad predpochtitelnee ispolzovat napisanie Unikod V russkom yazyke uzhe est morfemy uni slova s latinskim elementom uni tradicionno perevodilis i pisalis cherez uni universalnyj unipolyarnyj unifikaciya uniforma i kod Naprotiv torgovye marki zaimstvovannye iz anglijskogo yazyka obychno peredayutsya posredstvom prakticheskoj transkripcii v kotoroj deetimologizirovannoe sochetanie bukv uni zapisyvaetsya v vide yuni Yunilever Yuniks i t p to est tochno tak zhe kak v sluchae s pobukvennymi sokrasheniyami vrode UNICEF United Nations International Children s Emergency Fund YuNISEF Na sajte Konsorciuma est specialnaya stranica gde rassmatrivayutsya problemy peredachi slova Unicode v razlichnyh yazykah i sistemah pisma Dlya russkoj kirillicy ukazan variant Yunikod V MS Windows takzhe ispolzuetsya variant Yunikod V Vikipedii na russkom yazyke ispolzuetsya variant Yunikod kak naibolee rasprostranyonnyj Sm takzheSimvoly predstavlennye v Yunikode ASCII ISO 8859 1 UTF 8 UTF 16 UTF 32 Kirillica v Yunikode Drobi v Yunikode XeTeX Windows Glyph List 4 Shirokij simvolPrimechaniya angl Data obrasheniya 10 maya 2010 Arhivirovano iz originala 8 aprelya 2006 goda neopr Data obrasheniya 4 iyulya 2010 Arhivirovano iz originala 10 marta 2010 goda neopr Data obrasheniya 4 iyulya 2010 Arhivirovano iz originala 10 yanvarya 2010 goda neopr Data obrasheniya 4 iyulya 2010 Arhivirovano iz originala 27 iyunya 2010 goda neopr Data obrasheniya 4 iyulya 2010 Arhivirovano iz originala 27 iyunya 2010 goda neopr Data obrasheniya 5 iyulya 2010 Arhivirovano iz originala 27 iyunya 2010 goda neopr Data obrasheniya 4 iyulya 2010 Arhivirovano iz originala 27 iyunya 2010 goda Chto takoe Unicode neopr Data obrasheniya 15 fevralya 2006 13 fevralya 2006 goda neopr Data obrasheniya 8 iyulya 2010 Arhivirovano iz originala 6 sentyabrya 2017 goda angl Microsoft Support Data obrasheniya 12 noyabrya 2009 Arhivirovano iz originala 26 sentyabrya 2009 goda rus Data obrasheniya 9 fevralya 2010 Arhivirovano iz originala 11 iyunya 2010 goda https www unicode org versions Unicode15 1 0 History of Unicode Release and Publication Dates neopr Data obrasheniya 3 iyulya 2010 10 yanvarya 2010 goda Enumerated Versions neopr Data obrasheniya 2 iyulya 2017 25 dekabrya 2018 goda About Versions neopr Data obrasheniya 2 iyulya 2017 16 iyulya 2017 goda Unicode 1 0 angl angl Data obrasheniya 8 dekabrya 2017 13 dekabrya 2017 goda Unicode Data 1 0 0 angl Data obrasheniya 4 dekabrya 2017 30 iyunya 2012 goda Unicode Data 1 0 1 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 1 1 angl angl Data obrasheniya 8 dekabrya 2017 13 dekabrya 2017 goda Unicode Data 1995 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 2 0 0 angl angl Data obrasheniya 8 dekabrya 2017 8 iyulya 2017 goda Unicode Data 2 0 14 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 2 1 0 angl angl Data obrasheniya 8 dekabrya 2017 2 yanvarya 2015 goda Unicode Data 2 1 2 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 3 0 0 angl angl Data obrasheniya 8 dekabrya 2017 7 iyulya 2017 goda Unicode Data 3 0 0 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 3 1 0 angl angl Data obrasheniya 8 dekabrya 2017 7 iyulya 2017 goda Unicode Data 3 1 0 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 3 2 0 angl angl Data obrasheniya 8 dekabrya 2017 14 iyulya 2017 goda Unicode Data 3 2 0 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 4 0 0 angl angl Data obrasheniya 8 dekabrya 2017 14 iyulya 2017 goda Unicode Data 4 0 0 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 4 1 0 angl angl Data obrasheniya 8 dekabrya 2017 25 maya 2021 goda Unicode Data 4 1 0 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 5 0 0 angl angl 14 iyulya 2006 Data obrasheniya 8 dekabrya 2017 10 iyunya 2008 goda Unicode Data 5 0 0 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 5 1 0 angl angl 4 aprelya 2008 Data obrasheniya 8 dekabrya 2017 10 aprelya 2010 goda Unicode Data 5 1 0 angl Data obrasheniya 4 dekabrya 2017 19 aprelya 2022 goda Unicode 5 2 0 angl angl 1 oktyabrya 2009 Data obrasheniya 8 dekabrya 2017 8 noyabrya 2017 goda Unicode Data 5 2 0 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 6 0 0 angl angl 11 oktyabrya 2010 Data obrasheniya 8 dekabrya 2017 8 fevralya 2013 goda Unicode Data 6 0 0 angl Data obrasheniya 4 dekabrya 2017 21 marta 2022 goda Unicode 6 1 0 angl angl 31 yanvarya 2012 Data obrasheniya 8 dekabrya 2017 15 iyulya 2017 goda Unicode Data 6 1 0 angl Data obrasheniya 4 dekabrya 2017 26 marta 2022 goda Unicode 6 2 0 angl angl 26 sentyabrya 2012 Data obrasheniya 7 dekabrya 2017 12 fevralya 2019 goda Unicode Data 6 2 0 angl Data obrasheniya 4 dekabrya 2017 26 marta 2022 goda Unicode 6 3 0 angl angl 30 sentyabrya 2012 Data obrasheniya 7 dekabrya 2017 15 iyulya 2017 goda Unicode Data 6 3 0 angl Data obrasheniya 4 dekabrya 2017 7 aprelya 2022 goda Unicode 7 0 0 angl angl 16 iyunya 2014 Data obrasheniya 8 dekabrya 2017 15 aprelya 2019 goda Unicode Data 7 0 0 angl Data obrasheniya 4 dekabrya 2017 7 aprelya 2022 goda Unicode 8 0 0 angl angl 17 iyunya 2015 Data obrasheniya 8 dekabrya 2017 28 iyunya 2016 goda Unicode Data 8 0 0 angl Data obrasheniya 4 dekabrya 2017 24 marta 2021 goda Unicode 9 0 0 angl angl 21 iyunya 2016 Data obrasheniya 8 dekabrya 2017 28 fevralya 2020 goda Unicode Data 9 0 0 angl Data obrasheniya 6 dekabrya 2017 7 aprelya 2022 goda Unicode 10 0 0 angl angl 27 iyunya 2017 Data obrasheniya 8 dekabrya 2017 20 iyunya 2017 goda Unicode Data 10 0 0 angl Data obrasheniya 7 dekabrya 2017 21 noyabrya 2021 goda Unicode Data 11 0 0 angl Data obrasheniya 12 aprelya 2019 8 aprelya 2022 goda The Unicode Blog Announcing The Unicode Standard Version 11 0 neopr Data obrasheniya 5 iyunya 2019 22 iyulya 2019 goda Unicode 11 0 0 neopr Data obrasheniya 5 iyunya 2019 30 marta 2021 goda The Unicode Blog Announcing The Unicode Standard Version 12 0 neopr Data obrasheniya 5 iyunya 2019 3 iyunya 2019 goda Unicode 12 0 0 neopr Data obrasheniya 5 iyunya 2019 30 marta 2021 goda The Unicode Blog Unicode Version 12 1 released in support of the Reiwa Era neopr Data obrasheniya 5 iyunya 2019 7 maya 2019 goda Unicode 12 1 0 neopr Data obrasheniya 5 iyunya 2019 8 iyunya 2019 goda The Unicode Blog Announcing The Unicode Standard Version 13 0 neopr Data obrasheniya 15 maya 2020 26 aprelya 2022 goda Unicode 13 0 0 neopr Data obrasheniya 15 maya 2020 30 marta 2021 goda Roadmap to the TIP Tertiary Ideographic Plane neopr Data obrasheniya 12 oktyabrya 2010 29 fevralya 2020 goda Unicode Character Encoding Stability Policy neopr Data obrasheniya 2 maya 2014 15 avgusta 2012 goda FAQ Emoji amp Dingbats neopr Data obrasheniya 2 maya 2014 29 aprelya 2014 goda Guidelines for Submitting Unicode Emoji Proposals neopr Data obrasheniya 10 iyunya 2021 6 iyunya 2021 goda Normalizaciya Unicode neopr Data obrasheniya 4 avgusta 2014 8 avgusta 2014 goda GitHub FortAwesome Font Awesome The iconic SVG font and CSS toolkit neopr Data obrasheniya 27 iyunya 2020 27 iyunya 2020 goda neopr Data obrasheniya 27 fevralya 2007 Arhivirovano iz originala 29 oktyabrya 2006 goda angl Registr v Unicode eto neprosto neopr Data obrasheniya 9 aprelya 2011 23 aprelya 2014 goda V bolshinstve shriftov dlya PK realizovany propisnye mayuskulnye monoshirinnye cifry V nekotoryh sluchayah dokument ne prostoj tekst v Yunikode mozhet zanimat sushestvenno menshe mesta chem dokument v odnobajtovoj kodirovke Naprimer esli nekaya veb stranica soderzhit primerno porovnu russkogo i grecheskogo teksta to v odnobajtovoj kodirovke pridyotsya libo russkie libo grecheskie bukvy zapisyvat ispolzuya vozmozhnosti formata dokumentov v vide kodov s ampersandom kotorye zanimayut 6 7 bajt na simvol pri ispolzovanii desyatichnyh kodov to est v srednem na bukvu pridyotsya 3 5 4 bajta v to vremya kak UTF 8 zanimaet tolko 2 bajta na grecheskuyu ili russkuyu bukvu Odin iz fajlov shriftov Arial Unicode imeet razmer 24 megabajta sushestvuet Times New Roman razmerom 120 megabajt on soderzhit kolichestvo simvolov blizkoe k 65536 SsylkiOficialnyj sajt Konsorciuma Yunikoda angl Tablica simvolov Yunikoda s nazvaniyami poisk po simvolam rus angl Poslednyaya versiya standarta Yunikod angl Svyaz Yunikoda versii 5 0 0 i ISO IEC 10646 fajl PDF angl FAQ po UTF 8 i Unicode angl
Вершина