Prečo anglické znaky potrebujú menej bajtov na ich reprezentáciu ako znaky v iných abecedách?

Video: Prečo anglické znaky potrebujú menej bajtov na ich reprezentáciu ako znaky v iných abecedách?

Video: This Will Clean Your Computer Viruses (Malware) - YouTube 2024, November

2024 Autor: Geoffrey Carr | [email protected]. Naposledy zmenené: 2023-12-17 10:59

Zatiaľ čo väčšina z nás sa pravdepodobne nikdy neskončila premýšľať o tom, abecedné znaky nie sú rovnakej veľkosti v počte bajtov, ktoré sú potrebné na ich zastupovanie. Ale prečo to je? Dnešný príspevok SuperUser Q & A má odpovede na otázku zvedavého čitateľa.

Dnešná relácia otázok a odpovedí sa k nám pridelí zdvorilosťou SuperUser - podskupiny Stack Exchange, skupín webových stránok týkajúcich sa otázok a odpovedí.

Časť ASCII grafu snímku s láskavým dovolením na Wikipédii.

Otázka

Čítač SuperUser khajvah chce vedieť, prečo rôzne abecedy zaberajú rôzne veľkosti miesta na disku, keď sú uložené:


When I put ‘a’ in a text file and save it, it makes it 2 bytes in size. But when I put a character like ‘ա’ (a letter from the Armenian alphabet) in, it makes it 3 bytes in size.
What is the difference between alphabets on a computer? Why does English take up less space when saved?

Písmená sú listy, nie? Možno nie! Aká je odpoveď na toto abecedné tajomstvo?

Odpoveď

Príslušníci programu SuperUser Doktor Reichard a ernie majú odpoveď pre nás. Po prvé, doktor Reichard:


One of the first encoding schemes to be developed for use in mainstream computers is the ASCII (American Standard Code for Information Interchange) standard. It was developed in the 1960s in the United States.
The English alphabet uses part of the Latin alphabet (for instance, there are few accented words in English). There are 26 individual letters in that alphabet, not considering case. And there would also have to exist the individual numbers and punctuation marks in any scheme that pretends to encode the English alphabet.
The 1960s was also a time when computers did not have the amount of memory or disk space that we have now. ASCII was developed to be a standard representation of a functional alphabet across all American computers. At the time, the decision to make every ASCII character 8 bits (1 byte) long was made due to technical details of the time (the Wikipedia article mentions the fact that perforated tape held 8 bits in a position at a time). In fact, the original ASCII scheme can be transmitted using 7 bits, and the eighth could be used for parity checks. Later developments expanded the original ASCII scheme to include several accented, mathematical, and terminal characters.
With the recent increase of computer usage across the world, more and more people from different languages had access to a computer. That meant that, for each language, new encoding schemes had to be developed, independently from other schemes, which would conflict if read from different language terminals.
Unicode came into being as a solution to the existence of different terminals by merging all possible meaningful characters into a single abstract character set.
UTF-8 is one way to encode the Unicode character set. It is a variable-width encoding (i.e. different characters can have different sizes) and it was designed for backwards compatibility with the former ASCII scheme. As such, the ASCII character set will remain one byte in size whilst any other characters are two or more bytes in size. UTF-16 is another way to encode the Unicode character set. In comparison to UTF-8, characters are encoded as either a set of one or two 16-bit code units.
As stated in other comments, the ‘a’ character occupies a single byte while ‘ա’ occupies two bytes, denoting a UTF-8 encoding. The extra byte in the original question was due to the existence of a newline character at the end.

Nasledovala odpoveď od ernie:


1 byte is 8 bits, and can thus represent up to 256 (2^8) different values.
For languages that require more possibilities than this, a simple 1 to 1 mapping can not be maintained, so more data is needed to store a character.
Note that generally, most encodings use the first 7 bits (128 values) for ASCII characters. That leaves the 8th bit, or 128 more values for more characters. Add in accented characters, Asian languages, Cyrillic, etc. and you can easily see why 1 byte is not sufficient for holding all characters.

Máte niečo doplniť vysvetlenie? Znížte komentáre. Chcete si prečítať viac odpovedí od iných používateľov technológie Stack Exchange? Pozrite sa na celý diskusný príspevok tu.

Odporúča:

Ako upraviť pevnosť vašich filtrov Instagram, aby ste ich menej preťažili

Tajomstvo správnej úpravy fotografií nevie, čo má robiť, ale vedel, kedy sa má zastaviť. Ktokoľvek môže pridať tóny kontrastu a sýtosti a odísť "štylizovaným" obrazom, ale nie každý má obmedzenie pridať len správne množstvo kontrastu alebo sýtosti. To isté platí pre filtre Instagram.

Prečo niektoré aplikácie Mac potrebujú "riadiť tento počítač pomocou funkcií dostupnosti?"

Niektoré aplikácie, ako napríklad Dropbox a Steam, sa budú spýtať na "kontrolu tohto počítača pomocou funkcií dostupnosti". Ale čo to sakra robí, to dokonca znamená?

Prečo môžem vypáliť len 80 minút hudby na CD, ak moje MP3 preberajú menej ako 700 MB priestoru?

Pri napaľovaní disku CD môžete ho buď napáliť ako dátový disk alebo zvukový disk CD. Dátové CD môže obsahovať až 700 MB, zatiaľ čo audio CD môže obsahovať 80 minút zvuku. Ak máte 200 MB súborov MP3, ktoré pridávajú až tri hodiny hudby, môžete na disk napaľovať až 80 minút. Prečo to je?

Prečo služba Google Say Mozilla Thunderbird je menej bezpečná?

Niekedy, keď hľadáte odpoveď na jednu vec, skončíte nájsť niečo iné prekvapujúce. Prípadom je vyhlásenie spoločnosti Google, že Mozilla Thunderbird je menej bezpečný, ale prečo to hovorí? Dnešný príspevok typu SuperUser Q & A má odpoveď na otázku zmeteného čitateľa.

Prečo notebooky potrebujú fanúšikov systému, ale tablety nie?

Hodinu po tom, ako ste sa usadili v tablete, ste zaneprázdnení hrať, stále je to ticho ako myš, ale väčšina notebookov vás bude zúriť so závanom systémového ventilátora. Prečo sa tablety vzdali chladiaceho ventilátora?

Prečo anglické znaky potrebujú menej bajtov na ich reprezentáciu ako znaky v iných abecedách?

Obsah:

Video: Prečo anglické znaky potrebujú menej bajtov na ich reprezentáciu ako znaky v iných abecedách?

Otázka

Odpoveď

Odporúča:

Ako upraviť pevnosť vašich filtrov Instagram, aby ste ich menej preťažili

Prečo niektoré aplikácie Mac potrebujú "riadiť tento počítač pomocou funkcií dostupnosti?"

Prečo môžem vypáliť len 80 minút hudby na CD, ak moje MP3 preberajú menej ako 700 MB priestoru?

Prečo služba Google Say Mozilla Thunderbird je menej bezpečná?

Prečo notebooky potrebujú fanúšikov systému, ale tablety nie?

Ako zakázať funkciu animácie písania v programe Office 2013

Žiadne ďalšie poplatky za inováciu: Použite Dokumenty Google alebo Webové aplikácie Office Aplikácie namiesto balíka Microsoft Office

Prečo nepoužívať všetky nástroje na vyhľadávanie súborov Použiť tabuľku hlavného súboru pre okamžité výsledky?

Ako zobraziť tabuľky vedľa seba v samostatnom systéme Windows v programe Excel 2013

Ako nainštalovať NZBGet pre ľahké Usenet sťahovanie na vaše maliny Pi

Pridať Kontrola pravopisu do programu Internet Explorer

Použitie položiek s divokými kartami v programe Access 2010

Pridajte videá do frontu boxe priamo z vášho prehliadača

Ako urobiť príkazový riadok systému Windows širší

Čo je RCS, Nástupca SMS?

Všetky vstavané ikony, ktoré môžete zobraziť na paneli ponuky pre Mac (pravdepodobne)

Kompletný sprievodca nákupom externej batérie

Máte naozaj musieť zaplatiť za zvonenie?

Čo je to ESN a prečo sa mi to zaujíma, ak je to čisté?

Ako skontrolovať vek inštalácie systému Windows