代表的な文字コードに関して

●JIS(ISO-2022-JP)
JIS規格によって規定されている日本語の文字コードの一つ。
文字コードは7ビットで記述。

●シフトJIS(シフト符号化表現)
日本語文字コードの一つ。
Microsoft社によって策定された。
JISとあるが、JISの文字コードを拡張したもので、JISの規格ではないと考えられる。
JIS漢字コード(JIS X 0208)を再配置(シフト)し、2バイト文字と1バイト文字(JIS X 0201)を、エスケープなどで切り替えることなく同時に混在して扱える。

●EUC(Extended Unix Code)
日本語対応UNIXワークステーションで使われているコード。
JISコードと同じくJIS 0208の文字セット規格をISO 2022-1993に基づいて符号化。

●Unicode
Apple社、IBM社、Microsoft社などによって、標準化された文字コード体系「ISO/IEC 10646」(UCS-2、UCS-4)のこと。
「UTF(UCS Transformation Format)」は、UCS-2やUCS-4で定義される文字集合を用いて記述された文字列を、変換する方式。

——付記———————————————————————————————-
■文字符号化方式による弊害
同コード「0x5c」は、「JIS X 0201」 であれば円マーク(¥←2バイト)、
「ISO8859-1」であればバックスラッシュ(?←2バイト)と表示される。

■改行コードに関して
「CR」(Carriage Return : 復帰)、「LF」(Line Feed : 改行)「CR+LF」、「Carridge Return & Line Feed」が有名な改行コード。
Microsoft Windowsでは「CR+LF」、Apple MacOS9以前では「CR」、UNIX、MacOSXでは「LF」が使われている。
なお、プログラミングにおいては、「\n」は「改行」、「\r」は「復帰」を表しています。
プログラムを正常に動作させるために、「改行コードの識別」または、「改行コードの置換」にせまられる時がある。

■正規表現とは
文字列の集合を一つの文字列で表現する方法の一つ。
アプリケーションソフトのおいては、パターンマッチ文字列を表すために使用され、本来の正規表現にはないさまざまな新記法が加えられた。

Follow me!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*