컴퓨터 공학/혼자 공부하는 컴퓨터 구조 +운영체제

3. 0과 1로 문자를 표현하는 방법

공부를하자 2023. 6. 18. 17:24

1.문자집합과 인코딩

1)문자집합(Character set)

  -컴퓨터가 인식하고 표현할 있는 문자 모음

2)인코딩(encoding)

  -문자를 0 1 이루어진 코드로 변환하는 .

3)디코딩(decoding)

 -0 1 이루어진 코드를 문자로 변환하는 .

2.아스키 코드(ASCII:

 American Standard Code for Information Interchange)

1)정의: 초창기 문자집합

  -8비트로 이루어지지만 1비트는 오류 검출을 위한 패리티 비트 .

   그래서 8비트지만 나머지  7개의 비트로 128개의 문자를 표현한다.

 

 

3.EUC-KR

1)정의 등장 배경

 -언어의 종류는 많고 아스키 코드로는 한글을 표현할 없고

   128개의 표현 개수가 부족하다.

   나중에 1비트가 추가된 확장 아스키 코드(256개의 문자 표현)나오지만

   개수가 턱없이 부족

 -한글을 표현하기 위해 교유한 문자 집합과 인코딩 방식이 필요

  그래서 나온 것이 EUC-KR이다.

2)완성형 인코딩과 조합형 인코딩

 -완성형 인코딩: 초성,중성,종성의 조합으로 이루어진 하나의 글자에

  고유한 번호를 부여하는 인코딩 방식.

  EUR-KR 완성형이다.

 -조합형 인코딩: 초성,중성,종성 각각에 비트열을 할당하여(코드를 부여) 그것들의

  조합으로 하나의 글자 코드를 완성하는 방식.

 

 3)16진수 표현

  - 글자에 2바이트 16비트를 가지고 이것은 4자리 16진수로 표현할 있다

 4)CP949(Code Page 949)

 - EUC-KR 2,350개의 한글을 표현한다. 하지만 모든 한글을 표현하진 못하다.

 - EUC-KR 확장판이 CP949이다. 그럼에도 모든 한글을 표현하진 않는다. 

4.유니코드와 UTF-8

1)정의 등장배경

  -EUC-KR같은 경우 다국어 지원 프로그램을 만들 언어별로 인코딩 방식을

  알아야 하는 번거로움이 있다.

  -모든 나라 언어의 문자집합과 인코딩 방식이 있으면 휠씬 편할 것이다.

  -그래서 나온 것이 유니코드 문자집합이다.

  -유니코드는 문자 외에도 특수문자,화살표 이모티콘 또한  표현이 가능하다.

  -현재 문자를 표현할 가장 많이 사용되는 표준 문자집합이다.

 2)문자집합 예시

  3)UTF-8

 -유니코드는 다양한 인코딩 방식을 가지고 있는데 가장 대중적인 것이 UTF-8이다.