괴발나라

ASCII vs EUC-KR vs UTF-8 본문

도서/혼자공부하는 컴퓨터 구조 + 운영체제

ASCII vs EUC-KR vs UTF-8

괴발맨 2023. 6. 6. 19:58

서론 : ASCII는 문자집합이고 EUC-KR은 KS X 1001 과 KS X 1003 이라는 문자집합을 기반으로 하는 인코딩 방식이며 UTF-8은 UNICODE라는 문자집합을 기반으로 하는 인코딩 방식

문자 집합

- 개념: 컴퓨터가 인식할 수 있는 문자들의 모음 

- 종류: ASCII, UNICODE, KS X 1001 ...

- 인코딩: 문자 집합을 이진수로 변환 -> 컴퓨터가 이해할 수 있음

    - 인코딩 방식: EUC-KR, UTF-8, UTF-16 ...

- 디코딩: 이진수를 문자 집합으로 변환 -> 사람이 이해할 수 있음

 

ASCII 문자 집합

- 영어, 아라비아 숫자, 일부 특수문자 표현 가능

- 2의 7승, 즉 128개 문자만 포함함. 한글도 없음..;

- 코드 포인트 (글자에 부여된 숫자. 예를 들어 A -> 65) 를 그대로 문자로 인코딩. 예를 들어 A는 65로 인코딩함

 

EUC-KR

- KS X 1001, KS X 1003 문자집합 기반 한글 완성형 인코딩 방식

- 초성, 중성, 종성이 모두 결합한 한글 단어에 2바이트 크기 코드 부여하는 방식임 

- 모든 한글 단어를 표현하지 못함 -> "쀍", "쀓" 이런거 표현 못함

 

UTF-8

- 거의 모든 나라의 문자와 특수문자, 이모티콘까지 표현할 수 있는 UNICODE 기반 인코딩 방식 

- UTF-16, UTF-32도 있지만 UTF-8이 가장 대중적임.

- 인코딩 방식의 특성 상 인코딩한 값의 결과가 1,2,3,4 바이트 될 수 있음.

 

요약

ASCII 문자집합은 초창기 문자 집합이고 영어와 일부 특수문자밖에 표현하지 못한다.

EUC-KR 인코딩 방식은 KS X 1001, KS X 1003 이라는 한글 문자집합을 사용하기 떄문에 한글을 표현할 수는 있지만 모든 한글을 표현하지 못한다.

UTF-8 인코딩 방식은 유니코드라는 문자집합을 사용하는데 유니코드는 거의 모든 나라의 문자, 특수문자, 이모티콘까지 표현 가능하다. 그래서 UTF-8은 가장 널리 사용되고 있다.