일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 코딩
- Spring
- 웹
- backend
- cache
- 서버개발
- 연관관계
- jpa
- Sprign
- 집합관계
- 디자인패턴
- java
- caching
- 개발
- 의존관계
- Programming
- 프로그래밍
- 봇
- spring data jpa
- redis
- IT
- OOP
- 전략패턴
- Web
- 객체지향
- 클래스다이어그램
- 백엔드
- 자바
- 웹개발
- 다자인패턴
- Today
- Total
괴발나라
ASCII vs EUC-KR vs UTF-8 본문
서론 : ASCII는 문자집합이고 EUC-KR은 KS X 1001 과 KS X 1003 이라는 문자집합을 기반으로 하는 인코딩 방식이며 UTF-8은 UNICODE라는 문자집합을 기반으로 하는 인코딩 방식임
문자 집합
- 개념: 컴퓨터가 인식할 수 있는 문자들의 모음
- 종류: ASCII, UNICODE, KS X 1001 ...
- 인코딩: 문자 집합을 이진수로 변환 -> 컴퓨터가 이해할 수 있음
- 인코딩 방식: EUC-KR, UTF-8, UTF-16 ...
- 디코딩: 이진수를 문자 집합으로 변환 -> 사람이 이해할 수 있음
ASCII 문자 집합
- 영어, 아라비아 숫자, 일부 특수문자 표현 가능
- 2의 7승, 즉 128개 문자만 포함함. 한글도 없음..;
- 코드 포인트 (글자에 부여된 숫자. 예를 들어 A -> 65) 를 그대로 문자로 인코딩. 예를 들어 A는 65로 인코딩함
EUC-KR
- KS X 1001, KS X 1003 문자집합 기반 한글 완성형 인코딩 방식
- 초성, 중성, 종성이 모두 결합한 한글 단어에 2바이트 크기 코드 부여하는 방식임
- 모든 한글 단어를 표현하지 못함 -> "쀍", "쀓" 이런거 표현 못함
UTF-8
- 거의 모든 나라의 문자와 특수문자, 이모티콘까지 표현할 수 있는 UNICODE 기반 인코딩 방식
- UTF-16, UTF-32도 있지만 UTF-8이 가장 대중적임.
- 인코딩 방식의 특성 상 인코딩한 값의 결과가 1,2,3,4 바이트 될 수 있음.
요약
ASCII 문자집합은 초창기 문자 집합이고 영어와 일부 특수문자밖에 표현하지 못한다.
EUC-KR 인코딩 방식은 KS X 1001, KS X 1003 이라는 한글 문자집합을 사용하기 떄문에 한글을 표현할 수는 있지만 모든 한글을 표현하지 못한다.
UTF-8 인코딩 방식은 유니코드라는 문자집합을 사용하는데 유니코드는 거의 모든 나라의 문자, 특수문자, 이모티콘까지 표현 가능하다. 그래서 UTF-8은 가장 널리 사용되고 있다.
'도서 > 혼자공부하는 컴퓨터 구조 + 운영체제' 카테고리의 다른 글
[CPU] ALU, 제어장치에 대해 간단히 알아보자 (0) | 2023.06.08 |
---|---|
컴퓨터 명령어를 간단히 알아보자 (0) | 2023.06.07 |