출처 : http://tong.nate.com/thisbe71/24531681
안녕하세요.
일단 문자세트, 테이블에 대해서 조금 이야기를 할까 합니다.
옛날 ASCII 코드라고 들어보신 적이 있으실까 모르겠습니다.
이넘들이 1바이트를 가지고 문자를 표현했었습니다.
1바이트니까 256개의 문자를 표현할 수 있지요.
그것이 저 위에 있는 SBCS입니다.
그러다가 한글도 써야 되고 일어도 써야 되고 한문도 써야 되지요...
그것을 위해서 만들어진 것이 바로 DBCS입니다.
한글을 쉽게 쓸 수 있어서 좋긴하지만 문제가 발생했습니다.
SBCS와 DBCS가 호환이 되지 않았던 겁니다.
그래서 저거 두개 묶어 쓰자...라고 나온 것이 MBCS이구요.
하지만 MBCS 내부에서 호환이 되지 않았기 때문에 앗싸리 바이트를 여러개 써서 모든 문자를 표현하기 위해서 나온 것이 바로 WBCS입니다.
multi-byte characater는 바로 MBCS이구요.
유니코드는 WBCS랍니다.
자~ 그럼 왜 WBCS에서 MBCS로 바꿔야 할까요.
그것은 바로 윈도우즈 운영체제 때문입니다.
윈도우즈 95, 98, me 계열, 9x계열들은 MBCS를 사용했었습니다.
그러다가 윈도우즈 2000 넘어가면서부터 WBCS를 사용하게 되었는데요.
물론 윈도우즈 2000이상급들에서도 MBCS를 사용할 수 있긴 하지만 9x계열에서는 WBCS를 사용할 수가 없죠.
프로그램의 운영체제간 호환성을 위해서 어쩔 수 없이 써야하는 것이랍니다.
여기까지 대략적인 문자세트를 설명했구요.
이제 답변을...
624b -> 이렇게 있으면 '手'이 뮨자가 나와야 한다는 건가여?
==> 네 그렇습니다. 유니코드는 전세계 모든 문자를 담고 있습니다.
그렇다면
유니코드의 테이블과 각 유니코드가 가리키는 문자를 가지고 있다가
624b찾아서 저 문자(手)를 돌려주어야 하는건가여?
==> 그렇습니다. 유니코드 테이블에서 624b 자리에 해당되는 문자를 출력합니다.
unicode의 개념은 정확히 알겠는데
multi-byte character로 변환한다. 라는 말이 머리에 제대로 들어오지 않습니다.
==> MBCS는 SBCS(1바이트로 표현되는 문자세트)와 DBCS(2바이트로 표현되는 문자세트)의 조합입니다. WBCS는 여러바이트를 사용하여 문자를 나타내기 때문에 호환이 되지 않습니다.
==> 따라서 호환이 되기 위해서는 영어문자에 대해서 1바이트로, 한글 등은 2바이트로 나타낼려면 변환이 필요합니다.
여담이지만 WBCS는 전세계 모든 문자를 표현할 수 있구요. MBCS는 언어(한글, 일본어, 중국어 등)에 관계없이 동일한 영역을 사용합니다.
이 차이는 유니코드로는 전세계 모든 문자 소화가능이구요. MBCS는 특정 언어셋을 사용한다라고 선언해줘야 그 언어셋에 한해서만 사용이 가능하다는 뜻이 됩니다.
출처 : Tong - 통동이님의 프로그램밍 일반통
안녕하세요.
일단 문자세트, 테이블에 대해서 조금 이야기를 할까 합니다.
SBCS(Single Byte Character Set)
DBCS(Double Byte Character Set)
MBCS(Multi Byte Charecter Set)
WBCS(Wide Byte Charecter Set)
4종류의 테이블이 있습니다.옛날 ASCII 코드라고 들어보신 적이 있으실까 모르겠습니다.
이넘들이 1바이트를 가지고 문자를 표현했었습니다.
1바이트니까 256개의 문자를 표현할 수 있지요.
그것이 저 위에 있는 SBCS입니다.
그러다가 한글도 써야 되고 일어도 써야 되고 한문도 써야 되지요...
그것을 위해서 만들어진 것이 바로 DBCS입니다.
한글을 쉽게 쓸 수 있어서 좋긴하지만 문제가 발생했습니다.
SBCS와 DBCS가 호환이 되지 않았던 겁니다.
그래서 저거 두개 묶어 쓰자...라고 나온 것이 MBCS이구요.
하지만 MBCS 내부에서 호환이 되지 않았기 때문에 앗싸리 바이트를 여러개 써서 모든 문자를 표현하기 위해서 나온 것이 바로 WBCS입니다.
multi-byte characater는 바로 MBCS이구요.
유니코드는 WBCS랍니다.
자~ 그럼 왜 WBCS에서 MBCS로 바꿔야 할까요.
그것은 바로 윈도우즈 운영체제 때문입니다.
윈도우즈 95, 98, me 계열, 9x계열들은 MBCS를 사용했었습니다.
그러다가 윈도우즈 2000 넘어가면서부터 WBCS를 사용하게 되었는데요.
물론 윈도우즈 2000이상급들에서도 MBCS를 사용할 수 있긴 하지만 9x계열에서는 WBCS를 사용할 수가 없죠.
프로그램의 운영체제간 호환성을 위해서 어쩔 수 없이 써야하는 것이랍니다.
여기까지 대략적인 문자세트를 설명했구요.
이제 답변을...
624b -> 이렇게 있으면 '手'이 뮨자가 나와야 한다는 건가여?
==> 네 그렇습니다. 유니코드는 전세계 모든 문자를 담고 있습니다.
그렇다면
유니코드의 테이블과 각 유니코드가 가리키는 문자를 가지고 있다가
624b찾아서 저 문자(手)를 돌려주어야 하는건가여?
==> 그렇습니다. 유니코드 테이블에서 624b 자리에 해당되는 문자를 출력합니다.
unicode의 개념은 정확히 알겠는데
multi-byte character로 변환한다. 라는 말이 머리에 제대로 들어오지 않습니다.
==> MBCS는 SBCS(1바이트로 표현되는 문자세트)와 DBCS(2바이트로 표현되는 문자세트)의 조합입니다. WBCS는 여러바이트를 사용하여 문자를 나타내기 때문에 호환이 되지 않습니다.
==> 따라서 호환이 되기 위해서는 영어문자에 대해서 1바이트로, 한글 등은 2바이트로 나타낼려면 변환이 필요합니다.
여담이지만 WBCS는 전세계 모든 문자를 표현할 수 있구요. MBCS는 언어(한글, 일본어, 중국어 등)에 관계없이 동일한 영역을 사용합니다.
이 차이는 유니코드로는 전세계 모든 문자 소화가능이구요. MBCS는 특정 언어셋을 사용한다라고 선언해줘야 그 언어셋에 한해서만 사용이 가능하다는 뜻이 됩니다.
출처 : Tong - 통동이님의 프로그램밍 일반통
댓글
댓글 쓰기