วันพฤหัสบดีที่ 21 เมษายน พ.ศ. 2554

การ encoding กับ HTML ภาษาญี่ปุ่น

จะขออธิบายพื้นฐานการวาง charset ให้กับ html ไว้ตรงนี้
หากเราต้องการให้ เว็บไซต์ของเราเป็นภาษาญี่ปุ่น เราควรเลือกให้เว็บของเรามี Encoding เป็น EUC-JP หรือไม่ก็ UTF-8
  การ encoding ของหน้า (X)HTMLให้เป็น EUC-JP
  การสร้างไฟล์โปรแกรม , ดีไซน์ให้มี format เป็น EUC-JP
(หากใช้ Dream WeaverEclipse ให้เซ็ท encoding ไว้เลย)
  Database ก็ให้  encoding ก็ให้เป็น EUC-JP(UJIS)
  ทุกๆหน้า ตรงด้านบน ให้ใส่ตัวอักษรสองไบต์\xFD\xFEที่มีแต่เฉพาะใน CODE EUC-JPเท่านั้น
การใส่อักษรที่มีเฉพาะ EUC-JP  ไปบนหัวของหน้าจอ จะป้องกันไม่ให้  browser มอง Encoding เป็นตัวอื่นที่ไม่ใช่ EUC-JP
ที่ Yahooจะมีตัวอักษรตัวนี้อยู่ที่ส่วนหัวของเพจทุกเพจ <!---->
  เมื่อส่งเมลให้แปลงเป็นJISแล้วส่ง
  ตอนสร้างไฟล์ Windows Application เช่น CSVเป็นต้น ให้ทำ DATA เป็น SJIS
(ใช้ jcode.php) เพื่อที่จะให้สามารถอ่านบน Window ได้ แต่กรณีที่ไม่ระบุ เราสามารถให้ output เป็น EUC ได้ แล้วค่อยเอามาแปลงด้วยโปรแกรม Maruoหรืออีกชื่อว่า Hidemaruเืพื่ออ่านได้
ตัวอย่างการเซ็ท Php.ini ส่วนที่เกี่ยวข้องกับภาษา(ตรงนี้เราสามารถเซ็ทในไฟล์ .htaccess ได้)
output_buffering          Off
default_charset EUC-JP    
mbstring.internal_encoding      EUC-JP
mbstring.http_input     ASCII,JIS,EUC-JP,SJIS
mbstring.http_output  EUC-JP   
mbstring.encoding_translation On
mbstring.detect_order  ASCII,JIS,EUC-JP,SJIS
mbstring.encoding_translation On
mbstring.substitute_character  NONE

ข้อควรระวัง
CASE STUDY กรณี อักษรของ SUBJECT ของ mailto เพี้ยน เป็นต้น
 เนื่องจาก Windows Application มีดีฟอลต์ ENCODING ป็นSJIS
 ให้ทำการ URL ENCODEก่อนแล้วค่อยกำหนด SUBJECT
 การเซ็ทภาษาในโปรแกรม Dream Weaver

ระบบ ZIPCODEของญี่ปุ่น

เนื่องจากญี่ปุ่นมีการจัดการระบบ ZIPCODEเป็นอย่างดี ทำให้เเราสามารถใช้ ZIPCODEเพียงอย่างเดียวระบุที่อยู่คร่าวๆได้ โดยเราจะสามารถทราบข้อมูลจังหวัด เขต แขวง จาก ZIPCODE ได้
เรานำฐานข้อมูลที่มีการ MAPPING เลข ZIPCODE กับที่อยู่ มาจากเว็บการไปรษณีย์ของญี่ปุ่นhttp://www.post.japanpost.jp/ เราจะเอาข้อมูลนี้มาลงที่ฐานข้อมูลเราเพื่อสามารถนำมาสร้างโปรแกรมอำนวยความสะดวกในการกรอกข้อมูลในฟอร์มได้
ทั้งนี้คุณสิริศักด์ สิริกุล ได้สร้างโปรแกรมอำนวยความสะดวกในการนำข้อมูลZIPCODEลงฐานข้อมูลไว้ให้พวกเราใช้แล้ว

ที่อยู่ในการจ่าหน้าซองจดหมาย ที่อยู่ทั่วไปของญี่ปุ่น

ที่อยู่ของญี่ปุ่นจะแปลกก็คือ จะมีการเรียงลำดับสลับกับสากล กล่าวคือ
รหัสไปรษณีย์ จังหวัด เขต แขวง เลขที่บ้าน(หรืออาคาร) ชื่ออาคาร(ถ้ามี) ชั้นของอาคาร
ซึ่งในการกรอกฟอร์มทั่วๆไป เรามักจะแบ่งฟิลด์ออกเป็นดังนี้

ZIPCODE รหัสไปรษณีย์ เป็นฟิลด์ตัวเลข มีฟอร์แมท ดังนี้
999-9999 โดยจะแบ่งเป็น 2ฟิลด์(ใช้ - แบ่ง) หรือจะใส่ลงไปในฟิลด์เดียวโดยไม่ใส่ - ก็ได้แล้วแต่ความต้องการ

Prefecture จังหวัด ส่วนใหญ่จะให้เลือกจาก PULLDOWN 47 จังหวัด
Address1 ที่อยู่1 ได้แก่ เขต แขวง และเลขที่บ้าน(หรือเลขที่อาคาร)
Address2 ที่อยู่2 ได้แก่ ชื่ออาคาร และชั้นของอาคาร

ความรู้พื้นฐานเรื่อง Address ของญี่ปุ่น

ความรู้พื้นฐานเรื่องภาษาญี่ปุ่น

ชนชาติญี่ปุ่นมีภาษาญี่ปุ่นเป็นภาษาประจำชาติเช่นเดียวกับคนไทย แต่ทั้งนี้ เนื่องจากภาษาญี่ปุ่นได้รับอิทธิพลมาจากภาษาจีนความหลากหลายของตัวอักษร(คันจิ)จึงมีมากกว่า ทำให้ตัวอักษรฮิรางานะและคาตากานะถูกคิดค้นมาเพื่อให้ง่ายต่อการอ่าน
ทั้งนี้ในยุคต้นของคอมพิวเตอร์ คนญี่ปุ่น(รวมทั้งคนจีนและคนเกาหลี) ก็คิดค้นคีย์บอร์ดและฟ้อนต์ขึ้นมาแรกๆจะใช้เป็น JIS(Japanese Industrial Standard) โดยการแทนตัวอักษรหนึ่งตัวจะใช้หลายไบต์(multibyte)เพราะตัวอักษรมีเยอะมาก ไบต์เดียวไม่พอ ต่อมามีการกำหนดเพิ่มและแตกแขนงออกไปมากมาย เช่น s-jis, f-jis, euc เนื่องจากมีหลายบริษัทที่พัฒนา charset ขึ้นมาใช้เอง ซึ่งปัจจุบัน windows จะใช้ s-jis และ Linux ใช้ euc เป็นมาตรฐาน
ตารางตัวอักษรฮิรางานะ
 เสียงอะ เสียงอิ  เสียงอุ  เสียงเอะ เสียงโอะ
วรรคあ あ  い  う  え  お
วรรคか  か  き  く  け  こ
วรรคさ  さ  し  す  せ  そ
วรรคた  た  ち  つ  て  と
วรรคな  な  に  ぬ  ね  の
วรรคは  は  ひ  ふ  へ  ほ
วรรคま  ま  み  む  め  も
วรรคや  や   ゆ   よ
วรรคら  ら  り  る  れ  ろ
วรรคわ  わ  ゐ   ゑ  を
วรรคแถม            ん
ตารางตัวอักษรคาตากานะ
 เสียงอะ เสียงอิ  เสียงอุ  เสียงเอะ เสียงโอะ
วรรคあ  ア  イ  ウ  エ  オ
วรรคか  カ  キ  ク  ケ  コ
วรรคさ  サ  シ  ス  セ  ソ
วรรคた  タ  チ  ツ  テ  ト
วรรคな   ナ  ニ  ヌ  ネ  ノ
วรรคは  ハ  ヒ  フ  ヘ  ホ
วรรคま  マ  ミ  ム  メ  モ
วรรคや  ヤ   ユ   ヨ
วรรคら  ラ  リ  ル  レ  ロ
วรรคわ              ワ  ヰ   ヱ  ヲ
วรรคแถม ン