Sunday, June 24, 2012

Crappy translation on Thai safety warning label for OTPC tablets

A short news from online version of a Thai newspaper reported that the red safety warning label (in Thai language) for the yet to be delivered "One Tablet Per Child" tablet, made in China,  have been highly criticized by by online community as incomprehensible.

I am not surprised at the translation quality of the Chinese manufacturers. Bad English in their brochures or on package surface for various electronic gadgets are well known in western countries. I can't help but wonder how did they got that bad Thai translation for this case. Perhaps they used some sloppy translation engine. I suppose that with very low margin and cheap price of each gadget, they did not want to hire professional translator to do the job. Too bad, I am sure there would be plenty of volunteer who would do few translation for them free of charge for the benefit of education.

If machine translation software, esp. between English <-> Thai, will not be any better, I can see that the doomed future of Thai language is unavoidable.

(Why do I post this in English. I want this to be internationally comprehensible ! )

Thursday, June 07, 2012

การตัดคำไทย

ผมเองสนใจภาษาไทย แต่ว่า ยังไม่ได้ลงมือลุยทำอะไรที่อยากทำเสียที
เท่าที่ทำได้ตอนนี้ก็แค่เก็บเล็กประสมน้อยไปเรื่อยๆ

ความที่ภาษาไทย มีความอ่อนตัวสูง ในมุมมองของผม ทำให้คนอ่านต้องใช้ประสบการณ์ในการอ่านหนังสือไทยมากพอสมควร ปัญหาอย่างหนึ่งคือ การเขียนคำไทยติดกันเป็นพืดยาวไป คนไทยส่วนมากจะใช้สมองตัดคำได้เอง สามารถเข้าใจได้ แต่ว่า บางกรณีก็มีปัญหาเหมือนกัน อย่างที่ เราก็รู้ๆ กันอยู่ อาทิเช่น คำว่า ตากลม อาจจะหมายถึง ตา กลม หรือ ตาก ลม ก็ได้ แล้วแต่บริบท เป็นต้น

วันนี้จะเอา กลุ่มคำทำนองนั้น ที่มีปัญหาในการใช้ซอฟต์แวร์ตัดคำ เท่าที่พบ และเก็บเอาไว้ มาโพสต์ไว้ที่นี่เสียหน่อย เผื่อว่าในอนาคต จะมีใครเอาไปทำอะไรได้บ้าง

Thai language, with its continuous writing of texts, requires quite a cognitive skill in determining word borders, i.e. Thai word delimitations. Usually, this is not a major problem for Thai people. We know quite well where each word ends. However, there are occasions when there are ambiguities for us.

Here are some phrases that would surely slow down any Thai reader to pause and ponder a while to determine exact word boundaries and I think these words will serve as obstacles for future text processing software for Thai language.

Perhaps this small list that I myself have compiled, in a few months, might be of use as data set for someone if they want to create a parser for word delimitation in Thai language, so I posted it here.

The splitted words are given on the right side of the equal signs. If I think multiple ways of splitting makes sense then I put down a comma to separate those possibilities. However, if the former splitting is more likely than the latter splitting then I put down ไม่ใช่ (NOT) to signify that the latter is not likely.

ตากลม = ตาก ลม , ตา กลม
เทรด = เท รด ,  เทรด
มารกสมอง =  มา รก สมอง
นายกอง = นาย กอง ไม่ใช่  นายก อง
แพลน = แพ ลน , แพลน
แพลม = แพ ลม , แพลม แพล็ม
เพลิน = เพ ลิน , เพลิน
ลอกลาย = ลอก ลาย  ไม่ใช่  ลอ กลาย
ปลาเลยอดข้าว = ปลา เลย อด ข้าว ไม่ใช่   ปลา เล ยอด ข้าว
อีกว่า = อีก ว่า , อี กว่า
ลับหอกลับดาบ = ลับหอก ลับดาบ ไม่ใช่  ลับหอ กลับดาบ
เอามากรอก = เอา มา กรอก ไม่ใช่  เอา มาก รอก
ว่ายอดขาย = ว่า ยอด ขาย ไม่ใช่  ว่าย อด ขาย
โค้งงอกว่า = โค้ง งอ กว่า ไม่ใช่    โค้ง งอก ว่า
มาตุน  =  มา ตุน  ไม่ใช่ , มาตุ น
ไม่มากลบ = ไม่ มา กลบ , ไม่ มาก ลบ
ภาครับ = ภาค รับ ,   ภา ครับ
มากวน =  มา กวน , มาก วน
มากว่า = มา กว่า , มาก ว่า
เรียกว่ายอดคน  =   เรียก ว่า ยอด คน  ,   เรียก ว่าย อด คน
สมการรอ   =    สม การ รอ   ,     สมการ รอ
แน่นแนบอก  =   แน่น แนบ อก  ไม่ใช่   แน่น แน บอก
เกรงอกเกรงใจ  =  เกรง อก เกรง ใจ ไม่ใช่    เก รง อก เก รง ใจ
แปลกลับ =  แปล กลับ ไม่ใช่   แปลก ลับ , แป ลก ลับ
โสมม  =   โส มม  ไม่ใช่  โสม ม
เหมายัน = เหมายัน , เหมา ยัน
ชาดกว่า  =  ชาดก ว่า  ไม่ใช่ ชาด กว่า
หน้ากากระบบ    =    หน้ากาก ระบบ  ไม่ใช่ หน้า กา กระ บบ
เลือกตั้งนาน = เลือก ตั้ง นาน ,  เลือกตั้ง นาน
หากล้า = หา กล้า , หาก ล้า
แผ่นดิน = แผ่น ดิน , แผ่นดิน
ขนมอบ = ขนม อบ ,  ขน มอบ
พายอบ = พาย อบ , พา ยอบ
โคกระบือ = โค กระบือ , โคก ระบือ
ว่ายวน =     ว่าย วน  ,  ว่า ยวน
พยายามหายา = พยายาม หา ยา ไม่ใช่ พยา ยา มหา ยา
มารคลองเมือง  = มาร คลอง เมือง   ไม่ใช่ มารค ลอง เมือง

แกมอบเงิน = แก มอบ เงิน  ไม่ใช่ แกม อบ เงิน
แลนกลอบ =  แล นก ลอบ , ไม่ใช่  แลน กล อบ   แลน กลอบ
บ้านรก = บ้าน รก , บ้า นรก
ยานรก = ยา นรก , ยาน รก




เมื่อการใช้ภาษาไทยของคนไทย กลายเป็นปัญหาระดับชาติ

คนไทยใช้ภาษาไทยแบบตามใจชอบมานาน.

ในความหมายของผมก็คือว่า, คนไทยไม่ค่อยระวังเรื่องการใช้ไวยากรณ์, นับประสาอะไรกับการสะกดคำ.
(คนรุ่นใหม่สะกดคำผิดเยอะมาก เมื่อเทียบกับคนรุ่นก่อนๆ. อันนี้อาศัยที่ดูๆ จากสื่อออนไลน์ต่างๆ.
นอกจากนี้,รูปประโยคแบบใหม่ๆ ก็เปลี่ยนแปลงไปมาก, ความหมายเพี้ยนไปเยอะ, สะแลงใหม่ๆ ก็มาก.)

การใช้ภาษาไทยในแบบเดิมๆ ก็แย่อยู่แล้ว คนไทยเราไม่ค่อยชอบเขียนอะไรให้ครบ: บางทีก็ละประธานของประโยคบ้าง ละ กรรมของประโยคบ้าง ไว้ในฐานที่เข้าใจ.
(ว่าแต่ว่า "อะไรคือประโยคในภาษาไทย" ในเมื่อ คนไทยมักไม่ใช้จุดไว้ท้ายประโยคแบบภาษาฝรั่ง. ผมเองก็ไม่ทราบคำตอบนี้เพราะผมไม่ใช่นักภาษาไทย, และไม่รู้มากพอ ?)

คนไทยไม่ใช้เครื่องหมายไวยาการณ์ กำกับเนื้อความกันมานานแล้ว นานเท่าไรไม่ได้ไปตาม แต่ว่า เท่าที่ผมดู จากหนังสือ ละครแห่งชีวิต ที่เป็นนวนิยายเรื่องแรกๆ สมัย ร. ๖ ก็มีเครื่องหมายไวยากรณ์อยู่ไม่มากนัก แต่พอมี . และ - และ ? ให้เห็น  แต่ต่อๆ มา นักเขียนไทยน่าจะไม่ค่อยใช้กัน ทำให้คนทั่วไปไม่ค่อยใช้ไปด้วย

ปัญหาที่คนไทยมักไม่ใช้เครื่องหมายไวยาการณ์ เช่น ไม่ใช้จุด "." ก็ดี ไม่มี จุลภาค "," ก็ดี ทำให้เกิดปัญหาใหญ่แล้วตอนนี้ กล่าวคือ การตีความกฎหมายรัฐธรรมนูญ ตามไวยากรณ์ที่อธิบายในทางภาษาศาสตร์ว่า ข้อความประโยคเชิงซ้อนในกฎหมายที่เป็นปัญหานั้น อะไรเป็น ประธาน ของประโยคกันแน่  ผมมีความเห็นส่วนตัวว่า กฎหมาย ตกเครื่องหมาย "," ไปอันเดียวเท่านั้น

ไปดูข่าวเอาเอง

ผมว่า, คนไทยน่าจะต้องถึงเวลามาใช้เครื่องหมายไวยากรณ์กันให้มากกว่านี้ละมัง, อย่างน้อยก็ในเอกสารสำคัญทางราชการ.

ผมอยากจะชี้ข้อสังเกตของผมไว้ตรงนี้ว่า, ในหนังสือพระราชนิพนธ์แปล เรื่อง "นายอินทร์ ผู้ปิดทองหลังพระ" นั้น, ทรงใช้เครื่องหมายวรรคตอนไว้ตลอด, ทำให้ข้อความที่ทรงแปลมานั้นเป๊ะๆ มาก, แต่คนไทยส่วนมากไม่เห็นมีใครเจริญรอยตามพระยุคลบาท.

มีใครสังเกตหรือเปล่าว่าผมพยายามใส่เครื่องหมายไวยากรณ์ต่างๆ ไปมากพอสมควรในโพสต์นี้. ก็นับว่าต้องใช้ความพยายามพอสมควร เพราะขัดกับความเคยชิน.  ทำอะไรตามใจ คือไทยแท้.