Hate Speech and Cyberbullying Detection for Live Stream in Twitch
ระบบตอบกลับอัตโนมัติในแพลตฟอร์มทวิชเพื่อตรวจจับความคิดเห็นที่ส่งผลกระทบในแง่ลบต่อผู้อ่านและทําการลบความคิดเห็นเพื่อไม่ให้ผู้อ่านได้รับผลกระทบในภายหลัง
28 มิถุนายน 2564
โครงการ การตรวจจับการแสดงความคิดเห็นประทุษวาจาและการกลั่นแกล้งบนโลกออนไลน์ในการถ่ายทอดสดบนทวิช (Hate Speech and Cyberbullying Detection for Live Stream in Twitch) เป็นผลงานของนักศึกษาภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรี ชั้นปีที่ 4 จัดทำในรูปแบบระบบตอบกลับอัตโนมัติในแพลตฟอร์มทวิช (Twitch) มีวัตถุประสงค์เพื่อเป็นเครื่องมือตรวจจับความคิดเห็นที่ส่งผลกระทบในแง่ลบต่อผู้อ่านและทําการลบความคิดเห็นเพื่อไม่ให้ผู้อ่านได้รับผลกระทบในภายหลัง
วัตถุประสงค์ของโครงการ
- เพื่อพัฒนาระบบ Automatic Detection Program หรือ โปรแกรมที่ทํางานภายใต้การควบคุมแบบอิสระ (Agent Robot) ที่ใช้งานในขณะที่กําลังถ่ายทอดสดได้
- เพื่อเก็บข้อมูลและสร้างแบบจําลองในการตรวจจับคําศัพท์ที่เข้าข่ายประทุษวาจา (Hate Speech) และประยุกต์ใช้วิธีตัดคํา (Word Segmentation) ในภาษาไทย เพื่อลดอัตราการถูกข่มเหงรังแกผ่านทางข้อความ
- เพื่อให้เจ้าของช่องสามารถกีดกันผู้ที่เข้ามาพิมพ์คําศัพท์ที่เข้าข่ายประทุษวาจาในช่องของตนเอง
ระเบียบวิธีวิจัย
เนื่องจากการมีอยู่ของแพลตฟอร์มออนไลน์ในปัจจุบันมีอยู่เป็นจำนวนมากและสามารถเข้าถึงได้ง่ายทำให้การแสดงความคิดเห็นในช่องทางดังกล่าวเกิดขึ้นได้อย่างไม่จำกัด โดยเฉพาะอย่างยิ่งในแพลตฟอร์มที่มีการถ่ายทอดสดอย่างโปรแกรมทวิช ข้อเสียที่เกิดขึ้นคือการกลั่นแกล้งทางอินเทอร์เน็ตผ่านวาจาเกิดขึ้นได้ง่ายมากซึ่งส่งผลเสียต่อสุขภาพจิตและความเป็นอยู่ที่ดีของผู้คนในแพลตฟอร์มนั้นๆ ด้วยเหตุนี้ คณะผู้วิจัยจึงเริ่มโครงการ การตรวจจับการแสดงความคิดเห็นประทุษวาจาและการกลั่นแกล้งบนโลกออนไลน์ในการถ่ายทอดสดบนทวิช ขึ้น ในการดำเนินการนี้ คณะผู้วิจัยจึงเริ่มสืบค้นทฤษฎีที่เกี่ยวข้องและเทคโนโลยีที่จะนำมาใช้ในการสร้างระบบ เช่น การประมวลผลภาษาธรรมชาติ (Natural Language Processing; NLP) เพื่อนำมาใช้ในการตรวจจับข้อความแง่ลบโมเดลการวิเคราะห์ความรู้สึก (Sentiment Analysis) แพ็คเกจ PythaiNLP ซึ่งเป็นแพ็คเกจในภาษา Python ที่ใช้ในการตัดคำภายในประโยคเพื่อให้เครื่องประมวลผลความรู้สึกของข้อความต่อไป และวิธีการสร้าง Agent Robot ในทวิช จากนั้นจึงดำเนินการตามแผนงาน และตรวจสอบความพร้อมของระบบก่อนเปิดใช้งาน และปรับปรุงระบบหากเว็บไซต์เกิดปัญหาหลังจากที่เว็บไซต์มีการเปิดใช้งานแล้ว
จากการจัดทำโครง คณะผู้วิจัยสามารถจัดทำระบบตอบอัตโนมัติบนแพลตฟอร์มทวิชได้ แต่ยังคงพบปัญหาบางประการเช่น แพ็คเกจ PythaiNLP ไม่สามารถตัดคำที่สะกดไม่ถูกต้อง คลังคำศัพท์ที่ใช้ในการเทรนเครื่องมีคำศัพท์น้อยกว่าคำที่ใช้จริงในสังคม และการเกิดขึ้นของคำใหม่ ๆ ทำให้เครื่องไม่สามารถตรวจจับความรู้สึกได้ เป็นต้น ในอนาคต คณะผู้วิจัยตั้งใจที่จะเพิ่มคำในคลังคำศัพท์และจัดแบ่งประเภทของกลุ่มคำให้มากขึ้นเพื่อประสิทธิภาพที่ดีขึ้นของระบบ
คณะผู้จัดทำ
- ศรัณยา ออกลกิจ
- วรรษมน พานทอง
- ณัฐริกา ปัญญาพฤกษ์