มอง IO ผ่านข้อมูล Twitter
2020.10.09 · 1-min read · Tags: project, data, news

ข่าวใหญ่วันนี้คือเรื่องที่ Twitter ออกมาแถลงว่ามีการปิดบัญชีไป 1,594 บัญชี เนื่องจากตรวจสอบพบว่าเป็นบัญชีที่เกี่ยวข้องกับปฏิบัติการข้อมูลข่าวสารของรัฐบาล ("state-linked information operations")

ที่ทำให้เป็นข่าวใหญ่ในประเทศไทยก็คือ พบว่ามีถึง 926 บัญชีที่เกี่ยวโยงกับกองทัพบก Twitter ยังกล่าวด้วยว่าบัญชีที่ถูกปิดไปนี้มีการกระทำที่สนับสนุนกองทัพบกและรัฐบาล รวมถึงโจมตีผู้มีบทบาททางการเมืองฝ่ายตรงข้ามด้วย

ข่าวนี้อ่าน ๆ ดูตอนแรกก็เฉย ๆ เพราะมีข่าวทำนองนี้ออกมาตั้งแต่การอภิปรายไม่ไว้วางใจครั้งก่อน ที่ทำให้ข่าวนี้น่าสนใจมาก คือเพิ่งมารู้ว่า Twitter เปิดเผยข้อมูลเกี่ยวกับบัญชีเหล่านี้ด้วย ไม่ว่าจะเป็นเวลาที่สร้างบัญชี ข้อความที่ส่ง เวลา จำนวนคนกด like หรือ retweet ฯลฯ

วันนี้เราเลยจะมาลองดูว่าข้อมูลชุดนี้บอกอะไรเราได้บ้าง

ไทยไม่ได้มีบัญชี IO เยอะสุด

วันนี้ข่าวพาดหัวหลายอันเขียนประมาณว่า Twitter บิดบัญชี IO 1,594 บัญชี โดยมีบัญชีของไทยถึง 1/3 ครองแชมป์เลยทีเดียว! อีกนัยหนึ่งคือ ไทยมีบัญชี IO ที่ถูก Twitter จับเยอะที่สุดในโลกแล้ว แต่มันเป็นยังงั้นจริง ๆ เหรอ

ถ้าเข้าไปดูหน้า archive จะเห็นได้ว่า Twitter เปิดเผยข้อมูลต่าง ๆ มาตั้งแต่ตุลาคม 2561 แล้ว แล้วก็มีการปิดบัญชี IO ลักษณะนี้ของประเทศต่าง ๆ มาโดยตลอด ครั้งยิ่งใหญ่ที่สุดน่าจะเป็นเดือนพฤษภาคม 2563 ที่ปิดบัญชีของจีนไปถึง 23,750 บัญชี ส่วนไทยนั้น เป็นแค่ติ่งเล็ก ๆ ตรงปลายสุดเท่านั้นเอง

ดังนั้น ข่าวที่ออกมาอาจจะทำให้สับสนนิดนึง เพราะครั้งนี้เป็นครั้งแรกที่บัญชี IO ของไทยโดนจับได้ ก็เลยโดนเยอะหน่อย (ประเทศที่โดนจับในรอบเดียวกันคือคิวบา ซึ่งโดนเป็นครั้งแรกเหมือนกัน มี 526 บัญชี ส่วนรัสเซีย อิหร่าน และซาอุดิอาระเบีย ครั้งนี้โดนไปรวมกัน 142 บัญชี แต่โดนมาก่อนหน้านี้แล้วรวมกัน 19,217 บัญชี)

ทวิตเวลาทำงานบ่อยสุด

จากข้อมูลการทวิตทั้งหมดสองหมื่นกว่าครั้ง พบว่ากิจกรรมการทวิตส่วนใหญ่ของบัญชีพวกนี้จะเป็นในเวลางาน คือเริ่มประมาณ​ 8:30 พอตอนเที่ยงก็จะมีพักทานข้าวหน่อยนึง กลับมามีแรงตอนบ่ายครึ่ง พอถึงบ่ายสามครึ่งก็จะซา ๆ ลง การทวิตช่วงเย็น ๆ ค่ำ ๆ แม้จะมีอยู่บ้างแต่ก็น้อยกว่าช่วงเวลาทำงานอย่างเห็นได้ค่อนข้างชัด (อาจจะกลับกันกับกลุ่มเด็ก ๆ ที่[เดาว่า]มาทวิตตอนเย็น ๆ ค่ำ ๆ เป็นหลัก)

ส่วนวันเสาร์อาทิตย์นั้นมีรูปแบบต่างกันค่อนข้างชัด คือจะเริ่มตอนสาย ๆ และช่วงเที่ยงเป็นช่วงที่มีการทวิตเยอะที่สุด

ทวิตเรื่องทหารมากสุด

อันนี้อาจจะไม่เป็นที่น่าแปลกใจเท่าไหร่ (เพราะเป็น IO ทหาร) คำที่ใช้มากที่สุดก็จะเป็นคำที่เกี่ยวเนื่องกัน เช่น army ทหาร กองทัพบก ประชาชน ฯลฯ

Word cloud

ถ้าเราลองเอาคำพวกนี้ออกไปก็จะเห็นคำที่หลากหลายมากขึ้นนิดนึง ที่เห็นชัด ๆ หน่อยคือเรื่องเกี่ยวกับเหตุการณ์กราดยิงที่โคราช ชื่อคุณวาสนา นาน่วม และเรื่องเกี่ยวกับการยุบพรรคอนาคตใหม่

Word cloud without ARMY

ดูจาก #hashtag

ทีนี้แทนที่จะดูคำทั้งหมด เราดูแต่ hashtag กันบ้าง เพื่อตัดปัญหาเรื่องการตัดคำภาษาไทย ฯลฯ​ ออกไป ก็จะเห็นรูปแบบเดิม คือเป็นการทวิตเรื่องทหาร โดย #กองทัพบก และ #กองทัพภาคที่2 เป็น hashtags ที่ได้รับความนิยมสูงสุด รวมทวิตที่มีการใช้ hashtag ที่มีคำว่า "กองทัพ" หรือ "ทหาร" รวมกันกว่า 1,200 ครั้ง หรือกว่า 30% ของทวิตทั้งหมดที่มีการใช้ hashtag

Hashtag cloud

ถ้าเราตัด hashtag ที่มีคำว่า "กองทัพ" หรือ "ทหาร" ออก ก็จะเห็นว่า #อนาคตใหม่ เป็น hashtag ที่ถูกใช้บ่อยเป็นอันดับสาม ตามมาด้วย #กราดยิงโคราช และ #ข่าวจริง ตามลำดับ

Hashtag cloud

บทสรุป

นอกจากบทความนี้แล้ว ยังมีอีกบทความของ Stanford Internet Observatory (StanfordIO) ที่เป็น partner และได้รับข้อมูลจาก Twitter ก่อนจะเปิดเผยข้อมูลนี้ออกมา ได้วิเคราะห์เวลาที่บัญชีเหล่านี้ถูกสร้างขึ้นว่าเป็นช่วงต้นปี 2563 แล้วพอเกิดเหตุการณ์กราดยิงที่โคราช account เหล่านี้ก็ active ขึ้นมาพอสมควร

นอกจากนี้ อาจารย์อรรถพลยังได้ทำการวิเคราะห์ข้อความแบบละเอียด เกี่ยวกับกลุ่มเนื้อหาที่ทวิตอีกด้วย น่าสนใจมากทีเดียว

ที่สำคัญคือ บัญชี IO ไม่น่าจะมีอยู่เท่านี้ ดังนั้นการที่จะไปสรุปอะไรด้วยข้อมูลจากเพียง 924 บัญชีที่ถูกเปิดเผยในครั้งนี้อาจจะทำให้ได้ภาพที่ผิดเพี้ยนไปได้ อย่างไรก็ดี เราพอจะเห็น pattern ที่เหล่า IO (หรือผู้ที่ถูกกล่าวหาว่าเป็น IO) ใช้แล้ว ซึ่งเราน่าจะสามารถเอา pattern เหล่านี้มาตรวจจับบัญชีที่ยังไม่ถูกลบออกไปได้เหมือนกัน

ท้ายที่สุด ขอชื่นชมในความ open data ของ Twitter ทำให้พวกเราได้ข้อมูลมาเล่นกันสนุกสนาน

ไว้รอดูกันว่าจะมีบัญชีและข้อมูลเพิ่มจากนี้อีกมั้ย ;)