วันนี้ Pew Research Center เผยแพร่รายงานสำคัญฉบับแรกจากทีม Data Labs โดยตรวจสอบระดับความขัดแย้งของพรรคพวกที่แสดงออกมาในการสื่อสารของรัฐสภา โดยเฉพาะข่าวประชาสัมพันธ์และโพสต์บน Facebook เรานั่งคุยกับ Solomon Messing ซึ่งกำกับ Data Labs เพื่อหารือเกี่ยวกับรายงานภารกิจของโครงการตลอดจนโอกาสและความท้าทายที่มาพร้อมกับการใช้ “ข้อมูลขนาดใหญ่” การสนทนาได้รับการแก้ไขเพื่อพื้นที่และความชัดเจน
ก่อนอื่น Data Labs ทำอะไร
เราใช้วิธีการจากสาขาที่เกิดขึ้นใหม่ของสิ่งที่ฉันเรียกว่า “สังคมศาสตร์เชิงคำนวณ” เพื่อเสริมและขยายวาระการวิจัยที่มีอยู่ของศูนย์ สิ่งที่เราทำโดยทั่วไปคือรวบรวมข้อมูลข้อความ ข้อมูลเครือข่าย หรือข้อมูลพฤติกรรม และวิเคราะห์ข้อมูลนั้นด้วยเทคนิคการคำนวณใหม่และนวัตกรรมใหม่และกลยุทธ์เชิงประจักษ์
ดังนั้นสิ่งนี้จึงนอกเหนือไปจากที่ศูนย์เน้นย้ำแบบสำรวจความคิดเห็นสาธารณะ?
แบบสำรวจเป็นวิธีที่ยอดเยี่ยมในการศึกษาคำถามทางสังคมศาสตร์ที่หลากหลาย เหตุผลในการขยายไปสู่พื้นที่ใหม่เหล่านี้อาจเป็นเพื่อศึกษาสิ่งที่คุณไม่สามารถทำได้จากข้อมูลการสำรวจ เนื่องจากคุณไม่สามารถสำรวจกลุ่มคนใดกลุ่มหนึ่ง หรือเพราะคุณต้องการหลักฐานที่ละเอียดเกี่ยวกับสิ่งที่ผู้คนทำ ซึ่ง พวกเขาอาจไม่สามารถหรือไม่เต็มใจที่จะรายงานอย่างถูกต้องในแบบสำรวจ
ตัวอย่างเช่น ในบริบทของรายงานฉบับนี้ เป็นเรื่องยากมากที่จะศึกษาเนื้อหาของวาทศิลป์ของรัฐสภาในการสำรวจ: เราคงยากที่จะให้สมาชิกทุกคนในสภาคองเกรสทำแบบสำรวจ และแม้ว่าพวกเขาจะทำแบบนั้น พวกเขาก็อาจมีปัญหา รายงานว่าพวกเขา “คิดลบ” บ่อยแค่ไหนในการเผยแพร่สู่สาธารณะ
ประเด็นสำคัญอีกประการหนึ่งคือวิธีการเหล่านี้ช่วยให้เราสามารถเสริมข้อมูลการสำรวจด้วยประเภทข้อมูลเพิ่มเติม ผู้คนอาจไม่ทราบรายได้เฉลี่ยในรหัสไปรษณีย์ของตน แต่การใช้ข้อมูลนั้นสามารถเพิ่มมิติอื่นให้กับสิ่งที่เรารู้เกี่ยวกับความคิดเห็นสาธารณะ
ยกตัวอย่างประเภทข้อมูลที่คุณใช้งาน
ในรายงานฉบับแรกนี้ เรารวบรวมข้อมูลที่เป็นข้อความ – ข่าวประชาสัมพันธ์และโพสต์โซเชียลมีเดียจากสมาชิกสภาคองเกรส – และใช้การผสมผสานระหว่างมนุษย์โค้ดเดอร์และแมชชีนเลิร์นนิงเพื่อวิเคราะห์ข้อมูลดังกล่าว ซึ่งช่วยให้เรามองหารูปแบบ เช่น ความสัมพันธ์ระหว่างความถี่ที่สมาชิกวิจารณ์อีกฝ่ายในที่สาธารณะ และองค์ประกอบพรรคพวกของคนในเขตของตน
นอกจากนี้ เรายังรวบรวมข้อมูลเครือข่าย ซึ่งเป็นข้อมูลที่อธิบายความเชื่อมโยงระหว่างบุคคลหรือสิ่งของต่างๆ ตัวอย่างเช่น เรากำลังดูวิธีที่ผู้คนแชร์ URL บนโซเชียลมีเดีย ที่สามารถแสดงเป็นเครือข่ายของผู้คนที่ใช้ URL ร่วมกัน ซึ่งสามารถนำไปใช้ในหลายๆ วิธีที่น่าสนใจ เช่น การระบุกลุ่มคนที่มีความสนใจร่วมกัน หรือการระบุ URL ที่สอดคล้องกับผู้ชมที่มีแนวคิดเสรีนิยมหรืออนุรักษ์นิยม
คุณกำลังใช้เทคนิค “ข้อมูลขนาดใหญ่” ประเภทนี้เพื่อศึกษาสิ่งที่ผู้คนทำ ตรงข้ามกับสิ่งที่พวกเขาพูดว่าพวกเขาทำใช่หรือไม่
ถูกต้อง – เป็นเรื่องของการศึกษาแนวทางดิจิทัล
ที่ผู้คนทิ้งไว้เบื้องหลัง มากกว่าสิ่งที่พวกเขาบอกเราในแบบสำรวจ การใช้วิธีการเหล่านี้เพื่อศึกษาคำถามทางสังคมศาสตร์เพิ่งเป็นไปได้เมื่อไม่นานมานี้ ต้องขอบคุณการเพิ่มจำนวนและต้นทุนที่ลดลงของพื้นที่จัดเก็บข้อมูลดิจิทัล ข้อมูลต่างๆ ในโลกสามารถบันทึกและจัดเก็บในรูปแบบข้อมูลได้มากขึ้น นั่นหมายความว่าตอนนี้เราสามารถเข้าถึงหรือรวบรวมหรือสร้างข้อมูลที่เราไม่สามารถได้รับมาก่อน และตอนนี้เรายังมีทรัพยากรในการรับและวิเคราะห์ชุดข้อมูลเหล่านี้ที่เราไม่เคยมีมาก่อน ต้องขอบคุณโครงสร้างพื้นฐานการคำนวณที่ถูกกว่า เครื่องมือที่ปรับใช้ได้ง่าย และชุมชนที่แข็งแกร่งของผู้คนที่อุทิศตนเพื่อพัฒนาแนวทางเหล่านี้ซึ่งแบ่งปันข้อมูลเชิงลึกและโค้ดออนไลน์
ดังนั้น แทนที่จะสำรวจผู้คนเกี่ยวกับสิ่งที่เราสนใจ การวิจัยของคุณเกี่ยวข้องกับการหาคำตอบจากข้อมูลที่ผู้คนสร้างขึ้นในระหว่างการทำอย่างอื่นในชีวิตประจำวันของพวกเขา
ถูกต้อง ซึ่งหมายความว่าเราต้องระวังอย่างมากเกี่ยวกับสิ่งที่เราขอข้อมูล และข้อควรระวังอีกอย่าง: เนื่องจากข้อมูลประเภทนี้มีความซับซ้อนอย่างมาก จึงง่ายกว่าเล็กน้อยที่จะเข้าใจผิดว่าสัญญาณรบกวนเป็นสัญญาณหากคุณไม่ดำเนินการป้องกันที่เหมาะสม ถ้าฉันดูทุกคำในถ้อยแถลงทุกฉบับจากสมาชิกสภาคองเกรสทุกคน ฉันจะพบคำมากมายที่เกี่ยวข้อง เช่น การลงคะแนนเสียงในร่างกฎหมายหนึ่งๆ ที่เกิดขึ้นโดยบังเอิญ นี่เป็นปัญหาที่พบบ่อยมากเมื่อวิเคราะห์ชุดข้อมูลที่ซับซ้อนมาก หากฉันตรวจสอบตัวแปรที่แตกต่างกันหลายพันตัว ฉันมักจะพบการเชื่อมโยงโดยบังเอิญ ดังนั้นเราจึงจำเป็นต้องออกแบบโครงการวิจัยอย่างรอบคอบและป้องกันการพบความสัมพันธ์ปลอม
ก่อนหน้านี้คุณใช้วลี “การเรียนรู้ของเครื่อง” คุณช่วยอธิบายได้ไหมว่ามันคืออะไร?
โดยทั่วไปหมายถึงการใช้อัลกอริทึมของคอมพิวเตอร์เพื่อเรียนรู้จากข้อมูลโดยไม่มีคำสั่งที่ชัดเจนจากมนุษย์ ในกรณีส่วนใหญ่ทำได้โดยใช้แบบจำลองทางสถิติเพื่อสร้างการเชื่อมโยงตามแบบจำลองของอินพุตและเอาต์พุต ซึ่งจากนั้นจะใช้เพื่อสร้างการอนุมานจากข้อมูล ซึ่งมักจะระบุลักษณะของข้อมูลบางส่วน
สมมติว่าเรามีชุดของโพสต์บนโซเชียลมีเดีย และเราต้องการสอนให้เครื่องเรียนรู้ว่าโพสต์เหล่านั้นมีการพูดคุยเรื่องการเมืองหรือไม่ หากเรามีโพสต์สองสามพันโพสต์ที่เราทราบอยู่แล้วว่าพูดคุยเรื่องการเมือง เราสามารถป้อนโพสต์เหล่านั้นไปยังคอมพิวเตอร์ และสามารถสร้างแบบจำลองของคำและวลีที่ใช้ในโพสต์ทางการเมืองเทียบกับโพสต์ที่ไม่เกี่ยวกับการเมือง จากนั้นเราสามารถใช้แบบจำลองนั้นเพื่อตั้งโพสต์ใหม่และอนุมานได้ว่าเป็นการอภิปรายเรื่องการเมืองจริงหรือไม่ แมชชีนเลิร์นนิงมีประโยชน์อย่างยิ่งเมื่อชุดข้อมูลที่คุณต้องการวิเคราะห์มีขนาดใหญ่มาก: หากเราดูโพสต์ 200,000 รายการ มนุษย์อาจใช้เวลานานเกินไปที่จะอ่านทุกโพสต์
Credit : ufabet สล็อต