ระบบสามระบบอาจให้คำอธิบายธุรกิจตรงกัน ทั้งที่กำลังอาศัยป้ายบอกทางที่บิดเบี้ยวอันเดียวกัน ไม่ว่าจะเป็นชื่อที่กำกวม รายการข้อมูลเก่า หรือหมวดหมู่ที่ถูกคัดลอกข้ามแพลตฟอร์ม
ในสถานการณ์ตัวอย่างที่ประกอบจากหลายกรณี มีการส่งคำถามเกี่ยวกับร้านอาหารเดียวกันไปยังระบบค้นหาด้วย AI หลายระบบ ทุกระบบตอบด้วยชื่อกลุ่มธุรกิจเดียวกัน และวางร้านที่แนะนำไว้ในจังหวัดข้างเคียงแทนที่จะเป็นกรุงเทพฯ คำตอบสองรายการเชื่อมไปยังหน้าจองของสาขาในต่างจังหวัด ส่วนอีกคำตอบหนึ่งแสดงรายการแผนที่ของสาขากรุงเทพฯ ไว้ข้างประโยคที่บรรยายสถานที่ในจังหวัดข้างเคียง
สถานการณ์นี้ประกอบขึ้นจากรูปแบบที่พบซ้ำในกรณีศึกษา B ซึ่งเป็นกลุ่มร้านอาหารระดับภูมิภาคที่ใช้ชื่อสาขาไม่สอดคล้องกันในแผนที่ แพลตฟอร์มจอง ไดเรกทอรี และเพจโซเชียล นอกจากนี้ยังมีร้านอีกแห่งที่ชื่อคล้ายกันและอยู่ในหมวดหมู่การค้นหาเดียวกัน ระบบต่าง ๆ ได้ข้อสรุปตรงกัน แต่หลักฐานที่มองเห็นได้ซึ่งอยู่เบื้องหลังข้อสรุปเหล่านั้นกลับไม่เหมือนกันและมีความคลุมเครือ
ความตรงกันให้ความรู้สึกเหมือนมีหลักฐานยืนยัน
โดยทั่วไป ผู้คนใช้การกล่าวซ้ำเป็นวิธีทดสอบความน่าเชื่อถือ ข้อความหนึ่งที่ยังไม่แน่นอนจะถูกตรวจสอบกับอีกแหล่งหนึ่ง เมื่อทั้งสองแหล่งกล่าวเหมือนกัน ความมั่นใจก็เพิ่มขึ้น วิธีคิดนี้ใช้ได้ค่อนข้างดีเมื่อแหล่งข้อมูลเป็นอิสระจากกัน ระบุตัวได้ชัดเจน และสามารถสนับสนุนข้ออ้างนั้นได้จริง
คำตอบที่ระบบสร้างขึ้นทำให้เรื่องนี้ซับซ้อนกว่าเดิม โมเดลสองตัวอาจใช้ถ้อยคำต่างกัน แต่ดึงข้อมูลจากหน้าเว็บที่ทับซ้อนกัน ระเบียนไดเรกทอรีที่ถูกทำสำเนา หรือหมวดหมู่เดียวกันที่แพลตฟอร์มสร้างขึ้นโดยอัตโนมัติ แม้ระบบจะมีองค์ประกอบการดึงข้อมูลต่างกัน แต่ข้อมูลสาธารณะที่เปิดให้ใช้อาจมีข้อผิดพลาดหนึ่งรายการซึ่งถูกกล่าวซ้ำอย่างแพร่หลาย ความตรงกันจึงอาจเกิดขึ้นจริงในระดับคำตอบ แต่ยังมีน้ำหนักน้อยในฐานะการยืนยันข้ออ้าง
ห้องปฏิบัติการถือว่าความตรงกันระหว่างโมเดลเป็นข้อสังเกตว่าผลลัพธ์สอดคล้องกัน ไม่ใช่การยืนยันว่าหลักฐานเป็นอิสระต่อกัน หรือมีการระบุเอนทิตีอย่างถูกต้อง
ความแตกต่างนี้สำคัญ เพราะวลีว่า “หลายโมเดลพูดเหมือนกัน” มักถูกใช้ราวกับเป็นการตรวจสอบแหล่งข้อมูล ทั้งที่ไม่ใช่ ห้องปฏิบัติการบันทึกโมเดล พรอมต์ ภาษา วันที่สังเกตการณ์ การอ้างอิงที่มองเห็นได้ และเงื่อนไขที่เกี่ยวข้อง จากนั้นจึงตรวจสอบว่าส่วนใดของคำตอบตรงกัน และข้อมูลที่แสดงสนับสนุนส่วนนั้นหรือไม่
บางครั้งความตรงกันครอบคลุมหลายส่วน หลายระบบระบุธุรกิจ หมวดหมู่ และสถานที่เดียวกัน บางครั้งกลับตรงกันเพียงบางจุด ระบบอาจเลือกเอนทิตีเดียวกัน แต่ไม่เห็นตรงกันว่าเป็นสาขา บริษัทแยกต่างหาก หรือสถานที่ภายในโรงแรม ระบบหนึ่งอาจให้การอ้างอิง ขณะที่อีกระบบไม่ให้เลย ส่วนระบบที่สามอาจอ้างถึงหน้าที่ระบุธุรกิจได้ถูกต้อง แต่ไม่สามารถสนับสนุนข้ออ้างด้านภูมิศาสตร์ที่แนบมาด้วย
ความไม่สม่ำเสมอนี้มีประโยชน์ เพราะช่วยป้องกันไม่ให้คำว่า “โมเดลเห็นตรงกัน” บีบความสัมพันธ์ระหว่างข้ออ้างกับแหล่งข้อมูลหลายแบบให้เหลือเป็นคำตัดสินเดียว
เว็บสาธารณะสร้างภาพฉันทามติขึ้นมาได้
กลุ่มร้านอาหารในสถานการณ์ตัวอย่างมีหน้าสาขาหนึ่งซึ่งชื่อภาษาอังกฤษไม่ระบุจังหวัด แพลตฟอร์มจองเพิ่มป้ายกำกับทางภูมิศาสตร์โดยอัตโนมัติ ไดเรกทอรีแห่งหนึ่งกล่าวซ้ำป้ายกำกับเดียวกัน แต่ใช้ภาพถ่ายจากสาขากรุงเทพฯ ส่วนเพจโซเชียลของกลุ่มกล่าวถึงทั้งสองสาขาภายใต้ชื่อภาษาอังกฤษเดียวกัน และโพสต์ข้อมูลเวลาเปิดชั่วคราวโดยไม่ระบุสถานที่อย่างสม่ำเสมอ
หน้าเหล่านี้ไม่จำเป็นต้องมีข้อผิดพลาดร้ายแรง ปัญหาค่อย ๆ สะสมจากการเชื่อมโยงเล็ก ๆ ชื่อหน้าขาดเครื่องหมายบอกสาขา แพลตฟอร์มเติมหมวดหมู่ให้เอง ไดเรกทอรีนำเข้าที่อยู่จากระเบียนหนึ่งและภาพจากอีกระเบียนหนึ่ง เมื่อระบบ AI ประกอบคำตอบขึ้นมา อัตลักษณ์ที่คลาดเคลื่อนนั้นก็ปรากฏอยู่ในข้อมูลสาธารณะหลายแห่งแล้ว
หลายโมเดลจึงอาจทำผิดแบบเดียวกันซ้ำ เพราะความกำกวมมีอยู่ก่อนกระบวนการสร้างคำตอบจะเริ่มขึ้น คำตอบเป็นห้องสุดท้ายของบ้าน ไม่จำเป็นต้องเป็นจุดที่ผนังเอียงถูกก่อขึ้น
คำอธิบายนี้ยังเป็นข้อสรุปเบื้องต้น เว้นแต่หลายส่วนของข้อสังเกตจะสนับสนุนการตีความเดียวกัน ห้องปฏิบัติการไม่สามารถเห็นทุกแหล่งที่ระบบใช้ภายในได้ และเส้นทางการดึงข้อมูลที่อนุมานได้เป็นการสร้างภาพย้อนจากหลักฐาน ไม่ใช่ร่องรอยภายในระบบที่ได้รับการยืนยัน อย่างไรก็ตาม หน้าที่มองเห็นได้อาจแสดงให้เห็นว่าข้อผิดพลาดร่วมกันนั้นสอดคล้องกับสภาพแวดล้อมของข้อมูลสาธารณะ หากจังหวัดที่ผิดเดียวกันปรากฏในไดเรกทอรี ระเบียนการจอง ข้อความตัวอย่างจากผลการค้นหา และชื่อสาขา การที่หลายโมเดลให้ผลลัพธ์ตรงกันก็ไม่จำเป็นต้องอาศัยคำอธิบายที่ซับซ้อนเกินไป
สถานการณ์ตรงข้ามก็ให้ข้อมูลเช่นกัน สมมติว่าแหล่งข้อมูลสาธารณะแยกสาขาออกจากกันอย่างชัดเจน แต่หลายระบบยังคงรวมสาขาเหล่านั้นเข้าด้วยกัน ทีมจะพิจารณาการตีความคำค้น การถอดเสียง ถ้อยคำที่ใช้ระบุหมวดหมู่ และความสัมพันธ์ระหว่างหน้าที่ถูกอ้างกับข้ออ้างที่ถูกสร้างขึ้นอย่างละเอียดกว่าเดิม ความตรงกันยังเป็นสิ่งที่สังเกตได้ แต่ที่มาที่เป็นไปได้ของมันจะชัดเจนน้อยลง
ดังนั้น ความตรงกันระหว่างโมเดลอาจเกิดร่วมกับข้อเท็จจริงที่มีหลักฐานรองรับดี ข้อผิดพลาดสาธารณะที่ถูกทำซ้ำ ความกำกวมร่วมกัน หรือข้อผิดพลาดแยกกันที่บังเอิญมาบรรจบกัน ผลลัพธ์เพียงอย่างเดียวไม่สามารถแยกกรณีเหล่านี้ออกจากกันได้
ข้ออ้างเดียวที่ตรงกันกับความสัมพันธ์ของแหล่งข้อมูลสี่แบบ
ห้องปฏิบัติการอ่านคำตอบที่ตรงกันทีละข้ออ้าง โดยใช้แบบจำแนกความสัมพันธ์ระหว่างข้ออ้างกับแหล่งข้อมูล 4 แบบ การจำแนกนี้ช่วยป้องกันไม่ให้ความตรงกันระหว่างโมเดลกลายเป็นทางลัดที่ข้ามการตรวจสอบแหล่งข้อมูล
การสนับสนุนโดยตรงเกิดขึ้นเมื่อแหล่งข้อมูลที่มองเห็นได้สนับสนุนข้ออ้างตามที่กล่าวไว้ หากหลายระบบวางร้านอาหารไว้ในจังหวัดข้างเคียง และทุกระบบแสดงหน้าสาขาที่ถูกต้องพร้อมที่อยู่นั้น ข้ออ้างเรื่องสถานที่อาจได้รับการสนับสนุนโดยตรง แม้ว่าผู้ถามเดิมจะหมายถึงสาขากรุงเทพฯ ก็ตาม ปัญหาที่เหลืออยู่จะเป็นเรื่องการระบุเอนทิตี ไม่ใช่การสนับสนุนจากแหล่งข้อมูล
การสนับสนุนแบบยืดขยายเกิดขึ้นเมื่อข้อมูลที่อ้างรองรับได้เพียงข้อเท็จจริงที่แคบกว่า หน้าหลักของกลุ่มธุรกิจอาจยืนยันว่าร้านอาหารดำเนินงานอยู่ในทั้งสองพื้นที่ แต่คำตอบกลับใช้หน้านั้นเพื่อกำหนดที่อยู่ในต่างจังหวัดให้แก่กลุ่มทั้งหมด แหล่งข้อมูลมีความเกี่ยวข้อง เพียงแต่ไม่สนับสนุนข้อความที่กว้างเช่นนั้น
การยืมอัตลักษณ์กลายเป็นประเด็นหลักเมื่อสาขาหนึ่งหรือสถานที่อีกแห่งที่ชื่อคล้ายกันส่งต่อคุณลักษณะให้แก่อีกเอนทิตีหนึ่ง ภาพถ่าย ข้ออ้างเรื่องชื่อเสียง สถานะการเปิดให้บริการ หมวดหมู่ หรือที่อยู่ อาจข้ามขอบเขตระหว่างเอนทิตี หลายโมเดลสามารถทำการถ่ายโอนนี้ซ้ำได้ เมื่อรายการข้อมูลที่จับคู่ผิดรายการเดียวกันมีความโดดเด่นหรือถูกทำสำเนาไว้ในข้อมูลสาธารณะที่มองเห็นได้
การปรากฏโดยไร้หลักฐานครอบคลุมข้ออ้างที่ไม่มีแหล่งข้อมูลใดซึ่งมองเห็นได้ในข้อสังเกตนั้นสนับสนุน รูปแบบนี้มักปรากฏในภาษาการแนะนำ ระบบสามระบบอาจเรียกสถานที่หนึ่งว่า “ตัวเลือกชั้นนำในพื้นที่” หรือ “ได้รับความนิยมเป็นพิเศษในหมู่คนท้องถิ่น” ทั้งที่แหล่งข้อมูลที่แสดงมีเพียงเมนู ที่อยู่ และรายละเอียดการจอง การกล่าวซ้ำไม่สามารถสร้างหลักฐานสนับสนุนขึ้นมาได้
การจำแนกเหล่านี้เป็นเชิงคุณภาพ ไม่ได้ใช้จัดอันดับโมเดลหนึ่งเหนืออีกโมเดล หรือเปลี่ยนความตรงกันให้เป็นคะแนน จุดประสงค์ของมันแคบกว่านั้น คืออธิบายว่าข้ออ้างร่วมแต่ละข้อสัมพันธ์กับข้อมูลที่แสดงอยู่ข้าง ๆ อย่างไร
ผลลัพธ์อาจไม่เป็นระเบียบเรียบร้อย คำตอบหนึ่งอาจระบุร้านอาหารที่ถูกต้องด้วยการสนับสนุนโดยตรง ใช้แหล่งข้อมูลเกินขอบเขตเพื่อกำหนดหมวดหมู่ ยืมที่อยู่ของอีกสาขา และเติมคำชมที่ไม่มีหลักฐานสนับสนุนไว้ในย่อหน้าเดียวกัน โมเดลที่สองอาจให้คำตอบสั้นกว่าและมีเพียงสองข้อผิดพลาดในชุดนั้น การกล่าวว่าทั้งสอง “ผิด” ทำให้รูปแบบหายไป แต่การกล่าวว่าทั้งสองเห็นตรงกันทำให้ข้อมูลหายไปมากกว่าเดิมอีก
ข้อผิดพลาดร่วมกันอาจชี้ตำแหน่งรอยต่อที่เปราะบาง
แม้ความตรงกันจะไม่ใช่การยืนยัน แต่ก็ยังมีประโยชน์ในการวินิจฉัย เมื่อหลายระบบเชื่อมคุณลักษณะผิดเดียวกันเข้ากับเอนทิตีหนึ่งซ้ำ ๆ ห้องปฏิบัติการก็ได้จุดตรวจสอบที่ชัดขึ้น
กรณีศึกษา A ให้ตัวอย่างกรณีที่สอง คลินิกสุขภาพอิสระในกรุงเทพฯ แห่งนี้มีชื่อภาษาไทยที่ถอดเป็นภาษาอังกฤษได้หลายแบบ และชื่อคล้ายกับสถานพยาบาลขนาดใหญ่กว่า เว็บไซต์ของคลินิกอธิบายบริการรักษา ส่วนหน้าแผนที่และไดเรกทอรีใช้หมวดหมู่ที่กว้างกว่าอย่างไม่สม่ำเสมอ
ลองสมมติว่าหลายระบบเรียกสถานที่นี้ว่าโรงพยาบาล ระบบหนึ่งอ้างหน้าบริการของคลินิก อีกระบบแสดงหมวดหมู่จากไดเรกทอรี และระบบที่สามไม่ระบุแหล่งข้อมูล ป้ายกำกับ “โรงพยาบาล” ที่ปรากฏร่วมกันชี้ไปยังรอยต่อที่เปราะบางในการนำเสนอเอนทิตีต่อสาธารณะ ปัญหาอาจเกี่ยวข้องกับการขยายหมวดหมู่เกินจริง การทับซ้อนของการถอดเสียง หรือการเชื่อมโยงผิดไปยังสถานพยาบาลขนาดใหญ่กว่า
โมเดลเหล่านี้ไม่ได้พิสูจน์ว่าคลินิกเป็นโรงพยาบาล แต่แสดงให้เห็นว่าภาพแทนแบบโรงพยาบาลสามารถถูกประกอบขึ้นใหม่ได้ในสภาพแวดล้อมของคำตอบที่ระบบสร้างขึ้นหลายแบบ ภายใต้เงื่อนไขที่บันทึกไว้
ความแตกต่างนี้ให้ข้อมูลที่มีประโยชน์แก่เจ้าของธุรกิจมากกว่าจำนวนครั้งที่ถูกกล่าวถึง ข้อผิดพลาดที่เกิดซ้ำบ่งชี้ว่าคำอธิบายสาธารณะอาจรักษาขอบเขตของเอนทิตีไว้ไม่ได้ตรงจุดใด คลินิกอาจต้องใช้ชื่อภาษาอังกฤษที่ชัดขึ้น หมวดหมู่ที่สอดคล้องกันในโปรไฟล์ที่ธุรกิจควบคุมได้ หรือการแยกตัวเองจากสถานพยาบาลชื่อคล้ายกันให้เด่นชัดกว่าเดิม สิ่งเหล่านี้เป็นสมมติฐานเชิงปฏิบัติ ไม่ใช่คำสั่งแก้ไขโดยอัตโนมัติ ห้องปฏิบัติการยังต้องตรวจสอบว่าแหล่งใดปรากฏซ้ำ และแต่ละแหล่งสนับสนุนข้ออ้างใด
การเปรียบเทียบระหว่างโมเดลยังอาจเผยให้เห็นว่าจุดอ่อนอยู่นอกเว็บไซต์ของธุรกิจเอง บริษัทอาจอธิบายตัวเองอย่างแม่นยำ แต่ไดเรกทอรี แผนที่ และแพลตฟอร์มจองยังคงเก็บอัตลักษณ์ที่เก่ากว่าหรือกว้างกว่าไว้ คำตอบที่ระบบสร้างขึ้นสามารถเปิดเผยความไม่สอดคล้องนี้ด้วยการนำชิ้นส่วนจากหลายแหล่งมารวมไว้ในคำอธิบายสั้น ๆ การย่อรวมทำให้ความขัดแย้งมองเห็นได้ แต่ก็อาจซ่อนด้วยว่าแต่ละชิ้นส่วนมาจากที่ใด
มีความย้อนแย้งอยู่เล็กน้อย ยิ่งคำตอบที่ตรงกันฟังลื่นไหลมากเท่าไร ก็ยิ่งง่ายที่จะเข้าใจผิดว่าการบรรจบกันคือการตรวจสอบยืนยัน
ความเป็นอิสระต่อกันพิสูจน์ได้ยาก
ห้องปฏิบัติการไม่ถือว่าโมเดลเป็นพยานที่เป็นอิสระต่อกัน เนื้อหาที่ใช้ฝึกอาจทับซ้อนกัน ระบบดึงข้อมูลอาจนำหน้าเว็บคล้ายกันขึ้นมา และไดเรกทอรีสาธารณะอาจเผยแพร่ระเบียนเดียวไปยังหลายโดเมน จนดูเหมือนว่ามีหลายแหล่ง ทั้งที่ต้นทางจริงมีเพียงรายการเดียว
การอ้างอิงที่มองเห็นได้ไม่สามารถแก้ปัญหานี้ทั้งหมด คำตอบสองรายการอาจแสดง URL ต่างกัน แต่ทั้งสองหน้าเผยแพร่ระเบียนธุรกิจที่นำเข้ามาจากต้นทางเดียวกัน ระบบอีกตัวอาจไม่แสดงการอ้างอิง แต่ยังสร้างข้ออ้างที่เหมือนกันทุกประการ เมื่อไม่สามารถเข้าถึงโครงสร้างพื้นฐานการดึงข้อมูลภายในและขั้นตอนกลางที่ซ่อนอยู่ ห้องปฏิบัติการจึงไม่สามารถยืนยันความเป็นอิสระอย่างสมบูรณ์ได้
การออกแบบพรอมต์เพิ่มความซับซ้อนอีกชั้นหนึ่ง คำถามที่ระบุจังหวัดหรือหมวดหมู่ซึ่งยังเป็นข้อพิพาท อาจชี้นำหลายระบบไปยังเอนทิตีผิดเดียวกัน ในกรณีนั้น ความตรงกันส่วนหนึ่งสะท้อนเงื่อนไขของพรอมต์ ข้อสังเกตยังคงใช้ได้ แต่การตีความเปลี่ยนไป
เวลาก็มีความสำคัญเช่นกัน การทดสอบระหว่างโมเดลที่ดำเนินการคนละวันที่สังเกตการณ์อาจพบรายการข้อมูลที่เปลี่ยนไป ดัชนีที่ได้รับการปรับปรุง หรือพฤติกรรมระบบที่เปลี่ยนแปลง ทีมบันทึกวันที่เหล่านั้น แทนที่จะปฏิบัติต่อผลลัพธ์ราวกับทั้งหมดเกิดขึ้นในสภาพแวดล้อมเดียวกันที่หยุดนิ่ง
ห้องปฏิบัติการยังระมัดระวังเมื่อตัวอย่างหนึ่งไม่ปรากฏข้อผิดพลาดร่วม หากโมเดลหนึ่งหลีกเลี่ยงข้อผิดพลาดนั้นได้ ก็ไม่ได้หมายความโดยอัตโนมัติว่าโมเดลนั้นน่าเชื่อถือกว่า มันอาจเลือกเอนทิตีผิดอีกแห่ง ปฏิเสธที่จะตอบ หรือสร้างข้ออ้างที่ไม่มีการอ้างอิงแต่บังเอิญตรงกับสถานที่ที่ถูกต้อง ความถูกต้องยังต้องอาศัยการตรวจสอบทีละข้ออ้าง
การเปรียบเทียบนี้รองรับข้อสรุปใดได้บ้าง
การเปรียบเทียบระหว่างโมเดลที่เก็บรักษาไว้อย่างดีสามารถแสดงได้ว่า หลายระบบตอบกลับด้วยเอนทิตี หมวดหมู่ สถานที่ หรือการกำหนดคุณลักษณะเดียวกันภายใต้เงื่อนไขที่อธิบายไว้ สามารถแสดงว่าแหล่งข้อมูลที่มองเห็นได้ของระบบเหล่านั้นทับซ้อนกัน ขัดแย้งกัน หรือไม่สนับสนุนข้ออ้างร่วม และยังสามารถระบุความกำกวมในข้อมูลสาธารณะที่สอดคล้องกับผลลัพธ์ซ้ำดังกล่าว
วิธีนี้ไม่สามารถพิสูจน์ได้ว่าระบบใช้เส้นทางภายในเดียวกัน ไม่สามารถเปิดเผยตรรกะการจัดอันดับที่ซ่อนอยู่หรือทุกแหล่งที่ระบบตรวจสอบ และข้อสังเกตจำนวนเล็กน้อยก็ไม่สามารถใช้สรุปเป็นอัตราทั่วไปสำหรับทุกพรอมต์ ผู้ใช้ หรือโมเดลรุ่นในอนาคตได้
เมื่อมีคำอธิบายหลายแบบที่สอดคล้องกับหลักฐาน ห้องปฏิบัติการจะคงความเป็นไปได้เหล่านั้นไว้ ข้อผิดพลาดร่วมอาจสอดคล้องกับข้อมูลสาธารณะที่ถูกทำซ้ำ การตีความคำถามคล้ายกัน การดึงข้อมูลที่ทับซ้อนกัน เนื้อหาฝึกที่ใช้ร่วมกัน หรือส่วนผสมของหลายปัจจัย บันทึกการวิจัยสามารถจำกัดขอบเขตของคำอธิบายที่เป็นไปได้ โดยไม่แสร้งทำเป็นมองเห็นสิ่งที่อยู่หลังกำแพงของระบบ
ความตรงกันระหว่างโมเดลจะมีคุณค่าเมื่อถูกลดสถานะจากคำตัดสินให้เหลือเป็นหลักฐาน มันแสดงให้เห็นว่าภาพแทนที่คลาดเคลื่อนของธุรกิจมีความคงตัวมากพอจะปรากฏในสภาพแวดล้อมของคำตอบที่ระบบสร้างขึ้นมากกว่าหนึ่งแห่ง สำหรับผู้ที่กำลังตรวจสอบข้ออ้าง นั่นคือจุดเริ่มต้นของการสืบสวน ไม่ใช่จุดสิ้นสุด