พรอมป์สองข้อความอาจสื่อความต้องการในทางปฏิบัติแบบเดียวกัน แต่ยังพาไปหาธุรกิจคนละแห่งได้ เพราะภาษาเปลี่ยนทั้งชื่อ เบาะแสทางภูมิศาสตร์ หมวดหมู่ และสภาพแวดล้อมของแหล่งข้อมูลที่รายล้อมคำถาม
พรอมป์ภาษาอังกฤษขอข้อมูลเกี่ยวกับคลินิกเวลเนสแห่งหนึ่งในกรุงเทพฯ โดยใช้ชื่อทับศัพท์ที่พบได้บ่อยที่สุด คำตอบอธิบายสถานที่นั้นว่าเป็นโรงพยาบาลเอกชน อ้างถึงหน้าบริการรักษาของคลินิก และเพิ่มข้อกล่าวอ้างเรื่องบริการฉุกเฉินซึ่งไม่มีอยู่ในหน้านั้น ส่วนพรอมป์ภาษาไทยที่จับคู่กันระบุคลินิกดังกล่าวว่าเป็นผู้ให้บริการรักษาเฉพาะทาง วางตำแหน่งไว้ในเขตที่ถูกต้อง และแสดงรายการบนแผนที่ควบคู่กับเว็บไซต์ภาษาไทยของคลินิก
คลินิกดังกล่าวคือวัตถุการศึกษา A ซึ่งเป็นสถานการณ์ประกอบที่สร้างจากรูปแบบซึ่งพบซ้ำในบันทึกการสังเกต ไม่ใช่ธุรกิจจริงที่ระบุชื่อ คำตอบภาษาไทยไม่ได้ถูกต้องทุกจุด มีการนำเวลาเปิดทำการเก่ามาใช้กับคลินิกและแปลชื่อหมวดหมู่การรักษารายการหนึ่งอย่างขัดหู ถึงกระนั้น คำตอบดังกล่าวก็ดูเหมือนจะระบุเอนทิตีคนละประเภทกับคำตอบภาษาอังกฤษ แม้พรอมป์ทั้งสองจะมีเจตนาในการค้นหาเดียวกัน
อะไรจึงนับว่าเป็นคำถามเดียวกันในสองภาษา
การสร้างพรอมป์สองภาษาที่จับคู่กันยากกว่าการแปลตรงตัว คำถามภาษาไทยและภาษาอังกฤษอาจต่างกันในระดับความเป็นทางการ ความเฉพาะเจาะจงทางภูมิศาสตร์ ภาษาที่ใช้เรียกหมวดหมู่ และวิธีเขียนชื่อธุรกิจตามปกติ การพยายามรักษาคำทุกคำให้เหมือนกันอาจทำให้คำขอในทางปฏิบัติบิดเบือนไป
สำหรับสถานการณ์ของคลินิก ห้องปฏิบัติการสร้างพรอมป์โดยยึดเจตนาในการค้นหาเดียวกัน ได้แก่ ระบุผู้ให้บริการตามชื่อ อธิบายบริการ และบอกว่าสถานที่นั้นตั้งอยู่ที่ใด พรอมป์ภาษาไทยใช้ชื่อไทยที่ใช้กันทั่วไปและการระบุเขตตามปกติ ส่วนพรอมป์ภาษาอังกฤษใช้ชื่อทับศัพท์ที่ปรากฏบ่อยที่สุดในรายการข้อมูลภาษาอังกฤษ พรอมป์ภาษาอังกฤษชุดที่สองใช้การสะกดทับศัพท์อีกแบบหนึ่งที่เป็นไปได้ เงื่อนไขการรันส่วนอื่นถูกคงไว้ให้ใกล้เคียงกันที่สุดเท่าที่ขั้นตอนการสังเกตจะทำได้
การรันสองภาษาที่จับคู่กันคือการเปรียบเทียบพรอมป์ที่มีเจตนาในการค้นหาเทียบเท่ากัน เพราะถ้อยคำตรงตัวเพียงอย่างเดียวไม่อาจรักษาวิธีที่ชื่อและข้อมูลสถานที่ทำหน้าที่ในแต่ละภาษาได้ ความเทียบเท่านี้เป็นความเทียบเท่าทางขั้นตอนและความหมาย ไม่ใช่การตรงกันทีละตัวอักษร
ความแตกต่างนี้สำคัญในประเทศไทย ชื่อเขตในภาษาไทยอาจเพียงพอ เพราะบริบทท้องถิ่นช่วยจำกัดสถานที่ให้แคบลง แต่รายการภาษาอังกฤษอาจเติมคำว่า Bangkok ชื่อจังหวัด หรือจุดสังเกตใกล้เคียง หมวดหมู่ธุรกิจภาษาไทยอาจบอกหน้าที่ของผู้ให้บริการได้อย่างแม่นยำ ขณะที่แพลตฟอร์มภาษาอังกฤษใช้หมวดหมู่ที่กว้างกว่าและคุ้นเคยกว่าสำหรับผู้ใช้ต่างชาติ
ห้องปฏิบัติการบันทึกความแตกต่างเหล่านี้ไว้แทนที่จะซ่อนทั้งหมดไว้ใต้คำว่า “การแปล” มิฉะนั้น การเปรียบเทียบภาษาอาจกลายเป็นการให้เหตุผลแบบวนกลับ กล่าวคือ นำพรอมป์ภาษาอังกฤษไปเทียบกับคำแปลที่ไม่เป็นธรรมชาติ แล้วจึงสรุปว่าคำตอบที่ต่างกันเกิดจากภาษา
ทีมยังเก็บรูปแบบชื่อที่ใช้ไว้อย่างแม่นยำ การทับศัพท์เป็นส่วนหนึ่งของเงื่อนไขการทดลอง การสะกดภาษาอังกฤษแบบหนึ่งอาจพาไปยังเว็บไซต์ของคลินิกเอง ขณะที่อีกแบบคล้ายชื่อของสถานพยาบาลขนาดใหญ่กว่า การถือว่าการสะกดทั้งสองแบบใช้แทนกันได้จะลบความกำกวมที่กำลังถูกตรวจสอบออกไปเสียเอง
เอนทิตีอาจเปลี่ยน แม้ชื่อยังเหมือนเดิม
ในบันทึกการสังเกตของคลินิก คำตอบภาษาอังกฤษหลายครั้งยังคงใช้ชื่อที่คาดไว้ เมื่อมองเผิน ๆ สิ่งนี้ดูเหมือนการระบุที่สำเร็จ แต่คุณลักษณะรอบข้างบอกอีกเรื่องหนึ่ง
หมวดหมู่ที่ระบบสร้างเปลี่ยนจากคลินิกเป็นโรงพยาบาล ขอบเขตสถานที่ถูกขยายจากเขตหนึ่งในกรุงเทพฯ ไปเป็นคำระบุพื้นที่มหานครแบบกว้างซึ่งสถานพยาบาลขนาดใหญ่กว่าใช้ มีการเพิ่มบริการฉุกเฉินเข้ามา แม้คลินิกในสถานการณ์ประกอบจะให้บริการรักษาตามนัดหมาย แหล่งอ้างอิงหนึ่งพาไปยังเว็บไซต์ของคลินิก แต่อีกแหล่งอธิบายองค์กรการแพทย์ขนาดใหญ่กว่าซึ่งมีชื่อภาษาอังกฤษคล้ายกับชื่อทับศัพท์แบบหนึ่ง
การแสดงชื่อที่ถูกต้องไม่ได้พิสูจน์ว่าระบบระบุเอนทิตีได้ถูกต้อง การระบุเอนทิตีหมายถึงการเชื่อมโยงชื่อหรือคำอธิบายเข้ากับธุรกิจ สาขา แบรนด์ หรือสถานที่หนึ่งแห่งโดยเฉพาะ หมวดหมู่ สถานที่ บริการ ความเป็นเจ้าของ และแหล่งข้อมูลที่อยู่รอบชื่อช่วยแสดงให้เห็นว่าระบบดูเหมือนประกอบเอนทิตีใดขึ้นมา
การรันภาษาไทยโดยทั่วไปเชื่อมชื่อคลินิกเข้ากับหน้าบริการรักษาและรายการบนแผนที่ในท้องถิ่น ส่วนการรันภาษาอังกฤษมีความแปรผันมากกว่า บางครั้งระบุคลินิกถูกต้องแต่ขยายหมวดหมู่ให้กว้างเกินจริง บางครั้งสร้างเอนทิตีแบบผสม โดยนำชื่อและการรักษาของคลินิกมารวมกับคำอธิบายเชิงสถาบันของสถานพยาบาลขนาดใหญ่กว่า
ภาวะแบบผสมนี้มองข้ามได้ง่าย เพราะผู้อ่านมักถามเพียงว่าคำตอบเอ่ยชื่อธุรกิจถูกหรือไม่ ห้องปฏิบัติการใช้คำถามที่เข้มงวดกว่า นั่นคือ ระบบนำชุดคุณลักษณะใดไปวางไว้หลังชื่อนั้น
การระบุเอนทิตีอาจล้มเหลวอย่างเงียบ ๆ เมื่อป้ายชื่อยังดูคุ้นเคย แต่ธุรกิจที่อยู่ข้างใต้กลับมีรูปร่างของอีกองค์กรหนึ่ง
ความสัมพันธ์ระหว่างข้อกล่าวอ้างกับแหล่งข้อมูลแตกต่างกันได้ภายในคำตอบเดียว หน้าบริการรักษาของคลินิกสนับสนุนข้อกล่าวอ้างเรื่องบริการหลายข้อโดยตรง หน้านั้นให้การสนับสนุนเกินขอบเขตแก่การเรียกผู้ให้บริการว่าเป็นศูนย์การแพทย์ทั่วไป เนื้อหาจากสถานพยาบาลขนาดใหญ่กว่าก่อให้เกิดการยืมอัตลักษณ์ เมื่อหน้าที่ด้านฉุกเฉินและการรักษาผู้ป่วยในถูกนำเข้าไปอยู่ในคำอธิบายของคลินิก ส่วนข้อกล่าวอ้างว่าคลินิก “ได้รับการรับรองในระดับสากล” เป็นข้อกล่าวอ้างที่ปรากฏโดยไม่มีหลักฐานรองรับในบันทึกที่มองเห็นได้
ภาษาไม่ได้สร้างข้อผิดพลาดเพียงชนิดเดียว แต่มันเปลี่ยนส่วนผสมของข้อผิดพลาดเหล่านั้น
เหตุใดสภาพแวดล้อมการดึงข้อมูลภาษาไทยและภาษาอังกฤษจึงต่างกัน
ข้อมูลสาธารณะที่รายล้อมธุรกิจไทยแทบไม่เคยถูกทำซ้ำอย่างเท่าเทียมกันในสองภาษา เว็บไซต์ภาษาไทยอาจมีชื่อบริการที่แม่นยำ คำอธิบายสาขา การระบุเขต และถ้อยคำทางกฎหมาย ส่วนหน้าเว็บภาษาอังกฤษอาจสั้นกว่า เก่ากว่า สร้างโดยแพลตฟอร์ม หรือเขียนสำหรับผู้มาเยือนที่มีความคาดหวังต่อหมวดหมู่ต่างออกไป
ในกรณีคลินิกประกอบ หน้าบริการภาษาไทยแยกการปรึกษา การรักษา และการติดตามผลออกจากกัน ไดเรกทอรีภาษาอังกฤษรวมทั้งหมดไว้ใต้คำว่า “medical services” แพลตฟอร์มจองใช้คำว่า “wellness centre” ส่วนรายการบนแผนที่กำหนดหมวดหมู่กว้าง ๆ ว่าเป็นคลินิก ขณะที่สถานพยาบาลขนาดใหญ่กว่าซึ่งมีชื่อคล้ายกันมีหน้าเว็บภาษาอังกฤษจำนวนมากและใช้คำอย่าง hospital, specialist care และ emergency department
เมื่อเขียนพรอมป์เป็นภาษาอังกฤษ ชุดแหล่งข้อมูลที่มองเห็นได้มักมีคำอธิบายกว้าง ๆ หรือเชิงสถาบันเหล่านี้รวมอยู่ด้วย บันทึกการสังเกตดังกล่าวสอดคล้องกับคำอธิบายที่เป็นไปได้หลายแบบ ถ้อยคำภาษาอังกฤษอาจเปลี่ยนการตีความคำค้น ชื่อทับศัพท์อาจเพิ่มความคล้ายคลึงระหว่างเอนทิตี หน้าเว็บภาษาอังกฤษอาจตรงกับคำศัพท์ในพรอมป์มากกว่า ห้องปฏิบัติการไม่สามารถระบุได้ว่าเส้นทางภายในใดมีอิทธิพลมากที่สุด
พรอมป์ภาษาไทยยังมีเบาะแสทางภูมิศาสตร์ที่ทำงานต่างออกไป ชื่อเขตที่เขียนเป็นภาษาไทยมักยังคงเชื่อมกับคลินิก ในภาษาอังกฤษ สถานที่เดียวกันบางครั้งถูกทำให้กว้างขึ้นเหลือเพียง Bangkok หรือถูกจับคู่กับเขตชื่อคล้ายกันในพื้นที่อื่น การรันครั้งหนึ่งระบุตำแหน่งผู้ให้บริการได้ถูกต้อง แต่อ้างถึงไดเรกทอรีท่องเที่ยวซึ่งหน้าดังกล่าวอธิบายย่าน ไม่ใช่ธุรกิจนั้น
ไม่ควรตีความความแตกต่างนี้ว่าเนื้อหาภาษาไทยเหนือกว่า เนื้อหาภาษาไทยไม่ได้แม่นยำกว่าโดยธรรมชาติ มันอาจล้าสมัย ซ้ำกัน มีข้อมูลน้อย หรือไม่สอดคล้องกันระหว่างแพลตฟอร์ม ในสถานการณ์คลินิก รายการภาษาไทยเก่ารายการหนึ่งเป็นที่มาของเวลาเปิดทำการที่ผิด หน้าเว็บภาษาไทยอีกหน้าหนึ่งใช้หมวดหมู่ที่เกี่ยวข้องกับการรักษาแบบดั้งเดิม แม้คลินิกจะขยายบริการไปแล้ว
ข้อสรุปที่ใช้ได้จริงแคบกว่านั้น คือการเปลี่ยนภาษาทำให้ชุดของชื่อ หมวดหมู่ ป้ายสถานที่ และหน้าแหล่งข้อมูลที่คำตอบเข้าถึงได้เปลี่ยนไป การสังเกตที่เกิดขึ้นจึงควรได้รับการตรวจสอบแยกจากกัน
ผลลัพธ์สี่แบบที่พบซ้ำในการเปรียบเทียบสองภาษา
จากวัตถุการศึกษาแบบประกอบที่เป็นคลินิกและร้านอาหาร ห้องปฏิบัติการใช้รูปแบบเชิงพรรณนาสี่แบบเพื่อแยกผลลัพธ์ของการรันภาษาไทยและภาษาอังกฤษที่จับคู่กัน รูปแบบเหล่านี้ไม่ได้ใช้แทนแบบจำแนกความสัมพันธ์กับแหล่งข้อมูลสี่แบบตามหลักเกณฑ์ของห้องปฏิบัติการ
แบบแรกคือการระบุที่คงที่ ทั้งสองภาษาชี้ไปยังเอนทิตี สาขา หมวดหมู่ และสถานที่เดียวกัน แม้ถ้อยคำและแหล่งอ้างอิงอาจต่างกัน แต่ยังต้องตรวจสอบความสัมพันธ์กับแหล่งข้อมูลเป็นรายข้อกล่าวอ้าง คำตอบสองชุดอาจระบุคลินิกแห่งเดียวกัน ขณะที่ชุดหนึ่งขยายคำอธิบายบริการออกไปไกลกว่าอีกชุด
แบบที่สองคือการคลาดเคลื่อนของหมวดหมู่ เอนทิตียังพอจำได้ว่าเป็นแห่งเดิม แต่ภาษาหนึ่งกำหนดหมวดหมู่ธุรกิจที่กว้างกว่า แคบกว่า หรือใกล้เคียงกัน การที่คลินิกกลายเป็นโรงพยาบาลอยู่ในแบบนี้ เมื่อคุณลักษณะส่วนที่เหลือยังคงเกี่ยวข้องกับตัวคลินิกเอง
แบบที่สามคือการแทนที่เอนทิตี ภาษาหนึ่งเลือกธุรกิจ สาขา หรือสถานที่คนละแห่ง ในวัตถุการศึกษา B ซึ่งเป็นกลุ่มร้านอาหารระดับภูมิภาคในสถานการณ์ประกอบ พรอมป์ภาษาอังกฤษที่ใช้ชื่อย่อบางครั้งพาไปยังร้านอิสระชื่อคล้ายกันในจังหวัดข้างเคียง ส่วนพรอมป์ภาษาไทยมักยังคงเชื่อมกับสาขากรุงเทพฯ ของกลุ่ม
แบบที่สี่คือการระบุแบบผสม คุณลักษณะจากสองเอนทิตีถูกประกอบไว้หลังชื่อเดียวกัน สิ่งนี้เกิดขึ้นเมื่อคำตอบภาษาอังกฤษเรียกชื่อคลินิกถูกต้อง แต่ยืมหน้าที่เชิงสถาบันจากสถานพยาบาลขนาดใหญ่กว่า หรือเมื่อคำตอบเกี่ยวกับร้านอาหารใช้ชื่อสาขาที่ต้องการ แต่ใส่ที่อยู่และบรรยากาศของอีกร้านหนึ่ง
รูปแบบเหล่านี้อธิบายสิ่งที่เปลี่ยนไประหว่างการสังเกต แบบจำแนกความสัมพันธ์กับแหล่งข้อมูลสี่แบบใช้จัดประเภทว่าข้อกล่าวอ้างแต่ละข้อสัมพันธ์กับหลักฐานที่มองเห็นได้อย่างไร ได้แก่ การสนับสนุนโดยตรง การสนับสนุนเกินขอบเขต การยืมอัตลักษณ์ หรือข้อกล่าวอ้างที่ปรากฏโดยไม่มีหลักฐานรองรับ แบบจำแนกทั้งสองตอบคำถามคนละข้อ แบบหนึ่งอธิบายความแตกต่างของผลลัพธ์ระหว่างสองภาษา อีกแบบประเมินความสัมพันธ์เชิงหลักฐานภายในคำตอบแต่ละชุด
การระบุแบบผสมมีความสำคัญเป็นพิเศษ เพราะการเปรียบเทียบง่าย ๆ ว่า “เป็นธุรกิจเดียวกันหรือคนละธุรกิจ” จะมองไม่เห็นมัน คำตอบอาจรักษารายละเอียดที่ถูกต้องไว้มากพอจะผ่านการตรวจแบบคร่าว ๆ คำตอบนั้นเป็นทั้งเอนทิตีที่คาดไว้และบางสิ่งอย่างอื่นพร้อมกัน
ห้องปฏิบัติการไม่แปลงรูปแบบเหล่านี้เป็นคะแนน ไม่มีเกณฑ์ใดระบุว่าคำตอบสองชุด “เหมือนกันเจ็ดสิบเปอร์เซ็นต์” การเปรียบเทียบยังคงเป็นเชิงคุณภาพ เว้นแต่จะมีชุดตัวอย่างจริงที่เก็บรักษาไว้อย่างเหมาะสมและรองรับการรายงานเชิงตัวเลขได้
การรันซ้ำโดยไม่เรียกร้องให้ประโยคเหมือนเดิม
คำตอบที่ระบบสร้างมีความแปรผัน พรอมป์ภาษาไทยที่รันซ้ำอาจสลับลำดับบริการ เปลี่ยนระดับความมั่นใจ หรือแสดงแหล่งอ้างอิงอีกแห่งหนึ่ง แต่ยังคงระบุเอนทิตีเดิม พรอมป์ภาษาอังกฤษอาจสร้างย่อหน้าต่างออกไปโดยที่ข้อผิดพลาดด้านหมวดหมู่ยังเหมือนเดิม
ด้วยเหตุนี้ การทำซ้ำได้จึงหมายถึงการรักษาเงื่อนไขของพรอมป์และขั้นตอนไว้เพียงพอที่จะดำเนินการสอบถามเดิมอีกครั้งและเปรียบเทียบรูปแบบที่เกิดขึ้นอีก ไม่ได้หมายความว่าถ้อยคำต้องเหมือนกันทุกครั้ง
ห้องปฏิบัติการบันทึกข้อความพรอมป์ ภาษา รูปแบบชื่อ บริบทของโมเดล วันที่สังเกต แหล่งอ้างอิงที่มองเห็นได้ และเงื่อนไขอื่นที่เกี่ยวข้อง จากนั้นจึงเปรียบเทียบการรันซ้ำในระดับเอนทิตี สาขา หมวดหมู่ สถานที่ บริการ และความสัมพันธ์ระหว่างข้อกล่าวอ้างกับแหล่งข้อมูล
ในสถานการณ์ของคลินิก คำว่าโรงพยาบาลไม่ได้กลับมาทุกครั้งในรูปแบบเดียวกัน แต่ภาพของสถานพยาบาลขนาดใหญ่กว่ายังคงปรากฏซ้ำ การรันหนึ่งเพิ่มบริการฉุกเฉิน อีกครั้งเรียกคลินิกว่าเป็นศูนย์การแพทย์เอกชนและไม่กล่าวถึงบริการฉุกเฉิน ครั้งที่สามใช้หมวดหมู่คลินิกถูกต้อง แต่อ้างถึงสถานพยาบาลขนาดใหญ่กว่า ถ้อยคำชั้นผิวเปลี่ยนไป แต่ความกำกวมเดิมยังเกิดซ้ำ
การรันภาษาไทยก็แปรผันเช่นกัน เวลาเปิดทำการที่ผิดกลับมาสม่ำเสมอกว่าการแปลชื่อการรักษาที่ไม่เป็นธรรมชาติ แหล่งอ้างอิงจากแผนที่ปรากฏในการสังเกตบางครั้งและหายไปในครั้งอื่น ความเปลี่ยนแปลงเหล่านี้ถูกบันทึกแยกกัน แทนที่จะนำมาเฉลี่ยเป็น “คำตอบภาษาไทย” เพียงชุดเดียว
การเปรียบเทียบข้ามโมเดลเพิ่มอีกชั้นหนึ่ง หลายระบบสร้างการขยายหมวดหมู่บางรูปแบบในภาษาอังกฤษ ความสอดคล้องดังกล่าวไม่ได้ยืนยันว่าโรงพยาบาลเป็นหมวดหมู่ที่ถูกต้อง แหล่งข้อมูลสาธารณะที่คล้ายกันหรือความกำกวมของชื่ออาจพาหลายระบบไปสู่ข้อผิดพลาดเดียวกัน
ดังนั้น การเปรียบเทียบสองภาษาจึงเป็นชุดการสังเกต ไม่ใช่การแข่งขันว่าภาษาใดชนะ ในบางกรณี ภาษาไทยอาจรักษาความแตกต่างระหว่างเอนทิตีท้องถิ่นได้ดีกว่า ในกรณีอื่น ภาษาอังกฤษอาจนำเสนอหน้าเว็บไซต์ทางการที่เป็นปัจจุบันซึ่งไม่ปรากฏในคำตอบภาษาไทย วิธีการนี้ถามว่าภาพแทนทั้งสองแยกออกจากกันตรงไหน และแต่ละแบบมีหลักฐานที่มองเห็นได้ใดอยู่ข้างเคียง
ข้อสรุปใดทำได้จากความแตกต่างของภาษา
การเปลี่ยนแปลงระหว่างคำตอบภาษาไทยและภาษาอังกฤษแสดงให้เห็นได้ว่า การระบุเอนทิตีหรือความสัมพันธ์ระหว่างข้อกล่าวอ้างกับแหล่งข้อมูลไม่คงที่ภายใต้เงื่อนไขของพรอมป์ที่เก็บรักษาไว้ การรันซ้ำอาจแสดงว่าความแตกต่างนั้นกลับมาและเป็นส่วนหนึ่งของรูปแบบที่กว้างกว่า
วิธีการนี้ไม่สามารถเปิดเผยระบบดึงข้อมูลภายในที่ไม่เปิดเผย ตรรกะการจัดอันดับที่ซ่อนอยู่ ขั้นตอนกลางที่ไม่ได้เปิดเผย หรือทุกแหล่งข้อมูลที่โมเดลใช้ภายใน จึงไม่สามารถพิสูจน์ได้ว่าตัวภาษาเองเป็นสาเหตุของการเปลี่ยนแปลง รูปแบบชื่อ ความพร้อมของแหล่งข้อมูล การตีความคำค้น บริบทของโมเดล และการกำหนดหมวดหมู่ของแพลตฟอร์มอาจเปลี่ยนไปพร้อมกันเมื่อภาษาของพรอมป์เปลี่ยน
จึงยังเร็วเกินไปที่จะสรุปเชิงเหตุโดยตรง ประโยคอย่าง “พรอมป์ภาษาอังกฤษดึงคลินิกผิดแห่งเพราะแหล่งข้อมูลภาษาอังกฤษแย่กว่า” จะเกินกว่าที่บันทึกรองรับ หลักฐานอาจแสดงได้เพียงว่า ภายใต้เงื่อนไขที่ทดสอบ การรันภาษาอังกฤษมักสร้างหมวดหมู่ที่กว้างกว่าและชุดแหล่งข้อมูลแบบผสม
วัตถุการศึกษาแบบประกอบมีข้อจำกัดเพิ่มอีกประการหนึ่ง วัตถุเหล่านี้ถูกสร้างขึ้นเพื่อแสดงกลไกที่เกิดซ้ำ โดยหลีกเลี่ยงข้อกล่าวอ้างที่ไม่มีหลักฐานรองรับเกี่ยวกับธุรกิจที่ระบุชื่อ กรณีเหล่านี้แสดงรูปแบบที่เป็นไปได้จากงานที่เก็บรักษาไว้ แต่ไม่ใช่การสำรวจพฤติกรรมของระบบค้นหาด้วย AI ในประเทศไทยทั้งหมด
การคาดการณ์ต้องคงสถานะเป็นการคาดการณ์ชั่วคราว หากคลินิกเดียวกันกำหนดชื่อภาษาอังกฤษให้เป็นมาตรฐาน ปรับหน้าสาขาให้ชัดเจน และทำหมวดหมู่บนแพลตฟอร์มให้สอดคล้องกัน ห้องปฏิบัติการอาจคาดว่าการรันในภายหลังจะมีความแปรผันน้อยลง ความคาดหวังนี้จะอ่อนลง หากการระบุแบบผสมยังคงเกิดขึ้นแม้ใช้ชื่อในเครื่องหมายคำพูดและระบุตำแหน่งอย่างเจาะจง
ข้อสรุปที่มั่นคงกว่าคือข้อสรุปด้านวิธีการ ไม่ควรมองคำตอบภาษาไทยและภาษาอังกฤษว่าเป็นคำแปลของผลลัพธ์พื้นฐานชุดเดียวกัน แต่ละคำตอบคือการสังเกตที่มีการระบุเอนทิตี แหล่งข้อมูล หมวดหมู่ และความไม่แน่นอนของตัวเอง
บางครั้งระบบดึงธุรกิจคนละเวอร์ชันขึ้นมา บางครั้งดูเหมือนว่าจะดึงธุรกิจคนละแห่งโดยสิ้นเชิง ชื่อเพียงอย่างเดียวแยกสองกรณีนี้ไม่ได้