Please use this identifier to cite or link to this item: http://sutir.sut.ac.th:8080/jspui/handle/123456789/10341
Title: การพัฒนาแบบจำลองการค้นคืนรูปภาพดิจิทัลเชิงความหมาย โดยใช้โครงข่ายประสาทเทียมเชิงลึกที่ถูกฝึกฝนล่วงหน้า
Other Titles: The development of a semantic-based image retrieval model using deep neural network by pre-training approach
Authors: จักรินทร์ สันติรัตนภักดี
Advisor: ศุภกฤษฏิ์ นิวัฒนากูล
Keywords: การค้นคืนรูปภาพเชิงความหมาย;การเรียนรู้ความหมายรูปภาพจากภาษาธรรมชาติ;โครงข่ายประสาทเทียมเชิงลึก
Issue Date: 2567
Publisher: สำนักวิชาศาสตร์และศิลป์ดิจิทัล มหาวิทยาลัยเทคโนโลยีสุรนารี
Abstract: การวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาแบบจำลองการค้นคืนรูปภาพดิจิทัลเชิงความหมาย โดยใช้โครงข่ายประสาทเทียมเชิงลึกที่ถูกฝึกฝนล่วงหน้า ประกอบด้วย 3 มอดูลหลัก ได้แก่ 1) มอดูลการสร้างชุดคำอธิบายรูปภาพ โดยประยุกต์ใช้ตัวแบบ CLIP ที่ถูกฝึกฝนล่วงหน้าสำหรับฝึกฝนตัวเข้ารหัสรูปภาพ และตัวเข้ารหัสข้อความอธิบายรูปภาพ เพื่อแยกความแตกต่างของแต่ละคลาสด้วยการวัดความคล้ายคลึงโคไซน์ตามหลักการเรียนรู้แบบคอนทราสต์ โดยคำนวณค่าความผิดพลาดจากการเปรียบเทียบระหว่างผลการพยากรณ์ป้ายกำกับกับผลการประเมินความหมายของรูปภาพโดยผู้เชี่ยวชาญ จากนั้นนำค่าการสูญเสียไปปรับปรุงพารามิเตอร์ด้วยตนเอง เพื่อใช้ในการเรียนรู้ความคล้ายคลึงเชิงความหมายให้ใกล้เคียงกับการรับรู้มนุษย์มากที่สุด ก่อนจะเรียนรู้ซ้ำบนชุดข้อมูลที่กำหนดเอง และนำมาแปลงเป็นเวกเตอร์คุณลักษณะรูปภาพเพื่อจัดเก็บไว้ในชุดคำอธิบายรูปภาพ 2) มอดูลการประมวลผลข้อความค้นหาจากผู้ใช้ในรูปแบบภาษาธรรมชาติด้วยโมเดลภาษา DistilBERT ที่ถูกฝึกฝนล่วงหน้าสำหรับเข้ารหัสข้อความ เพื่อแปลงเป็นเวกเตอร์คุณลักษณะข้อความค้นหา 3) มอดูลการจับคู่เวกเตอร์คุณลักษณะรูปภาพกับเวกเตอร์คุณลักษณะข้อความค้นหาบนพื้นที่การฝังหลายรูปแบบ เพื่อเปรียบเทียบค่าความคล้ายคลึงของเวกเตอร์ ก่อนจะเรียงลำดับตามความเกี่ยวข้อง และแสดงเป็นผลลัพธ์การค้นคืนรูปภาพทั้งในบริบทของเนื้อหาและบริบทเชิงความหมายแก่ผู้ใช้ การประเมินประสิทธิภาพแบบจำลองการค้นคืนรูปภาพโดยผู้เชี่ยวชาญ 3 กลุ่ม ประกอบด้วยกลุ่มผู้เชี่ยวชาญด้านคอมพิวเตอร์และเทคโนโลยี กลุ่มผู้เชี่ยวชาญด้านการค้นคืนสารสนเทศ และกลุ่มผู้ใช้ทั่วไป กลุ่มละ 10 ท่าน รวมทั้งสิ้น 30 ท่าน ด้วยการวัดประสิทธิภาพการค้นคืนรูปภาพแบบไบนารี มีรายละเอียดดังนี้ ค่าความแม่นยำที่ k อันดับ พบว่า ผลลัพธ์จากการค้นคืนจำนวน 3 ลำดับแรกด้วยชื่อรูปภาพและหมวดหมู่ในลักษณะป้ายกำกับของรูปภาพ และข้อความค้นหาสั้น ๆ เกี่ยวกับแนวคิดระดับสูงของรูปภาพนั้นมีค่าความแม่นยำอยู่ในระดับดีมาก คิดเป็นร้อยละ 93.9 และ 86.4 ตามลำดับ อย่างไรก็ดี ความหมายเชิงคุณภาพนั้นขึ้นอยู่กับหลักการรับรู้ของมนุษย์ ดังนั้นประสบการณ์ของแต่ละบุคคลจึงส่งผลให้การประเมินนั้นแตกต่างกัน ส่งผลให้ค่าความแม่นยำจากข้อความค้นหาที่อธิบายความหมายเชิงคุณภาพของรูปภาพที่อยู่ในระดับดี คิดเป็นร้อยละ 83.0 เช่นเดียวกับ ค่าความครบถ้วนที่ k อันดับ พบว่า ผลลัพธ์จากการค้นคืนจำนวน 3 ลำดับแรก ภายใต้เงื่อนไขข้อความค้นหาด้วยชื่อรูปภาพและหมวดหมู่ในลักษณะป้ายกำกับของรูปภาพ และข้อความค้นหาสั้น ๆ เกี่ยวกับแนวคิดระดับสูงของรูปภาพนั้นมีค่าความครบถ้วนอยู่ในระดับดี ตรงกันข้ามกับข้อความค้นหาที่อธิบายความหมายเชิงคุณภาพของรูปภาพที่อยู่ในระดับปานกลาง อย่างไรก็ดี ค่าความครบถ้วนจะค่อย ๆ เพิ่มตามจำนวนผลลัพธ์ที่เพิ่มมากขึ้น เมื่อจำนวนผลลัพธ์เท่ากับ 10 คิดเป็นร้อยละ 81.8, 81.3 และ 80.2 ตามลำดับ นอกจากนั้น ค่าประสิทธิภาพโดยรวมที่ k อันดับ พบว่า ผลลัพธ์จากการค้นคืนจำนวน 3 ลำดับแรก ภายใต้เงื่อนไขข้อความค้นหาด้วยชื่อรูปภาพและหมวดหมู่ในลักษณะป้ายกำกับของรูปภาพ และข้อความค้นหาสั้น ๆ เกี่ยวกับแนวคิดระดับสูงของรูปภาพนั้นมีค่าความครบถ้วนอยู่ในระดับดี เช่นเดียวกับข้อความค้นหาที่อธิบายความหมายเชิงคุณภาพของรูปภาพ โดยที่ค่าประสิทธิภาพโดยรวมมีค่าสูงขึ้น เมื่อทั้งค่าความแม่นยำในการค้นคืนรูปภาพ และค่าความครบถ้วนจากการค้นคืนรูปภาพมีค่าสูงขึ้นไปในทิศทางเดียวกัน ซึ่งเป็นสิ่งที่แสดงถึงประสิทธิภาพโดยรวมของแบบจำลองที่พัฒนาขึ้น เมื่อจำนวนผลลัพธ์เท่ากับ 10 คิดเป็น 86.0, 83.5 และ 81.0 ตามลำดับ การประเมินประสิทธิภาพการค้นคืนรูปภาพดิจิทัลเชิงความหมายด้วยค่า NDCG ที่ k อันดับเปรียบเทียบระหว่างการค้นคืนรูปภาพด้วยตัวแบบ CLIP ดั้งเดิมกับการค้นคืนรูปภาพด้วยตัวแบบ CLIP ที่ผ่านการปรับค่าน้ำหนัก พบว่า ผลลัพธ์จากการค้นคืนรูปภาพด้วยข้อความบรรยายรูปภาพในลักษณะป้ายกำกับของรูปภาพ โดยการค้นคืนรูปภาพด้วยตัวแบบ CLIP ดั้งเดิมเปรียบเทียบกับการค้นคืนรูปภาพด้วยตัวแบบ CLIP ที่ผ่านการปรับค่าน้ำหนัก มีค่า NDCG ที่ลำดับ 1, 3 และ 5 ไม่แตกต่างกันมากนัก เช่นเดียวกับผลลัพธ์จากการค้นคืนรูปภาพด้วยข้อความบรรยายรูปภาพเกี่ยวกับแนวคิดระดับสูงของรูปภาพ โดยการค้นคืนรูปภาพด้วยตัวแบบ CLIP ดั้งเดิม เปรียบเทียบกับการค้นคืนรูปภาพด้วยตัวแบบ CLIP ที่ผ่านการปรับค่าน้ำหนักนั้นมีค่า NDCG ที่ลำดับ 1, 3 และ 5 เพิ่มขึ้นจากเดิมเล็กน้อย ตรงกันข้ามกับ ผลลัพธ์จากการค้นคืนรูปภาพด้วยข้อความบรรยายรูปภาพที่อธิบายความหมายเชิงคุณภาพของรูปภาพ โดยการค้นคืนรูปภาพด้วยตัวแบบ CLIP ที่ผ่านการปรับค่าน้ำหนักนั้นมี ค่า NDCG ที่ลำดับ 1, 3 และ 5 เพิ่มขึ้นจากการค้นคืนรูปภาพด้วยตัวแบบ CLIP ดั้งเดิมถึงร้อยละ 21.50, 19.90 และ 22.80 ตามลำดับ
URI: http://sutir.sut.ac.th:8080/jspui/handle/123456789/10341
Appears in Collections:ส่งวิทยานิพนธ์เข้า SUTIR (Thesis Submission to SUTIR)

Files in This Item:
File Description SizeFormat 
01Cover.pdf193.62 kBAdobe PDFView/Open
02Approved.pdf286.73 kBAdobe PDFView/Open
03Abstract.pdf1 MBAdobe PDFView/Open
04Acknowledgement.pdf204.95 kBAdobe PDFView/Open
05Content.pdf294.7 kBAdobe PDFView/Open
06Ch1.pdf320.61 kBAdobe PDFView/Open
07Ch2.pdf2.11 MBAdobe PDFView/Open
08Ch3.pdf1.74 MBAdobe PDFView/Open
09Ch4.pdf4.75 MBAdobe PDFView/Open
10Ch5.pdf336.33 kBAdobe PDFView/Open
11Reference.pdf257.76 kBAdobe PDFView/Open
12Appendex.pdf5.37 MBAdobe PDFView/Open
13Biography.pdf220.3 kBAdobe PDFView/Open
Abstract.pdfบทคัดย่อ1.48 MBAdobe PDFView/Open
Fulltext.pdfเอกสารฉบับเต็ม14.76 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.