วิธีการเรียนรู้ภาษามาร์กอัป HTML การออกแบบเว็บและโปรแกรมสำหรับสร้างเว็บเพจ ภาษามาร์กอัปเอกสาร

มาร์กอัปเชิงตรรกะและภาพ

มีมาร์กอัปเชิงตรรกะและภาพ ในกรณีแรก เรากำลังพูดถึงเฉพาะว่าส่วนที่กำหนดของเอกสารมีบทบาทอย่างไรในโครงสร้างโดยรวม (เช่น "บรรทัดนี้คือส่วนหัว") ส่วนที่สองกำหนดว่าองค์ประกอบนี้จะแสดงอย่างไร (เช่น “บรรทัดนี้ควรแสดงด้วยตัวหนา”) แนวคิดเบื้องหลังภาษามาร์กอัปคือลักษณะที่ปรากฏของเอกสารควรได้มาจากมาร์กอัปแบบลอจิคัลโดยอัตโนมัติและไม่ควรขึ้นอยู่กับเนื้อหาจริง ซึ่งช่วยให้ประมวลผลเอกสารโดยอัตโนมัติและแสดงในสภาพแวดล้อมที่แตกต่างกันได้ง่ายขึ้น (เช่น ไฟล์เดียวกันอาจปรากฏแตกต่างกันบนหน้าจอคอมพิวเตอร์ หน้าจอโทรศัพท์มือถือ และหน้าจอการพิมพ์ เนื่องจากคุณสมบัติของอุปกรณ์ส่งออกเหล่านี้แตกต่างกันอย่างมาก) อย่างไรก็ตามกฎนี้มักถูกละเมิด: ตัวอย่างเช่นเมื่อสร้างเอกสารในโปรแกรมแก้ไขเช่น MS Word ผู้ใช้อาจเน้นส่วนหัวด้วยตัวหนา แต่ไม่มีที่ไหนเลยระบุว่าบรรทัดนี้เป็นส่วนหัว

ตัวอย่างของภาษามาร์กอัป

ภาษามาร์กอัปจะถูกใช้ทุกที่ที่ต้องการเอาต์พุตข้อความที่จัดรูปแบบ: ในการพิมพ์ (SGML, TeX, PostScript, PDF), ส่วนต่อประสานผู้ใช้คอมพิวเตอร์ (Microsoft Word, OpenOffice, troff), เวิลด์ไวด์เว็บ (HTML, XHTML, XML, WML, VML, PGML, SVG, XBRL)

ภาษามาร์กอัปแบบน้ำหนักเบา

ภาษาที่ออกแบบมาเพื่อการเขียนข้อความที่ง่ายและรวดเร็วในโปรแกรมแก้ไขข้อความแบบง่ายเรียกว่า เบาลง(th:ภาษามาร์กอัปแบบไลท์เวท) คุณสมบัติของภาษาดังกล่าว:

  • ฟังก์ชั่นขั้นต่ำ
  • แท็กที่รองรับชุดเล็กๆ
  • ง่ายต่อการเรียนรู้
  • ข้อความต้นฉบับในภาษานี้อ่านได้ง่ายเช่นเดียวกับเอกสารที่เสร็จสมบูรณ์

ใช้ในกรณีที่บุคคลต้องเตรียมข้อความในโปรแกรมแก้ไขข้อความทั่วไป (บล็อก ฟอรัม วิกิ) หรือเมื่อผู้ใช้ที่มีโปรแกรมแก้ไขข้อความทั่วไปสามารถอ่านข้อความได้ ต่อไปนี้คือภาษามาร์กอัปแบบไลท์เวทที่ใช้กันทั่วไปบางส่วน:

  • มาร์กอัป Wiki (ดู Wikipedia: วิธีแก้ไขบทความ)
  • ระบบเอกสารอัตโนมัติต่างๆ (เช่น Javadoc)
เรื่องราว

คำว่า "เครื่องหมาย" (อันเป็นผลมาจากกระบวนการชื่อเดียวกันภาษาอังกฤษ มาร์กอัป) มาจากวลีภาษาอังกฤษ “ ทำเครื่องหมายขึ้น” (“การทำเครื่องหมาย (เป็นกระบวนการ)” ซึ่งแปลตรงตัวว่า “การทำเครื่องหมาย การทำเครื่องหมาย”) นำมาจากแนวทางปฏิบัติในการจัดพิมพ์แบบดั้งเดิมโดยการวางบันทึกแบบธรรมดาพิเศษไว้ตรงขอบและในข้อความของต้นฉบับหรือหลักฐานก่อนที่จะส่งไปพิมพ์ ดังนั้น "คนมาร์กอัป" จึงระบุแบบอักษร สไตล์ และขนาดตัวอักษรสำหรับแต่ละส่วนของข้อความ ปัจจุบันมาร์กอัปข้อความทำได้โดยบรรณาธิการ ผู้ตรวจทาน นักออกแบบกราฟิก และแน่นอน โดยผู้เขียนเอง

เจนโค้ด

แนวคิดของการใช้ภาษามาร์กอัปในการประมวลผลคำด้วยคอมพิวเตอร์น่าจะถูกนำมาใช้ครั้งแรกโดย William Tunnicliffe วิลเลียม ดับเบิลยู. ทันนิคคลิฟ) ในการประชุมใหญ่เมื่อปี พ.ศ. 2510 ตัวเขาเองเรียกข้อเสนอของเขาว่า "การเข้ารหัสสากล" (อังกฤษ "การเข้ารหัสทั่วไป"). ในปี 1970 Tunnicliffe เป็นผู้นำการพัฒนามาตรฐาน GenCode สำหรับอุตสาหกรรมการพิมพ์ และต่อมาได้กลายมาเป็นหัวหน้าคณะกรรมการชุดหนึ่งขององค์การระหว่างประเทศเพื่อการมาตรฐาน (ISO) องค์การระหว่างประเทศเพื่อการมาตรฐาน) ซึ่งเป็นผู้สร้าง SGML ซึ่งเป็นภาษามาร์กอัปเชิงอธิบายภาษาแรก ไบรอัน รีด (คุณ. ไบรอัน รีด) ในวิทยานิพนธ์ของเขา ซึ่งเขาปกป้องในปี 1980 ที่มหาวิทยาลัยคาร์เนกี้ มหาวิทยาลัยคาร์เนกี้เมลลอน) ในการพัฒนาแนวคิดที่นำเสนอได้ดำเนินการใช้งานจริงของมาร์กอัปเชิงพรรณนา

อย่างไรก็ตามในปัจจุบัน "บิดา" ของภาษามาร์กอัปมักเรียกว่า Charles Goldfarb นักวิจัยของ IBM ชาร์ลส์ โกลด์ฟาร์บ). แนวคิดพื้นฐานนี้ถือกำเนิดขึ้นในปี 1969 ขณะที่ทำงานเกี่ยวกับระบบการจัดการเอกสารแบบดั้งเดิมสำหรับสำนักงานกฎหมาย ในปีเดียวกันนั้นเอง เขาได้มีส่วนร่วมในการสร้างภาษา IBM GML ซึ่งเปิดตัวครั้งแรกในปี 1973

การใช้งานภาษามาร์กอัปคอมพิวเตอร์ในช่วงแรกๆ สามารถพบได้ในยูทิลิตี้การพิมพ์ของ UNIX เช่น troff และ nroff ช่วยให้คุณสามารถแทรกคำสั่งการจัดรูปแบบลงในข้อความของเอกสารเพื่อจัดรูปแบบตามความต้องการของบรรณาธิการ

ความพร้อมใช้งานของซอฟต์แวร์การเผยแพร่ที่มีฟังก์ชัน WYSIWYG "สิ่งที่คุณเห็นคือสิ่งที่คุณได้รับ"- "สิ่งที่คุณเห็นคือสิ่งที่คุณได้รับ") ได้แทนที่ภาษาเหล่านี้ส่วนใหญ่ในหมู่ผู้ใช้ทั่วไป แม้ว่างานเผยแพร่ที่จริงจังยังคงใช้มาร์กอัปสำหรับโครงสร้างข้อความที่ไม่ใช่ภาพเฉพาะ และขณะนี้บรรณาธิการแบบ WYSIWYG มักจะบันทึกเอกสารในรูปแบบตาม ภาษามาร์กอัป

ΤΕ Χ

มาตรฐานการเผยแพร่ที่สำคัญอีกประการหนึ่งคือ ΤΕ Χ ซึ่งสร้างและปรับปรุงในเวลาต่อมาโดย Donald Knuth ในช่วงทศวรรษที่ 70 และ 80 ของศตวรรษที่ 20 ΤΕ Χ รวบรวมความสามารถในการจัดรูปแบบข้อความและคำอธิบายแบบอักษรคุณภาพสูง โดยเฉพาะอย่างยิ่งสำหรับหนังสือคณิตศาสตร์คุณภาพระดับมืออาชีพ ปัจจุบัน ΤΕ Χ เป็นมาตรฐานโดยพฤตินัยในสาขาวิชาวิทยาศาสตร์หลายสาขา นอกจากเทคโนโลยีแล้ว ยังมี LaTeX ซึ่งเป็นระบบมาร์กอัปเชิงพรรณนาที่ใช้กันอย่างแพร่หลายโดยอิงจาก ΤΕΧ

อาลักษณ์, GML และ SGML

ในช่วงต้นทศวรรษ 1980 แนวคิดที่ว่ามาร์กอัปควรมุ่งเน้นไปที่ลักษณะโครงสร้างของเอกสารและปล่อยให้การตีความเอกสารภายนอกเป็นหน้าที่ของล่าม ซึ่งนำไปสู่การสร้าง SGML ภาษาได้รับการพัฒนาโดยคณะกรรมการที่นำโดย Goldfarb เขาผสมผสานแนวคิดจากหลายแหล่ง รวมถึงโครงการ Tunnikoflick, GenCode Sharon Adler, Anders Berglund และ James A. Marke เป็นสมาชิกคนสำคัญของคณะกรรมการ SGML เช่นกัน

SGML กำหนดไวยากรณ์อย่างชัดเจนสำหรับการรวมมาร์กอัปในข้อความ และยังอธิบายโดยเฉพาะว่าแท็กใดที่ได้รับอนุญาตและตำแหน่ง (DTD - คำจำกัดความประเภทเอกสาร) สิ่งนี้ทำให้ผู้เขียนสามารถสร้างและใช้มาร์กอัปใดๆ ที่พวกเขาต้องการ โดยเลือกแท็กที่จะใช้และตั้งชื่อเป็นภาษาปกติ ดังนั้น SGML จึงควรได้รับการพิจารณาว่าเป็นภาษาโลหะ ภาษามาร์กอัปพิเศษหลายภาษาได้พัฒนามาจากมัน ช่วงปลายทศวรรษ 1980 มีภาษามาร์กอัปใหม่เพิ่มขึ้นโดยใช้ SGML เช่น TEI และ DocBook

ในปี พ.ศ. 2529 SGML ได้รับการเผยแพร่เป็นมาตรฐานสากลโดย ISO หมายเลข 8879 SGML ได้รับการยอมรับอย่างกว้างขวางและมีการใช้กันอย่างแพร่หลายในโครงการขนาดใหญ่มาก อย่างไรก็ตาม โดยทั่วไปพบว่ามีความยุ่งยากและเรียนรู้ได้ยาก โดยผลข้างเคียงของภาษาคือการพยายามทำมากเกินไปและยืดหยุ่นเกินไป ตัวอย่างเช่น SGML ได้สร้างแท็กปิดที่ไม่จำเป็นเสมอไป (หรือแท็กเปิด หรือแม้แต่ทั้งสองอย่าง) เนื่องจากเชื่อว่ามาร์กอัปนี้จะถูกเพิ่มด้วยตนเองโดยเจ้าหน้าที่ฝ่ายสนับสนุนโครงการ ซึ่งยินดีกับการประหยัดค่ากดแป้นพิมพ์

HTML

ภายในปี 1991 การใช้ SGML ถูกจำกัดอยู่เพียงโปรแกรมธุรกิจและฐานข้อมูล และเครื่องมือ WYSIWYG (ซึ่งจัดเก็บเอกสารในรูปแบบไบนารีที่เป็นกรรมสิทธิ์) ถูกนำมาใช้สำหรับโปรแกรมประมวลผลเอกสารอื่นๆ สถานการณ์เปลี่ยนไปเมื่อ Sir Tim Berners-Lee ได้เรียนรู้เกี่ยวกับ SGML จาก Anders Bergland เพื่อนร่วมงานของเขา แอนเดอร์ส เบิร์กลันด์) และผู้ร่วมงานคนอื่นๆ ที่ CERN ใช้ไวยากรณ์ SGML เพื่อสร้าง HTML ภาษามีความคล้ายคลึงกับภาษามาร์กอัปที่ใช้ไวยากรณ์ SGML อื่นๆ แต่เริ่มต้นได้ง่ายกว่ามาก แม้แต่สำหรับนักพัฒนาที่ไม่เคยทำมาก่อนก็ตาม Steven DeRose แย้งว่า HTML ที่ใช้มาร์กอัปเชิงอธิบาย (และโดยเฉพาะ SGML) เป็นปัจจัยสำคัญในการพัฒนาเว็บเนื่องจากได้รับการออกแบบให้มีความยืดหยุ่นและความสามารถในการขยายได้ (เช่นเดียวกับปัจจัยอื่น ๆ รวมถึงแนวคิดของ URL และการใช้งานฟรีโดยเบราว์เซอร์) . ปัจจุบัน HTML เป็นภาษามาร์กอัปที่น่าดึงดูดและใช้กันมากที่สุดในโลก

อย่างไรก็ตาม สถานะของ HTML ในฐานะภาษามาร์กอัปถูกโต้แย้งโดยนักวิทยาศาสตร์คอมพิวเตอร์บางคน ข้อโต้แย้งหลักของพวกเขาคือ HTML จำกัดตำแหน่งของแท็ก โดยกำหนดให้ทั้งสองแท็กซ้อนกันภายในแท็กอื่นหรือภายในแท็กหลักของเอกสาร ด้วยเหตุนี้ นักวิชาการเหล่านี้จึงถือว่า HTML เป็นภาษาคอนเทนเนอร์ที่เป็นไปตามโมเดลแบบลำดับชั้น

XML

XML (Extensible Markup Language) เป็นภาษาเมตามาร์กอัปที่ใช้กันอย่างแพร่หลายในปัจจุบัน XML ได้รับการพัฒนาโดย World Wide Web Consortium ในคณะกรรมการที่นำโดย Jon Bosak วัตถุประสงค์หลักของ XML คือเพื่อให้ง่ายกว่า SGML และมุ่งเน้นไปที่ปัญหาเฉพาะ - เอกสารบนอินเทอร์เน็ต XML เป็นภาษาเมตาเช่น SGML ผู้ใช้สามารถสร้างแท็กใดๆ ที่พวกเขาต้องการได้ (ดังนั้นจึง "ขยายได้") การเพิ่มขึ้นของ XML ได้รับการช่วยเหลือเนื่องจากเอกสาร XML ทุกฉบับสามารถเขียนได้ในลักษณะเดียวกับเอกสาร SGML และโปรแกรมและผู้ใช้ที่ใช้ SGML สามารถโยกย้ายไปยัง XML ได้อย่างง่ายดาย

อย่างไรก็ตาม XML สูญเสียคุณลักษณะที่มุ่งเน้นมนุษย์จำนวนมากของ SGML ซึ่งทำให้ใช้งานง่ายขึ้น (จนกว่าจะขยายจำนวนมาร์กอัปและกลับมาสามารถอ่านและแก้ไขได้ในระดับเดียวกัน) การปรับปรุงอื่นๆ ได้แก้ไขปัญหา SGML บางอย่างในระดับสากล และทำให้สามารถแยกวิเคราะห์เอกสารตามลำดับชั้นได้ แม้ว่าจะไม่มี DTD ก็ตาม

XML ได้รับการออกแบบมาเพื่อสภาพแวดล้อมแบบกึ่งโครงสร้างเป็นหลัก เช่น เอกสารและสิ่งพิมพ์ อย่างไรก็ตาม มันเป็นสื่อกลางที่น่าพึงพอใจระหว่างความยืดหยุ่นและความเรียบง่าย และผู้ใช้จำนวนมากก็นำไปใช้อย่างรวดเร็ว ขณะนี้ XML ถูกนำมาใช้กันอย่างแพร่หลายในการถ่ายโอนข้อมูลระหว่างโปรแกรม เช่นเดียวกับ HTML มันสามารถกำหนดลักษณะเป็นภาษา "คอนเทนเนอร์" ได้

XHTML

เริ่มตั้งแต่เดือนมกราคม พ.ศ. 2543 คำแนะนำ W3C ทั้งหมดอิงตาม XML แทนที่จะเป็น SGML และเสนอตัวย่อ XHTML (Extensible HyperText Markup Languge) ข้อกำหนดด้านภาษากำหนดให้เอกสาร XHTML ต้องได้รับการจัดรูปแบบเป็นเอกสาร XML ซึ่งช่วยให้สามารถใช้ XHTML สำหรับเอกสารที่ชัดเจนและแม่นยำยิ่งขึ้นโดยใช้แท็กจาก HTML

ความแตกต่างที่น่าสังเกตที่สุดประการหนึ่งระหว่าง HTML และ XHTML คือกฎที่ต้องปิดแท็กทั้งหมด แท็กว่าง เช่น จะต้องปิดทั้งคู่ด้วยแท็กปิดมาตรฐานหรือรายการพิเศษ: (ช่องว่างก่อน "/" ใน แท็กปิดเป็นทางเลือก แต่มักใช้เนื่องจากเบราว์เซอร์ก่อน XML และตัวแยกวิเคราะห์ SGML บางตัวใช้แท็กปิดนี้) คุณลักษณะอื่นๆ ในแท็กจะต้องอยู่ในเครื่องหมายคำพูด สุดท้ายนี้ ชื่อแท็กและแอตทริบิวต์ทั้งหมดจะต้องเขียนด้วยตัวพิมพ์เล็กเพื่อให้อ่านได้อย่างถูกต้อง HTML ไม่คำนึงถึงขนาดตัวพิมพ์

การพัฒนาอื่น ๆ ที่ใช้ XML

ขณะนี้มีการใช้งานการพัฒนาที่ใช้ XML จำนวนมาก เช่น RDF (Resource Description Framework), XFORMS, DocBook, SOAP และ OWL (Ontology Web Language)

ลักษณะเฉพาะ

คุณลักษณะทั่วไปของภาษามาร์กอัปทั้งหมดคือผสมข้อความในเอกสารกับคำแนะนำมาร์กอัปในสตรีมข้อมูลหรือไฟล์ สิ่งนี้ไม่จำเป็น เนื่องจากสามารถแยกมาร์กอัปออกจากข้อความได้โดยใช้พอยน์เตอร์ ป้ายกำกับ ตัวระบุ หรือเทคนิคการประสานงานอื่นๆ “มาร์กอัปแยก” นี้เป็นเรื่องปกติสำหรับการเป็นตัวแทนภายในของโปรแกรมที่ทำงานกับเอกสารมาร์กอัป อย่างไรก็ตาม มาร์กอัปแบบฝังหรือ "อินไลน์" จะได้รับการยอมรับมากกว่าในที่อื่น ตัวอย่างเช่น นี่คือส่วนเล็กๆ ของข้อความที่มาร์กอัปโดยใช้ HTML:

อนาทิดี

ครอบครัว อนาทิดีรวมถึงเป็ด ห่าน และหงส์ แต่ไม่ใช่เสียงกรีดร้องที่เกี่ยวข้องกันอย่างใกล้ชิด

รหัสคำสั่งมาร์กอัป (เรียกว่าแท็ก) อยู่ในวงเล็บมุม ข้อความระหว่างคำแนะนำเหล่านี้คือข้อความของเอกสาร รหัส h1, พีและ em- ตัวอย่างของมาร์กอัปโครงสร้าง อธิบายตำแหน่ง วัตถุประสงค์ หรือความหมายของข้อความที่รวมอยู่ในนั้น

แม่นยำยิ่งขึ้น h1หมายถึง "นี่คือหัวข้อระดับแรก" พีหมายถึง "นี่คือย่อหน้า" และ emหมายถึง "นี่คือคำหรือวลีที่ขีดเส้นใต้" โปรแกรมการตีความสามารถใช้กฎหรือสไตล์เหล่านี้เพื่อแสดงส่วนต่างๆ ของข้อความ โดยใช้แบบอักษร ขนาดแบบอักษร ระยะห่าง สี หรือสไตล์อื่นๆ ที่แตกต่างกันตามต้องการ ตัวอย่างเช่น แท็ก เช่น h1 อาจแสดงด้วยแบบอักษรตัวพิมพ์ขนาดใหญ่ตัวหนา หรือในเอกสารที่มีข้อความแบบเว้นวรรค (เช่น บนเครื่องพิมพ์ดีด) อาจถูกขีดเส้นใต้ หรืออาจไม่เปลี่ยนรูปลักษณ์เลย

เพื่อความคมชัด ให้แท็ก ฉันใน HTML - ตัวอย่างของมาร์กอัปแบบภาพ โดยปกติจะใช้เพื่อระบุคุณลักษณะเฉพาะของข้อความ (ใช้แบบอักษรตัวเอียงในบล็อกนี้) โดยไม่ต้องอธิบายเหตุผล

TEI (Tex Encoding Initiative) ได้เผยแพร่เอกสารคำแนะนำที่ครอบคลุมเพื่อเป็นแนวทางในการเข้ารหัสข้อความเพื่อประโยชน์ของมนุษยชาติและสังคมวิทยาศาสตร์ คู่มือเหล่านี้ใช้ในการเข้ารหัสเอกสารทางประวัติศาสตร์ งานเฉพาะของนักวิทยาศาสตร์ วารสาร และอื่นๆ

การใช้งานทางเลือก

แม้ว่าแนวคิดในการใช้ภาษามาร์กอัปกับเอกสารข้อความจะได้รับการพัฒนา แต่ก็มีการใช้ภาษามาร์กอัปในด้านอื่น ๆ เพิ่มขึ้น โดยแนะนำว่าสามารถใช้เพื่อแสดงข้อมูลประเภทต่าง ๆ รวมถึงเพลย์ลิสต์ กราฟิกแบบเวกเตอร์ เว็บ บริการ และอินเทอร์เฟซผู้ใช้ แอปพลิเคชันเหล่านี้ส่วนใหญ่ใช้ XML เนื่องจากเป็นภาษาที่มีโครงสร้างที่ดีและสามารถขยายได้

คู่มือนักแปลด้านเทคนิค

ภาษามาร์กอัป - 06/23/33 ภาษามาร์กอัป: ภาษาที่ประกอบด้วยคำสั่งในตัวที่ให้การสนับสนุนการมาร์กอัปข้อความระหว่างการประมวลผล

ในปี พ.ศ. 2512 นักวิจัยของ IBM สามคนได้พัฒนา GML ซึ่งเป็นภาษาการจัดรูปแบบสำหรับการเผยแพร่เอกสาร GML ไม่ได้เป็นเพียงตัวย่อของภาษามาร์กอัปทั่วไปเท่านั้น แต่ยังเป็นชื่อย่อของผู้สร้างด้วย - Charles Goldfarb, Edward Mosher และ Raymond Laurier

GML รองรับการแก้ไขข้อความและการจัดรูปแบบ และอนุญาตให้ระบบย่อยการแยกข้อมูลแลกเปลี่ยนเอกสารได้ ในเวลาเดียวกัน แทนที่จะเป็นรูปแบบมาร์กอัปธรรมดา GML แนะนำแนวคิดของประเภทเอกสารที่กำหนดอย่างเป็นทางการซึ่งมีลำดับชั้นที่เข้มงวดขององค์ประกอบที่มีโครงสร้าง

ส่วนประกอบหลักของ GML ได้รับการนำไปใช้ในระบบการเผยแพร่เมนเฟรม และภาษาดังกล่าวก็ได้รับความนิยมอย่างกว้างขวางในอุตสาหกรรม IBM ใช้ GML และเอกสารของบริษัทมากกว่า 90% ถูกสร้างขึ้นด้วยความช่วยเหลือ

ด้วยการขยาย GML ด้วยแนวคิดต่างๆ เช่น เชิงอรรถ การจัดการลิงก์ และประเภทเอกสารแบบขนาน ภาษามาร์กอัปมาตรฐานทั่วไปจึงถูกสร้างขึ้น SGML เริ่มถูกนำมาใช้อย่างแข็งขันในธุรกิจการพิมพ์ นอกจากนี้ยังได้รับการรับรองให้ใช้งานโดยสำนักพิมพ์ของรัฐบาลสหรัฐฯ และในปี 1986 ก็ได้รับสถานะเป็นมาตรฐานสากล

อย่างไรก็ตาม SGML ยังไม่ค่อยมีใครรู้จักจนกระทั่งปี 1990 เมื่อ Tim Berners-Lee ผู้สร้างเวิลด์ไวด์เว็บ ได้สร้าง Hypertext Markup Language ซึ่งเป็นส่วนย่อยของ SGML หลังจากนั้นไม่นาน เอกสารและข้อมูลทุกประเภทก็เริ่มมีแท็กในรูปแบบและที่จุดเริ่มต้นและจุดสิ้นสุดของแต่ละองค์ประกอบข้อความ ในช่วงปลายทศวรรษ 1990 Extensible Markup Language (XML) ถือกำเนิดขึ้น... และจักรวาลไอทีก็เปลี่ยนแปลงไปอย่างถาวร

ที่จริงแล้ว ดูเหมือนว่าจะไม่มีวันผ่านไปโดยไม่มีข่าวเกี่ยวกับการสร้างหรือคำอธิบายของภาษามาร์กอัปใหม่ แท้จริงแล้ว Computerworld ได้ตีพิมพ์บทความ 10 บทความในส่วน Quick Study ที่อธิบายภาษามาร์กอัปต่างๆ แล้วจึงมีเพียงบทความพื้นฐานที่สุดเท่านั้น การค้นหาภาษามาร์กอัปของ Google ทำให้มีลิงก์ไปยังหน้ามากกว่า 6 ล้านหน้า ด้านล่างนี้คือ "คำแนะนำ" สั้นๆ เกี่ยวกับ "พื้นที่ภาษามาร์กอัป" สมัยใหม่ แน่นอนว่าไม่ได้หมายถึงให้ครอบคลุม แต่จะให้แนวคิดเกี่ยวกับความยืดหยุ่นและความสามารถของแนวคิดและวิธีการใช้งาน ภาษาเหล่านี้ส่วนใหญ่เป็นส่วนขยายของ XML หรือคำจำกัดความประเภทเอกสารเฉพาะโดเมน แม้ว่าบางภาษาจะค่อนข้างซับซ้อนก็ตาม

ภาษา
  • Business Process Execution Language (BPEL) ได้รับการออกแบบมาเพื่อทำธุรกรรมบนเว็บและ/หรืออธิบายอินเทอร์เฟซที่จำเป็นในการทำธุรกรรมบนเว็บ ใช้เพื่อสร้างแบบจำลองกระบวนการทางธุรกิจโดยใช้ข้อกำหนดธุรกรรมและค่าตอบแทน โฟลว์ข้อมูล ข้อความและเหตุการณ์ที่กำหนดเวลาไว้ กฎทางธุรกิจ บทบาทความปลอดภัย และการจัดการข้อยกเว้น
  • Cell Markup Language (CellML) จัดเก็บและแลกเปลี่ยนแบบจำลองทางคณิตศาสตร์ของคอมพิวเตอร์ ช่วยให้นักวิทยาศาสตร์สามารถแบ่งปันแบบจำลองได้ แม้ว่าพวกเขาจะใช้ซอฟต์แวร์ที่แตกต่างกันในการสร้างแบบจำลองก็ตาม ภาษายังช่วยให้พวกเขานำส่วนประกอบกลับมาใช้ใหม่ในโมเดลหนึ่งในขณะที่พัฒนาอีกโมเดลหนึ่งได้ ซึ่งจะช่วยเร่งกระบวนการให้เร็วขึ้น CellML ประกอบด้วยข้อมูลทางคณิตศาสตร์และข้อมูลเมตาโดยใช้ภาษาที่มีอยู่ รวมถึง MathML www.cellml.org
  • ภาษามาร์กอัปเคมี (CML) เป็นแนวทางใหม่ในการจัดการข้อมูลระดับโมเลกุลที่ใช้เครื่องมืออินเทอร์เน็ตที่พัฒนาขึ้นใหม่ เช่น XML และ Java ภาษานี้สร้างขึ้นบนพื้นฐานของ SGML อย่างเคร่งครัด โดยสามารถรองรับโครงสร้างข้อมูลที่ซับซ้อนอย่างยิ่ง และด้วยเหตุนี้จึงทำหน้าที่เป็นกลไกการแลกเปลี่ยนหรือเครื่องมือในการเก็บข้อมูล สามารถเชื่อมต่อกับสถาปัตยกรรมฐานข้อมูลสมัยใหม่ได้อย่างง่ายดาย โดยเฉพาะเชิงสัมพันธ์หรือเชิงวัตถุ สิ่งสำคัญที่สุดคือ มีการสร้างซอฟต์แวร์ XML อเนกประสงค์จำนวนมหาศาลเพื่อประมวลผลและแปลงไฟล์แล้ว www.xml-cml.org
  • DARPA Agent Markup Language (XML) มีความสามารถจำกัดในการอธิบายความสัมพันธ์ระหว่างอ็อบเจ็กต์ DAML ขยาย XML ผ่านการใช้ออนโทโลจี ซึ่งเป็นข้อกำหนดอย่างเป็นทางการที่มีการกำหนดไว้อย่างดี ซึ่งอธิบายวิธีนำเสนอออบเจ็กต์ แนวคิด และองค์ประกอบอื่นๆ ในโดเมนเฉพาะ ตลอดจนความสัมพันธ์ระหว่างสิ่งเหล่านั้น www.daml.org/about.html
  • Dynamic Markup Language (DML) เป็นภาษา XML ที่ออกแบบมาโดยเฉพาะสำหรับโครงสร้างกราฟิกตามวัตถุและการพัฒนาส่วนต่อประสานกับผู้ใช้ เช่นเดียวกับ HTML ภาษานี้มีส่วนขยายที่รองรับการคำนวณ การส่งผ่านอาร์กิวเมนต์ และการจัดเก็บตัวแปร www.rocklyte.com/dml
  • Directory Services Markup Language (DSML) กำหนดเนื้อหาและโครงสร้างไดเร็กทอรี และสนับสนุนข้ามไดเร็กทอรีแบบกระจาย DSML ช่วยให้นักพัฒนามีวิธีที่ง่ายและสะดวกในการใช้งานแอปพลิเคชัน XML บนอินเทอร์เน็ต การสนับสนุนนี้มีความสำคัญอย่างยิ่งต่อแอปพลิเคชันอีคอมเมิร์ซ
  • Financial Products Markup Language (FPML) เป็นมาตรฐานสำหรับการแลกเปลี่ยนข้อมูลทางธุรกิจในการซื้อขายทางอิเล็กทรอนิกส์และการประมวลผลอนุพันธ์ กำหนดโปรโตคอลสำหรับการแลกเปลี่ยนข้อมูลและการทำงานกับผลิตภัณฑ์ที่ได้รับและมีโครงสร้าง www.fpml.org/index.html
  • Hypertext Markup Language (HTML) ซึ่งเป็นพื้นฐานของเว็บ อิงตามเวอร์ชันของ GML ที่เคยใช้ที่ CERN ก่อนหน้านี้ ข้อได้เปรียบหลักคือเป็นครั้งแรกที่อนุญาตให้สร้างลิงก์ไฮเปอร์เท็กซ์แบบง่ายระหว่างเอกสาร www.w3.org/MarkUp
  • Human Markup Language (HML) เป็นโครงการที่สร้างแพลตฟอร์มสำหรับการสร้างแบบจำลองกระบวนการทั้งหมดของการสื่อสารของมนุษย์ รวมถึงพื้นที่ต่างๆ เช่น การคิด อารมณ์ พฤติกรรม การแสดงออกทางสีหน้า การใช้การแสดงภาพกราฟิกหรือข้อความ www.humanmarkup.org
  • ภาษามาร์กอัปวัสดุ (MatML) ได้รับการพัฒนาเพื่อแลกเปลี่ยนข้อมูลเกี่ยวกับสารต่างๆ www.matml.org
  • ภาษามาร์กอัปการเรียกข้อมูลมัลติมีเดีย (MRML) รวมการเข้าถึงส่วนประกอบซอฟต์แวร์ที่ใช้ในการดึงและจัดการข้อมูลมัลติมีเดียเพื่อเพิ่มขีดความสามารถ www.mrml.net
  • Physical Markup Language (PML) เป็นภาษาที่เรียบง่ายและมีวัตถุประสงค์ทั่วไปสำหรับการอธิบายวัตถุทางกายภาพและสภาพแวดล้อมสำหรับการใช้งานทางอุตสาหกรรม เชิงพาณิชย์ และผู้บริโภค PML เป็นแบบแยกส่วนและยืดหยุ่นมากจนสามารถใช้ตรวจสอบและควบคุมสภาพแวดล้อมทางกายภาพได้ แอปพลิเคชันประกอบด้วยการตรวจสอบคลังสินค้า ธุรกรรมอัตโนมัติ การจัดการห่วงโซ่อุปทาน การควบคุมเครื่องจักร และการสื่อสารระหว่างสถานที่ http://web.mit.edu/mecheng/pml/index.htm
  • Security Assertion Markup Language (SAML) คือ Wrapper ที่ใช้ XML ซึ่งใช้เพื่อถ่ายทอดข้อมูลเกี่ยวกับการตรวจสอบสิทธิ์ สิทธิ์ และคุณลักษณะของผู้ใช้ ช่วยให้บริษัทสามารถสื่อสารข้อมูลเกี่ยวกับตัวตน คุณลักษณะ และสิทธิ์ของเอนทิตี (โดยปกติคือมนุษย์) ไปยังเอนทิตีอื่น เช่น บริษัทคู่ค้าหรือแอปพลิเคชันระดับองค์กรอื่น www.oasis-open.org/committees/security/faq.php
  • Services Provisioning Markup Language (SPM) เป็นเฟรมเวิร์กที่ช่วยให้แอปพลิเคชันและองค์กรสามารถแลกเปลี่ยนข้อมูลเกี่ยวกับผู้ใช้ ทรัพยากร และการให้บริการได้
  • ภาษามาร์กอัปการสังเคราะห์เสียงพูด (SSML) ช่วยสร้างคำพูดเทียมในซอฟต์แวร์เว็บและแอปพลิเคชันอื่นๆ โดยจัดให้มีวิธีมาตรฐานในการควบคุมลักษณะคำพูด เช่น การออกเสียง ความแรง ระดับเสียง และอัตราการพูดบนหลายแพลตฟอร์ม www.w3.org/TR/speech-synthetic
  • User Interface Markup Language (UIML) ช่วยให้คุณสร้างอินเทอร์เฟซผู้ใช้สำหรับอุปกรณ์ ภาษา และระบบปฏิบัติการใดๆ บนอุปกรณ์ได้ โดยจะอธิบายลักษณะที่ปรากฏของอินเทอร์เฟซ วิธีที่ผู้ใช้โต้ตอบกับอินเทอร์เฟซ และวิธีที่อินเทอร์เฟซเกี่ยวข้องกับตรรกะของแอปพลิเคชัน www.uiml.org
  • ภาษามาร์กอัปที่ขยายเสียงได้ (VoiceXML) แอปพลิเคชันที่ขับเคลื่อนด้วยเสียงกำลังได้รับความนิยมเพิ่มมากขึ้น และ VoiceXML อธิบายความสามารถทั่วไปเพื่อให้แน่ใจว่าสามารถพกพาข้ามแพลตฟอร์มได้ www.voicexml.org/
  • Wireless Markup Language (WML) อธิบายเนื้อหาและรูปแบบสำหรับการแสดงข้อมูลบนอุปกรณ์ที่มีแบนด์วิธจำกัด เช่น โทรศัพท์มือถือและเพจเจอร์ แทนที่จะพยายามถ่ายทอดเนื้อหาทั้งหมดของเว็บเพจที่สามารถเห็นได้บนพีซี WML นำเสนอข้อมูลที่เป็นข้อความส่วนใหญ่ซึ่งปรับให้เหมาะสมสำหรับอุปกรณ์มือถือ
  • Extensible Access Control Markup Language (XACML) เป็นรูปแบบ XML ที่ออกแบบมาเพื่อสร้างกฎและทำให้การใช้งานอัตโนมัติเพื่อควบคุมการเข้าถึงอุปกรณ์และแอปพลิเคชันต่างๆ บนเครือข่าย
  • Extensible Markup Language (XML) รวมความสามารถในการปรับขนาดของ SGML เข้ากับการรองรับ HTML ที่เรียบง่ายและกว้างขวาง โดยพื้นฐานแล้วเป็นส่วนย่อยของ SGML ง่ายต่อการนำไปใช้และรองรับคุณสมบัติส่วนใหญ่ของ SGML XML ได้รับการอนุมัติเป็นมาตรฐานโดย World Wide Web Consortium ในปี 1998
ML ไม่ได้หมายถึง "ภาษามาร์กอัป"

ไม่ใช่ทุกภาษาหรือตัวย่อที่ลงท้ายด้วย ML จะเป็นภาษามาร์กอัป ต่อไปนี้เป็นข้อยกเว้นที่น่าสังเกตมากที่สุด

เดิมทีสัญลักษณ์ ML ถูกใช้เป็นคำย่อของคำว่า "ภาษาเมตา" ซึ่งก็คือภาษาโปรแกรมทั่วไปสำหรับโครงการขนาดใหญ่ ปัจจุบันมีภาษาถิ่นหลักสองภาษาที่ใช้อยู่ นี่คือ Standard ML (SML; ดู www.dcs.ed.ac.uk/home/stg/หมายเหตุ) ซึ่งเป็นเวอร์ชันที่กำหนดทางคณิตศาสตร์ของภาษาซึ่งจัดทำขึ้นบางส่วนโดยนักพัฒนาภาษาต้นฉบับ และ Objective Caml (OCaml; ดู http://caml.inria.fr/) ซึ่งเป็นเวอร์ชันที่ได้รับมาจาก ML ดั้งเดิม ซึ่งมีการเพิ่มความสามารถตามดุลยพินิจของนักพัฒนา โดยไม่ต้องกำหนดไว้ในมาตรฐาน ภาษาถิ่นที่โดดเด่นอื่นๆ ได้แก่ Extended ML (EML; ดู http://homepages.inf.ed.ac.uk/dts/eml) และอลิซ เอ็มแอล ( www.ps.uni-sb.de/alice).

ML และตัวแปรต่างๆ เป็นภาษาที่ใช้งานได้และไม่รองรับการเขียนหน่วยความจำใดๆ เป็นการยากที่จะเขียนโปรแกรม แต่โปรแกรมที่สร้างขึ้นด้วยสิ่งเหล่านี้เหมาะกว่ามากสำหรับการวิเคราะห์อย่างเป็นทางการและการพิสูจน์ความถูกต้อง

  • Unified Modeling Language (UML) เป็นเครื่องหมายมาตรฐานสำหรับการสร้างแบบจำลองวัตถุในโลกแห่งความเป็นจริง ซึ่งเป็นส่วนหนึ่งของการพัฒนาวิธีการออกแบบเชิงวัตถุ UML ใช้เพื่อสร้างแบบจำลองโครงสร้างแอปพลิเคชัน พฤติกรรม และสถาปัตยกรรม ตลอดจนกระบวนการทางธุรกิจและโครงสร้างข้อมูล ภาษานี้ได้รับการสนับสนุนจากผู้ผลิตระบบการออกแบบที่ใช้คอมพิวเตอร์ช่วยจำนวนมาก UML ถูกสร้างขึ้นตามวิธีการที่อธิบายกระบวนการในการพัฒนาและการใช้แบบจำลองด้วย www.uml.org
  • YAML ไม่ใช่ภาษามาร์กอัป (YAML) เป็นโครงการระหว่างประเทศที่อุทิศให้กับการสร้างภาษาสำหรับการเรียงลำดับข้อมูลตามลำดับ ซึ่งในอีกด้านหนึ่งมนุษย์สามารถเข้าใจได้ และในอีกด้านหนึ่งก็สนับสนุนความสามารถในการประมวลผลอย่างจริงจัง

(ภาษามาร์กอัปมาตรฐานทั่วไป) นำเสนอในมาตรฐาน ISO 8879 ภาษานี้ถูกนำมาใช้เป็นภาษาหลักในการออกแบบเอกสารทางเทคนิครวมถึงคู่มือทางเทคนิคอิเล็กทรอนิกส์เชิงโต้ตอบสำหรับผลิตภัณฑ์ที่สร้างขึ้นโดยใช้เทคโนโลยี CALS.

SGML กำหนดโครงสร้างของเอกสารเป็นลำดับของวัตถุข้อมูล ออบเจ็กต์ข้อมูลที่แสดงถึงส่วนต่างๆ ของเอกสารสามารถจัดเก็บไว้ในไฟล์ต่างๆ ได้ มาตรฐาน SGML กำหนดชุดสัญลักษณ์และกฎสำหรับการแสดงข้อมูลที่อนุญาตให้ระบบต่างๆ จดจำและระบุข้อมูลนี้ได้อย่างถูกต้อง ชุดเหล่านี้อธิบายไว้ในส่วนแยกต่างหากของเอกสารที่เรียกว่าการประกาศ DTD(Document Type Decfinition) ซึ่งส่งไปพร้อมกับเอกสาร SGML หลัก DTD ระบุความสอดคล้องของอักขระและโค้ด ความยาวสูงสุดของตัวระบุที่ใช้ วิธีแสดงตัวคั่นสำหรับแท็ก รูปแบบอื่นๆ ที่เป็นไปได้ ไวยากรณ์ DTD และประเภทและเวอร์ชันของเอกสาร ดังนั้น SGML จึงสามารถเรียกได้ว่าเป็นภาษาโลหะสำหรับตระกูลภาษามาร์กอัปเฉพาะ โดยเฉพาะอย่างยิ่งภาษามาร์กอัป XML ถือเป็นชุดย่อยของ SGMLและ HTML.

คำอธิบายทางเทคนิคในรูปแบบของเอกสาร SGML ประกอบด้วย:

  • ไฟล์หลักพร้อมคู่มือทางเทคนิค ทำเครื่องหมายด้วยแท็ก SGML
  • คำอธิบายของเอนทิตีหากเอกสารเป็นของกลุ่มที่ใช้หน่วยงานเดียวกันและมีชื่อเสียงโดยนัย
  • พจนานุกรมเพื่ออธิบายแท็ก SGML

อย่างไรก็ตาม SGML นั้นยากต่อการเรียนรู้และใช้งาน ดังนั้นเพื่อการใช้มาร์กอัปอย่างแพร่หลายในเอกสารที่ส่งไปยัง WWW-เทคโนโลยี ในปี 1991 ภาษา HTML แบบง่ายได้รับการพัฒนาโดยใช้ SGML(HyperText Markup Language) และในปี 1996 ก็เป็นภาษา XML(eXtensible Markup Language) ซึ่งเมื่อใช้ร่วมกับ HTML จะกลายเป็นภาษาหลักในการนำเสนอเอกสารในการใช้งานต่างๆ

ภาษา HTML ได้รับการพัฒนาเพื่อการใช้มาร์กอัปอย่างแพร่หลายในเอกสารที่นำเสนอในเทคโนโลยี WWW

คำอธิบาย HTML ประกอบด้วยข้อความ ASCII และลำดับของคำสั่ง (รหัสควบคุม) ที่รวมอยู่ในนั้น หรือที่เรียกว่า descriptors หรือแท็ก ข้อความนี้เรียกว่าเอกสาร HTML หรือหน้า HTML หรือเมื่อโพสต์บนเว็บเซิร์ฟเวอร์หรือเว็บเพจ. แท็กถูกวางในตำแหน่งที่ถูกต้องในข้อความต้นฉบับ โดยจะกำหนดแบบอักษร ขีดกลาง ลักษณะที่ปรากฏของกราฟิก ลิงก์ ฯลฯ เมื่อใช้โปรแกรมแก้ไข WWW คำสั่งจะถูกแทรกโดยเพียงกดปุ่มที่เหมาะสม

XML เช่น HTML ถือเป็นชุดย่อยของ SGML ปัจจุบันภาษา XML อ้างว่าเป็นภาษาการนำเสนอเอกสารหลักในเทคโนโลยีสารสนเทศถือได้ว่าเป็นภาษาโลหะที่ทำหน้าที่เป็นพื้นฐานสำหรับการสร้างภาษามาร์กอัปส่วนตัวในแอปพลิเคชันต่างๆ ในเวลาเดียวกัน XML จะสะดวกกว่า SGML ซึ่งรับประกันได้โดยการขจัดคุณสมบัติย่อยบางประการของ SGML ใน XML คำอธิบายใน XML ง่ายต่อการเข้าใจและปรับใช้ในเบราว์เซอร์สมัยใหม่ในขณะที่ยังคงคุณสมบัติหลักของ SGML ไว้

สำหรับแอปพลิเคชันเฉพาะ จะมีการสร้าง XML เวอร์ชันของตัวเอง เรียกว่าพจนานุกรม XML หรือแอปพลิเคชัน XML ดังนั้น OSD แอปพลิเคชัน XML (Open Software Description) จึงได้รับการพัฒนาเพื่ออธิบายข้อความที่มีสัญลักษณ์ทางคณิตศาสตร์เฉพาะ สิ่งที่น่าสนใจสำหรับ CALS คือตัวเลือก Product Definition eXchange (PDX) สำหรับการแลกเปลี่ยนข้อมูลโดยเฉพาะ มีพจนานุกรมเคมีที่รู้จักกันดี (CML - ภาษามาร์กอัปเคมี), ชีววิทยา (BSML - ภาษามาร์กอัปลำดับชีวสารสนเทศ) ฯลฯ

เอกสารใด ๆ มีองค์ประกอบสามประการ:

  • เนื้อหา;
  • โครงสร้าง;
  • สไตล์.

โดยทั่วไปแล้ว เนื้อหาของเอกสารจะไม่แสดงตามลำดับใดๆ แต่มีโครงสร้างที่แน่นอน โครงสร้างคือองค์ประกอบและลำดับของส่วนต่างๆ (บล็อก) ของเอกสาร

รูปแบบของเอกสารจะกำหนดรูปแบบที่เนื้อหาจะแสดงบนอุปกรณ์เฉพาะ (เช่น เครื่องพิมพ์หรือจอแสดงผล) แนวคิดของสไตล์ประกอบด้วยลักษณะของแบบอักษร (ชื่อ ขนาด สี) ของเอกสารเอาต์พุตทั้งหมดหรือแต่ละบล็อก ลำดับของการแบ่งหน้า ตำแหน่งของบล็อกบนหน้า และพารามิเตอร์อื่น ๆ

ภาษามาร์กอัปเอกสารเป็นภาษาประดิษฐ์ที่ออกแบบมาเพื่ออธิบายโครงสร้างของเอกสารและความสัมพันธ์ระหว่างวัตถุต่างๆ ของโครงสร้าง ข้อมูลมาร์กอัปเรียกอีกอย่างว่าข้อมูลเมตา

ภาษามาร์กอัปแรกคือภาษา GML ผู้สืบทอดโดยตรงคือภาษา SGML ซึ่งเป็นภาษามาร์กอัปมาตรฐานทั่วไปที่กำหนดกฎสำหรับการเขียนองค์ประกอบมาร์กอัปเอกสาร

ข้อกำหนดภาษามาร์กอัปเอกสาร:

  • ภาษาจะต้องเป็นภาษาที่มนุษย์สามารถอ่านได้
  • ไฟล์เอกสารที่มาร์กอัปต้องเป็นข้อความและเข้ารหัสโดยใช้อักขระโค้ด ASCII
  • ภาษาสามารถใช้ลิงก์ไปยังทรัพยากรภายใน (ในเอกสารเดียวกัน) และทรัพยากรภายนอก (ในเอกสารอื่น)
  • SGML และภาษาที่คล้ายกันใช้เครื่องมือมาร์กอัปเอกสารพิเศษ:

    • โครงสร้างเอกสาร
    • คำอธิบายหรือองค์ประกอบและคุณลักษณะที่เกี่ยวข้อง
    • หน่วยงาน;
    • ความคิดเห็น

    เอกสาร SGML มีโครงสร้างแบบต้นไม้

    ตัวอธิบายใน SGML จะถูกวางไว้ที่จุดเริ่มต้น (ตัวอธิบายการเปิด) และจุดสิ้นสุด (ตัวอธิบายการปิด) ของแต่ละองค์ประกอบ (รายการ)

    คุณลักษณะคือโครงสร้างสัญลักษณ์แบบง่าย (รายการ) ที่เพิ่มให้กับองค์ประกอบเพื่อชี้แจงผลกระทบของตัวอธิบาย

    ภาษามาร์กอัปทั่วไป เช่น SGML อนุญาตให้ใช้แอตทริบิวต์ ซึ่งสามารถเชื่อมโยงกับค่าประเภทต่างๆ ได้ถึง 15 ประเภท ได้แก่:

    • ลิงก์ไปยังแหล่งข้อมูลภายนอกเอกสาร ซึ่งโดยปกติจะเรียกว่าเอนทิตี
    • ตัวระบุที่ไม่ซ้ำกัน (ID) ขององค์ประกอบในเอกสาร
    • ตัวชี้ ID ที่มีการอ้างอิงโยงสำหรับองค์ประกอบเหล่านั้นที่มี ID ที่ระบุไว้ในเอกสาร
    • ตัวกำหนดหรือแอตทริบิวต์ขององค์ประกอบที่กำหนดการกำหนดในเนื้อหาขององค์ประกอบ
    • ข้อมูลอักขระหรือ CDATA คืออักขระที่ถูกต้องซึ่งไม่สามารถใช้เป็นค่าแอตทริบิวต์ได้

    ความคิดเห็นช่วยให้คุณสามารถเพิ่มข้อมูลที่จะไม่ปรากฏให้เห็นหลังจากประมวลผลเอกสารแล้ว ความคิดเห็นไม่ส่งผลต่อความเร็วในการประมวลผลของเอกสาร และไม่ได้รับการพิจารณาหรือประมวลผลโดยเป็นส่วนหนึ่งของเนื้อหาของเอกสาร SGML สิ่งเหล่านี้รวมอยู่ในข้อความต้นฉบับ

    ในการตรวจสอบความสอดคล้องของเอกสารที่มีมาร์กอัปประเภทที่กำหนดจะใช้โปรแกรมพิเศษ - ตัวแยกวิเคราะห์ Parsers เป็นโปรแกรมแบบสแตนด์อโลนหรือเป็นส่วนหนึ่งของโปรแกรมประมวลผลเอกสาร SGML เมื่อต้องการเปิดใช้งาน parser เพื่อตรวจสอบความถูกต้องของเอกสาร เอกสารพิเศษที่เรียกว่านิยามชนิดเอกสารจะถูกสร้างขึ้น

    HTML เป็นแอปพลิเคชันของ SGML สำหรับใช้งานบนอินเทอร์เน็ตที่มีโครงสร้างคงที่ ชุดองค์ประกอบคงที่ (ตัวอธิบาย) และคุณลักษณะ และชุดเอนทิตีคงที่ ภาษามาร์กอัปแบบขยาย XML (ภาษามาร์กอัปแบบขยายได้) XML เป็นส่วนย่อยของ SGML และเข้ากันได้กับมันอย่างสมบูรณ์

    XML มีฟังก์ชันการทำงานมากมายที่ขาดหายไปใน HTML

    4. 3.2. เวอร์ชันและส่วนขยาย HTML และ XML

    เวอร์ชันแรกของภาษามาร์กอัปไฮเปอร์เท็กซ์ HTML (HyperText Markup Language) รวมถึงเทคโนโลยีเว็บนั้นได้รับการพัฒนาโดย Tim Berners Lee ในปี 1991 ภาษา HTML เป็นการนำกฎของภาษา SGML ไปใช้สำหรับประเภทของ เอกสารซึ่งเรียกว่าเอกสาร HTML ภาษาระบุโครงสร้างคงที่ ชุดแท็กและคุณลักษณะคงที่ และชุดเอนทิตีคงที่ โปรแกรมประมวลผลเอกสาร HTML เรียกว่าเว็บเบราว์เซอร์ ผลลัพธ์ของการประมวลผลเอกสารคือเว็บเพจที่แสดงบนหน้าจอแสดงผล

    ในปี 1994 กลุ่มสนับสนุนอินเทอร์เน็ต IETF (Internet Engineering Task Force) ได้พัฒนาข้อกำหนด HTML 2.0 ซึ่งเริ่มใช้ภาษา HTML บนอินเทอร์เน็ตอย่างแพร่หลาย ในปีเดียวกันนั้น กลุ่ม W3C (World Wide Web Corporation) ได้ถูกสร้างขึ้น โดยรวบรวมองค์กรเชิงพาณิชย์และวิชาการ นักพัฒนา และผู้ใช้ 165 แห่ง (ตั้งแต่ก่อตั้งจนถึงปัจจุบัน องค์กรนี้นำโดย T.B. Lee) ข้อกำหนด HTML เวอร์ชันล่าสุด HTML 4.01 ถูกนำมาใช้โดยสมาคมในเดือนธันวาคม พ.ศ. 2542

    • XML มีฟังก์ชันการทำงานมากมายที่ขาดหายไปใน HTML

    ข้อกำหนดภาษา XML เวอร์ชันล่าสุดคือ XML 1.1 ถูกนำมาใช้ในเดือนเมษายน พ.ศ. 2547

    จากภาษา XML นั้น W3C ได้พัฒนาการพัฒนาเพิ่มเติมของภาษา HTML ซึ่งเป็นภาษา XHTML (Extensed HTML, Extended HTML) เวอร์ชันแรกของภาษานี้คือ XHTML 1.0 ถูกนำมาใช้ในเดือนมกราคม พ.ศ. 2543 จริงๆ แล้วเวอร์ชันนี้เป็นการปรับปรุง HTML 4 ใหม่เป็นแอปพลิเคชันของ XML 1.0 คาดว่าการพัฒนาภาษา HTML เพิ่มเติมจะดำเนินการตามข้อกำหนด XHTML

    XHTML เวอร์ชันใหม่ XHTML 1.1 ถูกนำมาใช้โดย W3C ในเดือนพฤษภาคม พ.ศ. 2544 คำแนะนำนี้กำหนดประเภทเอกสาร XHTML ที่ใช้โมดูลใหม่ แต่ละโมดูล XHTML 1.1 มีองค์ประกอบภาษา HTML และ/หรือแอตทริบิวต์ตั้งแต่หนึ่งรายการขึ้นไป

    ตามข้อกำหนด เอกสาร XHTML 1.1 ประกอบด้วยกลุ่มของโมดูล XHTML ต่อไปนี้:

    โมดูลหลักคือโมดูลที่จำเป็นต้องมีอยู่ในประเภทเอกสารใดๆ ที่สอดคล้องกับข้อกำหนด XHTML (กลุ่มนี้ประกอบด้วยโมดูลโครงสร้าง ข้อความ ไฮเปอร์เท็กซ์ และรายการ)

    โมดูล Applet ที่มีองค์ประกอบเดียว< applet >(องค์ประกอบนี้เลิกใช้แล้ว และขอแนะนำให้ใช้องค์ประกอบแทน< object > ).

    โมดูลส่วนขยายข้อความ ซึ่งมีการกำหนดโมดูลมาร์กอัปข้อความเพิ่มเติมต่างๆ (กลุ่มนี้ประกอบด้วยโมดูลการนำเสนอ แก้ไข และข้อความสองทิศทาง)

    โมดูลแบบฟอร์ม (กลุ่มนี้ประกอบด้วยโมดูลแบบฟอร์มพื้นฐานและแบบฟอร์ม)

    โมดูลตาราง (กลุ่มนี้ประกอบด้วยโมดูลตารางพื้นฐานและตาราง)

    โมดูลรูปภาพ ซึ่งมีความสามารถในการฝังรูปภาพขั้นพื้นฐาน (โมดูลนี้ยังสามารถใช้งานได้อย่างอิสระในการใช้งานบางอย่างด้วยการ์ดรูปภาพไคลเอนต์)

    โมดูลแผนผังรูปภาพฝั่งไคลเอ็นต์ ซึ่งมีองค์ประกอบสำหรับแผนผังรูปภาพฝั่งไคลเอ็นต์ (ต้องเปิดใช้งานโมดูลรูปภาพเพื่อให้โมดูลนี้ทำงานได้)

    โมดูล Object ซึ่งให้การสนับสนุนสำหรับการรวมวัตถุวัตถุประสงค์ทั่วไป

    โมดูล Frames ซึ่งมีองค์ประกอบที่เกี่ยวข้องกับเฟรม

    URL (องค์ประกอบนี้จะคำนวณ URL ของเอกสารที่เกี่ยวข้อง)

    โมดูลการระบุชื่อที่ใช้ในการระบุองค์ประกอบเฉพาะในเอกสาร HTML

    โมดูลดั้งเดิม ซึ่งกำหนดองค์ประกอบและคุณลักษณะที่ไม่แนะนำใน HTML และ XHTML เวอร์ชันก่อนหน้าอีกต่อไป และไม่แนะนำอีกต่อไป

    4. 3 .3. ประเภทของโครงสร้าง HTML และ XHTML

    ตามข้อกำหนด HTML 4.01 มีการกำหนดโครงสร้างสามโครงสร้างสำหรับเอกสาร HTML อธิบายโดย DTD สามตัว นักพัฒนาเว็บเพจจะต้องมีการประกาศประเภทใดประเภทหนึ่งจากสามประเภทในเอกสารของตน ความแตกต่างระหว่าง DTD อยู่ที่องค์ประกอบที่รองรับ คำประกาศ DTD ควรวางไว้ที่จุดเริ่มต้นของเอกสาร

    HTML 4.01 Strict DTD มีองค์ประกอบและคุณลักษณะทั้งหมดที่ไม่เลิกใช้และไม่ได้ใช้ในเอกสารที่มีเฟรม

    HTML 4.0 Transitional DTD มีองค์ประกอบทั้งหมดที่รวมอยู่ใน DTD ที่เข้มงวด รวมถึงองค์ประกอบและแอตทริบิวต์ที่เลิกใช้งานแล้ว

    HTML 4.0 Frameset DTD มีเฟรมเพิ่มเติมจากการเปลี่ยนองค์ประกอบ DTD

    บรรทัดแรกของเอกสาร HTML ที่กำหนดตามข้อกำหนด XHTML

    สตริงนี้ระบุเวอร์ชันของ XML ที่ใช้และการเข้ารหัสอักขระของเอกสาร การเข้ารหัสอักขระใน XML ใช้ Unicode แบบไบต์คู่ ค่าพารามิเตอร์การเข้ารหัสที่ใช้กันมากที่สุดคือ UTF -8 ซึ่งค่าของอักขระ 128 ตัวแรกจะแสดงเป็นการเข้ารหัสแบบไบต์เดียว อักขระของภาษาที่พบบ่อยที่สุด (รวมถึงรัสเซียและยูเครน) คือ แสดงเป็นสองไบต์ และอักขระที่เหลือแสดงเป็นสามไบต์ ในการเข้ารหัส UTF-16 อักขระทั้งหมดจะแสดงเป็น 2 ไบต์ (แนะนำให้ใช้การเข้ารหัสนี้สำหรับเอกสาร HTML ของรัสเซียและยูเครน)

    ภาษามาร์กอัป) คือชุดคำสั่งพิเศษที่เรียกว่าแท็ก ซึ่งออกแบบมาเพื่อสร้างโครงสร้างในเอกสารและกำหนดความสัมพันธ์ระหว่างองค์ประกอบต่างๆ ของโครงสร้างนี้ กล่าวอีกนัยหนึ่งมาร์กอัปแสดงว่าส่วนใดของเอกสารเป็นส่วนหัวซึ่งเป็นคำบรรยายสิ่งที่ควรพิจารณาชื่อผู้แต่ง ฯลฯ มาร์กอัปแบ่งออกเป็นมาร์กอัปโวหารโครงสร้างและความหมาย มาร์กอัปโวหาร

    มาร์กอัปโวหารมีหน้าที่รับผิดชอบต่อลักษณะที่ปรากฏของเอกสาร ตัวอย่างเช่น ใน HTML มาร์กอัปประเภทนี้จะมีแท็ก เช่น (ตัวเอียง), (ตัวหนา), (ขีดเส้นใต้), (ข้อความขีดทับ) ฯลฯ

    การทำเครื่องหมายโครงสร้าง

    มาร์กอัปโครงสร้างกำหนดโครงสร้างของเอกสาร ตัวอย่างเช่นใน HTML แท็ก (ย่อหน้า) (ชื่อ) (ส่วน) ฯลฯ มีหน้าที่รับผิดชอบสำหรับมาร์กอัปประเภทนี้

    มาร์กอัปความหมาย

    มาร์กอัปความหมายแจ้งเนื้อหาของข้อมูล ตัวอย่างของมาร์กอัปประเภทนี้ ได้แก่ แท็ก (ชื่อเอกสาร) (รหัสที่ใช้สำหรับรายการรหัส) (ตัวแปร) (ที่อยู่ของผู้เขียน)

    แนวคิดพื้นฐานของภาษามาร์กอัปคือ แท็ก องค์ประกอบ และคุณลักษณะ

    แท็กและองค์ประกอบ

    ความหมายของแท็กและองค์ประกอบมักสับสน

    แท็กหรือตัวอธิบายการควบคุมตามที่เรียกกัน ทำหน้าที่เป็นคำสั่งสำหรับโปรแกรมที่แสดงเนื้อหาของเอกสารทางฝั่งไคลเอ็นต์ว่าจะทำอย่างไรกับเนื้อหาของแท็ก เพื่อเน้นแท็กที่เกี่ยวข้องกับเนื้อหาหลักของเอกสาร จะใช้วงเล็บมุม: แท็กขึ้นต้นด้วยเครื่องหมายน้อยกว่า () ซึ่งภายในจะมีชื่อของคำแนะนำและพารามิเตอร์อยู่ ตัวอย่างเช่น ใน HTML แท็ก แสดงว่าข้อความต่อไปนี้ควรเป็นตัวเอียง

    องค์ประกอบคือแท็กพร้อมกับเนื้อหา โครงสร้างต่อไปนี้เป็นตัวอย่างขององค์ประกอบ:

    ข้อความนี้เป็นตัวเอียง .

    องค์ประกอบประกอบด้วยแท็กเปิด (ในตัวอย่างของเรา นี่คือแท็ก ) เนื้อหาแท็ก (ในตัวอย่างนี้คือข้อความ "นี่คือข้อความที่เป็นตัวเอียง") และแท็กปิด () แม้ว่าบางครั้งจะเป็น HTML แท็กปิดก็สามารถละเว้นได้

    คุณลักษณะ

    ในการตั้งค่าพารามิเตอร์ใด ๆ ที่ชี้แจงลักษณะขององค์ประกอบนี้เมื่อกำหนดองค์ประกอบจะใช้แอตทริบิวต์

    คุณลักษณะประกอบด้วยคู่ name = value ที่สามารถระบุได้เมื่อกำหนดองค์ประกอบในแท็กเริ่มต้น คุณสามารถเว้นช่องว่างทางซ้ายและขวาของสัญลักษณ์เท่ากับได้ ค่าแอตทริบิวต์ถูกระบุเป็นสตริงที่อยู่ในเครื่องหมายคำพูดเดี่ยวหรือคู่

    แท็กใดๆ สามารถมีแอตทริบิวต์ได้หากแอตทริบิวต์นั้นถูกกำหนดไว้

    เมื่อใช้แอตทริบิวต์ องค์ประกอบจะอยู่ในรูปแบบต่อไปนี้:

    เนื้อหาแท็ก

    ข้อความถูกจัดชิดตรงกลาง

    แท็กเปิดหนึ่งแท็กสามารถมีได้หลายแอตทริบิวต์ เช่น:

    ขนาดและสีของข้อความที่ระบุ

    ประวัติความเป็นมาของการพัฒนาภาษามาร์กอัป

    แนวคิดของไฮเปอร์เท็กซ์ถูกนำมาใช้โดย W. Bush ในปี 1945 และเริ่มต้นในทศวรรษที่ 60 แอปพลิเคชันแรกๆ ที่ใช้ข้อมูลไฮเปอร์เท็กซ์เริ่มปรากฏขึ้น อย่างไรก็ตาม เทคโนโลยีนี้ได้รับการพัฒนาหลักเมื่อมีความต้องการที่แท้จริงเกิดขึ้นสำหรับกลไกในการรวมแหล่งข้อมูลที่หลากหลาย ทำให้สามารถสร้างและดูข้อความที่ไม่ใช่เชิงเส้นได้

    ในปี 1986 ISO ได้อนุมัติภาษามาร์กอัปมาตรฐานทั่วไป ภาษานี้มีไว้สำหรับการสร้างภาษามาร์กอัปอื่น โดยกำหนดชุดแท็กที่ถูกต้อง คุณลักษณะ และโครงสร้างภายในของเอกสาร ดังนั้นจึงเป็นไปได้ที่จะสร้างแท็กของคุณเองที่เกี่ยวข้องกับเนื้อหาของเอกสาร ตอนนี้เห็นได้ชัดว่าเอกสารดังกล่าวตีความได้ยากหากไม่มีคำจำกัดความของภาษามาร์กอัป ซึ่งจัดเก็บไว้ใน Document Type Definition (DTD) DTD จัดกลุ่มกฎทั้งหมดของภาษาไว้ในมาตรฐาน SGML กล่าวอีกนัยหนึ่ง DTD อธิบายความสัมพันธ์ของแท็กระหว่างกันและกฎสำหรับการใช้งาน นอกจากนี้ สำหรับเอกสารแต่ละคลาส มีการกำหนดชุดกฎของตัวเองที่อธิบายไวยากรณ์ของภาษามาร์กอัปที่เกี่ยวข้อง ดังนั้น ด้วยความช่วยเหลือจาก DTD เท่านั้นจึงจะสามารถตรวจสอบการใช้แท็กที่ถูกต้องได้ ดังนั้นจึงต้องส่งแท็กไปพร้อมกับเอกสาร SGML หรือรวมไว้ในเอกสาร

    ในเวลานั้น นอกเหนือจาก SGML แล้ว ยังมีภาษาอื่นที่คล้ายกันอีกหลายภาษาที่แข่งขันกันเอง แต่ความนิยม (HTML ซึ่งเป็นหนึ่งในลูกหลาน) ทำให้ SGML มีข้อได้เปรียบเหนือภาษาอื่นอย่างไม่อาจปฏิเสธได้

    เมื่อใช้ SGML คุณสามารถอธิบายข้อมูลที่มีโครงสร้าง จัดระเบียบข้อมูลที่มีอยู่ในเอกสาร และนำเสนอข้อมูลนี้ในรูปแบบมาตรฐานบางรูปแบบ แต่เนื่องจากความซับซ้อน SGML จึงถูกใช้เพื่ออธิบายไวยากรณ์ของภาษาอื่นเป็นหลัก และมีแอปพลิเคชันเพียงไม่กี่ตัวที่ทำงานกับเอกสาร SGML ได้โดยตรง โดยปกติแล้ว SGML จะใช้เฉพาะในโครงการขนาดใหญ่เท่านั้น เช่น เพื่อสร้างระบบการจัดการเอกสารแบบครบวงจรสำหรับบริษัทขนาดใหญ่

    ภาษามาร์กอัป HTML นั้นง่ายกว่าและสะดวกกว่า SGML มาก คำแนะนำนี้มีจุดมุ่งหมายเพื่อควบคุมกระบวนการแสดงเนื้อหาเอกสารบนหน้าจอเป็นหลัก HTML เป็นวิธีการมาร์กอัปเอกสารทางเทคนิคถูกสร้างขึ้นโดย Tim Berners-Lee ในปี 1991 สำหรับชุมชนวิทยาศาสตร์โดยเฉพาะ เดิมทีเป็นเพียงหนึ่งในแอปพลิเคชัน SGML

    แม้ว่าสิ่งเดียวที่ HTML ทำได้คือจำแนกส่วนต่างๆ ของเอกสารและตรวจสอบให้แน่ใจว่าแสดงผลถูกต้องในเบราว์เซอร์ แต่เป็นภาษามาร์กอัปที่ได้รับความนิยมมากที่สุด เนื่องจาก HTML นั้นค่อนข้างง่ายต่อการเรียนรู้ สิ่งที่คุณต้องทำคือเรียนรู้คำสั่ง HTML DTD สำหรับ HTML ถูกจัดเก็บไว้ในเบราว์เซอร์ นอกจากนี้ ควรสังเกตว่า HTML ได้รับการออกแบบมาเพื่อทำงานบนแพลตฟอร์มที่หลากหลาย แต่มีข้อจำกัดที่สำคัญหลายประการ:

  • HTML มีชุดแท็กคงที่ และชุดนี้ไม่สามารถขยายหรือเปลี่ยนแปลงได้
  • แท็กภาษา HTML แสดงเฉพาะวิธีการนำเสนอข้อมูล ซึ่งก็คือ ลักษณะของเอกสาร HTML ไม่มีข้อมูลเกี่ยวกับความหมายของเนื้อหาที่มีอยู่ในแท็กหรือโครงสร้างของเอกสาร
  • กำลังโหลด...กำลังโหลด...