Ngày nay chẳng thể phủ nhận được vai trò quan trọng của ngôn ngữ XML trong môi trường phát triển ứng dụng. Trong bất cứ một ứng dụng nào, con người cũng có khả năng giản đơn bắt gặp một tài liệu XML. Vậy cú pháp văn bản XML là gì? Sao nó lại rộng rãi như vậy? Bài đăng này sẽ giúp các bạn hiểu rõ hơn về ngôn ngữ XML qua đó con người có khả năng dễ dàng đọc, hiểu và tạo ra được các tài liệu XML dễ dàng.
Cú pháp văn bản XML là gì?

XML là từ rút gọn của từ eXtensible Markup Language, hay còn gọi là ngôn ngữ đánh dấu mở rộng do W3C đề nghị với mục đích sản sinh ra các ngôn ngữ đánh dấu khác. Đây chính là một tập hợp con giản đơn có thể miêu tả nhiều loại dữ liệu khác nhau nên cực kì có ích trong việc share dữ liệu giữa các hệ thống. Chẳng hạn như khi mà bạn xây dựng một ứng dụng bằng C# và một ứng dụng bằng PHP thì hai ngôn ngữ này chẳng thể hiểu nhau, vì vậy ta sẽ dùng XML để trao đổi dữ liệu.
Toàn bộ những đặc tả dữ liệu XML đều phải tuân theo quy luật và cú pháp của nó có thể đa phần các tệp XML đều cực kì nghiêm khắc trong việc biên dịch. Tuy nhiên công nghệ này cần phải được cân nhắc bởi vì trong quá trình thao tác và truyền dữ liệu nó có tỉ lệ sai sót lên tới 5% – 7%. Con số này không cao tuy nhiên cũng rất đáng để cân nhức khi sử dụng.
>>>Xem thêm: Thụât toán tìm kiếm nhị phân (Binary Search)
Tiền đề bài đăng
Trong quá trình làm việc và nghiên cứu kết hợp với các thành viên khác của mình : www.Source.vn, tôi gặp cực kì nhiều nỗi lo có sự liên quan đến ngôn ngữ XML (RSS, SOAP, Sitemap, Configuration file trong C#, …). Từ đó tôi tiếp tục nghiên cứu và tổng hợp một số kiến thức cơ bản về XML. Trong bài viết này, tôi mong muốn chia sẻ với các nàng những vấn đề cơ bản nhất của ngôn ngữ XML.
Đối tượng mục tiêu hướng tới
Những lập trình viên đang tìm một phương pháp, cấu trúc lưu trữ cũng như gởi nhận thông tin có sự liên quan đến ngôn ngữ XML, hoặc đang bắt tay làm quen và tìm hiểu về ngôn ngữ XML.
Cú pháp của văn bản XML

Nếu như bạn đã học qua HTML rồi thì rất dễ dàng hiểu cú pháp của XML bởi vì HTML được tạo ra dựa trên cú pháp của XML.
file XML sẽ có phần mở rộng là .xml
. Tuy nhiên bạn hoàn toàn có thể sử dụng phương ngữ lập trình để điều chỉnh phần mở rộng cho nó (sẽ nghiên cứu sau).
Thẻ cú pháp của văn bản XML:
XML được tạo ra dựa vào cấu trúc NODE lồng nhau, mỗi node sẽ có một thẻ mở và một thẻ đóng như sau:
1
|
< nodename >nội dungnodename> |
Trong đó:
- là thẻ mở, tên của thẻ này do bạn tự định nghĩa.
- là thẻ đóng, tên của thẻ này phải trùng với tên của thẻ mở.
Nội dung
là thông tin của thẻ này
Chẳng hạn như mình lưu trữ domain của mình thì cấu trúc như sau:
1
|
< domain >freetuts.netdomain> |
Bạn hoàn toàn có thể cung cấp các tính chất vào các thẻ XML bằng cách sử dụng cú pháp sau:
1
|
< nodename ten_thuoc_tinh = "giá trị" >contentnodename> |
Ví dụ bạn lưu giữ thông tin domain và chủ sở hữu của nó thì có khả năng lưu như sau:
1
|
< domain owner = "Nguyễn Văn Cường" email = "thehalfheart@gmail.com" >freetuts.netdomain> |
Khai báo XML (XML Declaration)
Tài liệu XML có khả năng tùy ý có một phần khai báo XML. Nó được viết như sau:
xml version="1.0" encoding="UTF-8"?>
Ở đây, version là phiên bản XML và encoding xác định mã hóa ký tự được dùng trong tài liệu.
Các qui tắc cú pháp để khai báo XML
- Khai báo XML (XML declaration) là phân biệt kiểu chữ và phải bắt đầu với “” ở đây “xml” viết ở dạng chữ thường.
- Nếu như tài liệu chứa khai báo XML, thì nó phải là lệnh đầu tiên của tài liệu XML.
- Khai báo XML phải là lệnh đầu tiên của tài liệu XML.
- Một HTTP Protocol có khả năng ghi đè thành quả của encoding mà bạn đặt trong khai báo XML.
Tags và Elements
Một XML file được cấu thành bởi một số phần tử XML (Element), còn được nhắc đên là XML-node hoặc XML-tags. Tên các phần tử XML được bao trong các dấu < > như sau:
<element>
Tham chiếu trong XML
Tham chiếu (References) thường cho phép bạn thêm hoặc bao phần text hoặc phần đánh dấu cung cấp trong một tài liệu XML. Các tham chiếu mãi mãi bắt đầu với biểu tượng “&” , đây chính là ký tự dành riêng và kết thúc với ký tự “;”. XML có hai kiểu tham chiếu:
Tham chiếu thực thể (Entity Reference): Một tham chiếu thực thể chứa một tên giữa dấu tách mở và dấu tách đóng. Ví dụ: & có amp là tên. Tên tham chiếu tới một chuỗi văn bản hoặc đánh dấu đã được khái niệm trước.
Tham chiếu ký tự (Character Reference): Chứa các tham chiếu, chẳng hạn như A, chứa một dấu băm (#) được theo sau bởi một vài. Số này mãi mãi tham chiếu tới mã hóa Unicode của ký tự. Trong chẳng hạn như này, 65 tham chiếu tới chữ cái “A”.
>>>Xem thêm: Những phần mềm viết Code tốt nhất cho lập trình viên hiện nay
Biểu diễn dữ liệu trong một tài liệu XML

Tạo một tài liệu XML well-formed
XML well-formed là gì?
Một tài liệu XML được coi như đúng cú pháp khi nó thỏa toàn bộ những điều kiện sau:
- Chỉ được có độc nhất 1 root element, nó sẽ chứa tất cả các element khác của tài liệu.
- Mỗi thẻ mở cần có một thẻ đóng tương ứng, thẻ mở và thẻ đóng nên có tên giống nhau hoàn toàn, ngay cả chữ hoa và chữ thường.
- Khi lồng các thẻ XML, phải lưu ý thứ tự đóng các thẻ, thẻ nào mở sau phải đóng trước.
- Tên của các thẻ được đặt theo ý người dùng, nhưng phải tuân thủ một vài quy tắc (giống với quy tắc đặt tên biến trong lập trình) và không nên bắt đầu bằng “xml”.
- Các thuộc tính của thẻ được đặt theo cú pháp: tên_thuộc_tính=‘giá trị’, có thể thay nháy đơn ‘ thành nháy kép “.
Bài viết trên, mình đã chia sẻ tới các bạn về chi tiết cú pháp văn bản XML. Cảm ơn các bạn đã theo dõi bài viết nhé!
>>Xem thêm: Source Code là gì? Tổng hợp các loại mã nguồn phổ biến nhất hiện nay
Mỹ Phượng-Tổng hợp
Tham khảo: (freetuts, stdio,…)