URL
Trạng thái | Published |
---|---|
Xuất bản lần đầu | 1994 |
Phiên bản mới nhất | URL Living Standard 28 tháng 4 năm 2020 |
Tổ chức | Request for Comments (RFC) |
Ủy ban | Internet Engineering Task Force (IETF) Web Hypertext Application Technology Working Group (WHATWG) |
Tác giả | Tim Berners-Lee |
Tiêu chuẩn liên quan | URI, URN |
Domain | World Wide Web |
License | CC BY 4.0 |
Viết tắt | URL |
Website | https://url.spec.whatwg.org |
Uniform Resource Locator (viết tắt là URL, nghĩa tiếng Việt: Hệ thống định vị tài nguyên thống nhất; được gọi một cách thông thường là một địa chỉ web )[1] là một tham chiếu đến tài nguyên web chỉ định vị trí của nó trên một mạng máy tính và cơ chế để truy xuất nó. URL là một loại Mã nhận dạng tài nguyên thống nhất (Uniform Resource Identifier).[2][3] http://www.example.com
là một URL, trong khi www.example.com
thì không phải. Giao thức cho URL phổ biến nhất cho các trang web tham chiếu là HTTP, nhưng các giao thức khác cũng được sử dụng như FTP để truyền file, Mailto cho email, JDBC để truy cập cơ sở dữ liệu và các giao thức khác.
Hầu hết các trình duyệt web hiển thị URL của một trang web phía trên trang trong một thanh địa chỉ. Một URL thông thường có thể có dạng http: //www.example.com/index.html
, cho biết một giao thức (HTTP), tên máy chủ (www.example.com
) và tên file (index.html
).
Lịch sử
[sửa | sửa mã nguồn]Bộ định vị tài nguyên thống nhất (URL) được định nghĩa trong RFC 1738 vào năm 1994 bởi Tim Berners-Lee, nhà phát minh của World Wide Web và nhóm làm việc URI của Lực lượng đặc nhiệm kỹ thuật Internet (IETF),[4] là kết quả của phiên hợp tác bắt đầu tại IETF Living Documents Bird of a Feather vào năm 1992.[5][6]
Định dạng này kết hợp hệ thống tên miền tồn tại từ trước (được tạo năm 1985) với cú pháp đường dẫn tệp, trong đó dấu gạch chéo được sử dụng để phân tách tên thư mục và tên tệp. Các quy ước đã tồn tại trong đó tên máy chủ có thể được thêm tiền tố để hoàn thành các đường dẫn tệp, trước dấu gạch chéo kép (//
).[7]
Berners-Lee sau đó đã bày tỏ sự hối tiếc về việc sử dụng dấu chấm để phân tách các phần của tên miền trong URI, nói rằng đáng lẽ ông đã sử dụng dấu gạch chéo trong toàn bộ địa chỉ thay cho dấu chấm,[7] và cũng nói rằng, đưa dấu hai chấm theo thành phần đầu tiên của URI, hai dấu gạch chéo trước tên miền là không cần thiết.[8]
Bản nháp đầu tiên (1993) của HTML Specification[9] được đề cập đến Bộ định vị tài nguyên "phổ quát". Điều này đã bị loại bỏ một thời gian giữa tháng 6 năm 1994 (RFC 1630) và tháng 10 năm 1994 (dự thảo-ietf-uri-url-08.txt).[10]
Cấu trúc
[sửa | sửa mã nguồn]Mỗi HTTP URL đều tuân theo tiêu chuẩn cú pháp của một URI. Một URL gồm có nhiều phần được liệt kê dưới đây:
- URI scheme hay phương pháp truy cập thường là tên giao thức (ví dụ: HTTP, FTP) nhưng cũng có thể là một cái tên khác (ví du: news, mailto). Muốn hiểu rõ về URL scheme xin xem URI scheme
- Tên máy chủ (ví dụ: vi.wikipedia.org)
- Chỉ định thêm cổng (có thể không cần)
- Đường dẫn tuyệt đối trên máy phục vụ của tài nguyên (ví dụ: thumuc/trang)
- Các truy vấn (có thể không cần)
- Chỉ định mục con (có thể không cần)
Cụ thể hơn:
https://vi.wikipedia.org/wiki/thumuc/trang?timkiem=cauhoi \__/ \_________________/\___________/ \____________/ \_____/ | | | | | | URL scheme tên máy chủ | đường dẫn truy vấn mục con cổng
Hiện nay trên thế giới mỗi ngày có rất nhiều tên miền (domain) (thí dụ org) mới xuất hiện.
Để có thể tìm đến một đường dẫn Internet để chỉ mục nội dung cần thiết phục vụ cho người sử dụng Internet, chúng ta có thể sử dụng các công cụ trên mạng Internet. Hiện nay các công cụ tìm kiếm trên mạng Internet ngày càng phổ biến và được sử dụng rộng rãi. Hoặc chúng ta có thể sử dụng việc tìm kiếm đến URL thích hợp thông qua danh bạ các website hay là các công cụ tìm kiếm.
URL quốc tế hóa
[sửa | sửa mã nguồn]Người dùng Internet được phân phối trên toàn thế giới bằng nhiều ngôn ngữ và bảng chữ cái khác nhau và hy vọng có thể tạo URL trong bảng chữ cái địa phương của riêng họ. Mã định danh tài nguyên quốc tế hóa (IRI) là một dạng URL bao gồm các ký tự Unicode. Tất cả các trình duyệt hiện đại đều hỗ trợ IRI. Các phần của URL yêu cầu xử lý đặc biệt cho các bảng chữ cái khác nhau là tên miền và đường dẫn.[11][12]
Tên miền trong IRI được gọi là Tên miền Quốc tế hóa (IDN). Phần mềm web và Internet tự động chuyển đổi tên miền thành dạng chữ thập có thể sử dụng được bởi Hệ thống tên miền; ví dụ: URL tiếng Trung http://例子.卷筒纸
trở thành http://xn--fsqu00a.xn--3lr804guic/
. xn--
chỉ ra rằng ký tự ban đầu của URL không phải là ký tự ASCII.[13]
Mối quan hệ giữa URL và URN, URI
[sửa | sửa mã nguồn]Về kỹ thuật, URL là một dạng của URI, nhưng trong nhiều tài liệu kỹ thuật và các cuộc thảo luận bằng lời nói, URL thường được sử dụng như một từ đồng nghĩa với URI, và điều này không bị coi là một vấn đề.
URI có thể được phân loại như là nhận dạng (URL), như tên gọi (URN), hoặc là cả hai. Một Định danh tài nguyên thống nhất (Uniform Resource Name - URN) có chức năng giống như tên của một người, trong khi một Định vị tài nguyên thống nhất (Uniform Resource Locator - URL) tương tự như địa chỉ đường phố của người đó. Nói cách khác: URI xác định việc nhận dạng cho đối tượng, trong khi URN đặt tên và URL cung cấp phương pháp tìm đối tượng đó.
Hệ thống mã số ISBN sử dụng để nhận dạng sách cung cấp 1 ví dụ rất cụ thể về URN. Chỉ số ISBN 0486275574 (run:isbn:0-486-27557-4) cho biết đây là một ấn bản truyện kịch Romeo và Juliet của Shakespeare. Để tìm cuốn sách này, phải cần địa chỉ cuốn sách đó chính là địa chỉ URL. Đường dẫn địa chỉ URL của cuốn sách trên hệ thống Unix sẽ có địa chỉ như là: file:///home/username/RomeoAndJuliet.pdf, đây là đường dẫn tập tin được lưu trên ổ cứng máy tính. Vì vậy URN và URL luôn có mục đích hỗ trợ & bổ sung cho nhau.
Chú thích
[sửa | sửa mã nguồn]Tham khảo
[sửa | sửa mã nguồn]- ^ W3C (2009).
- ^ “Forward and Backslashes in URLs”. zzz.buzz (bằng tiếng Anh). Truy cập ngày 19 tháng 9 năm 2018.
- ^ RFC 3986 (2005).
- ^ W3C (1994).
- ^ IETF (1992).
- ^ Berners-Lee (1994).
- ^ a b Berners-Lee (2000).
- ^ BBC News (2009).
- ^ Berners-Lee, Tim; Connolly, Daniel "Dan" (tháng 3 năm 1993). Hypertext Markup Language (draft RFCxxx) (Bản báo cáo kỹ thuật). tr. 28.
- ^ Berners-Lee, Tim; Masinter, Larry; McCahill, Mark Perry (tháng 10 năm 1994). Uniform Resource Locators (URL) (Bản báo cáo kỹ thuật).[liên kết hỏng] cited in Ang, C. S.; Martin, D. C. (tháng 1 năm 1995). Constituent Component Interface++ (Bản báo cáo kỹ thuật). UCSF Library and Center for Knowledge Management.
- ^ W3C (2008).
- ^ W3C (2014).
- ^ IANA (2003).
Nguồn tham khảo
[sửa | sửa mã nguồn]- “Berners-Lee "sorry" for slashes”. BBC News. ngày 14 tháng 10 năm 2009. Truy cập ngày 14 tháng 2 năm 2010.
- “Living Documents BoF Minutes”. World Wide Web Consortium. ngày 18 tháng 3 năm 1992. Truy cập ngày 26 tháng 12 năm 2011.
- Berners-Lee, Tim (ngày 21 tháng 3 năm 1994). “Uniform Resource Locators (URL): A Syntax for the Expression of Access Information of Objects on the Network”. World Wide Web Consortium. Truy cập ngày 13 tháng 9 năm 2015.
- Uniform Resource Locators (URL). August 1998. RFC 1738. https://tools.ietf.org/html/rfc1738. Truy cập ngày 31 tháng 8 năm 2015.
- Berners-Lee, Tim (2015) [2000]. “Why the //, #, etc?”. Frequently asked questions. World Wide Web Consortium. Truy cập ngày 3 tháng 2 năm 2010.
- Connolly, Daniel "Dan"; Sperberg-McQueen, C. Michael biên tập (ngày 21 tháng 5 năm 2009). “Web addresses in HTML 5”. World Wide Web Consortium. Truy cập ngày 13 tháng 9 năm 2015.
- Internet Assigned Numbers Authority (ngày 14 tháng 2 năm 2003). “Completion of IANA Selection of IDNA Prefix”. IETF-Announce mailing list. Bản gốc lưu trữ ngày 8 tháng 12 năm 2004. Truy cập ngày 3 tháng 9 năm 2015.
- Uniform Resource Identifiers (URI): Generic Syntax. August 1998. RFC 2396. https://tools.ietf.org/html/rfc2396. Truy cập ngày 31 tháng 8 năm 2015.
- Thaler, Dave, ed (June 2015). Guidelines and Registration Procedures for URI Schemes. RFC 7595. https://tools.ietf.org/html/rfc7595.
- Report from the Joint W3C/IETF URI Planning Interest Group: Uniform Resource Identifiers (URIs), URLs, and Uniform Resource Names (URNs): Clarifications and Recommendations. August 2002. RFC 3305. https://tools.ietf.org/html/rfc3305. Truy cập ngày 13 tháng 9 năm 2015.
- Uniform Resource Identifiers (URI): Generic Syntax. January 2005. RFC 3986. https://tools.ietf.org/html/rfc3986. Truy cập ngày 31 tháng 8 năm 2015.
- “An Introduction to Multilingual Web Addresses”. ngày 9 tháng 5 năm 2008. Truy cập ngày 11 tháng 1 năm 2015.
- Phillip, A. (2014). “What is Happening with "International URLs"”. World Wide Web Consortium. Truy cập ngày 11 tháng 1 năm 2015.
- Lawrence, Eric (ngày 6 tháng 3 năm 2014). “Browser Arcana: IP Literals in URLs”. IEInternals. Microsoft. Truy cập ngày 25 tháng 4 năm 2016.