Máy truy tìm dữ liệu – Wikipedia tiếng Việt

Máy truy tìm dữ liệu trực tuyến hay máy tìm kiếm hay cỗ máy tìm kiếm (tiếng Anh: search engine), hay còn được gọi với nghĩa rộng hơn là phương tiện tìm kiếm (search tool), nguyên thủy là một phần mềm (thường được tích hợp vào một trang web trực tuyến) nhằm tìm ra những trang trên mạng Internet với nội dung theo yêu cầu người tiêu dùng dựa vào những thông tin mà chúng với. Trữ lượng thông tin này của phương tiện tìm kiếm thực chất là một loại hạ tầng dữ liệu (database) cực to. Việc tìm những tài liệu sẽ dựa trên hạ tầng những từ khóa liên quan tới trang web.

Từ khóa được hiểu như là một tổ hợp những từ của một tiếng nói nhất định được sắp xếp hay quan hệ với nhau thông qua những biểu thức logic mà phương tiện tìm kiếm tương trợ. Trong trường hợp một từ khoá bao gồm nhiều hơn một chữ (hay từ) thì với thể gọi tập họp tất cả những chữ đó là bộ từ khoá (set of keywords).

Cơ sở vật chất dữ liệu mà máy truy tìm sử dụng thường được bổ sung cập nhật định kì bằng cách quét (scan), điều chỉnh, thêm bớt nội dung và chỉ số hoá lại tất cả những trang mà nó với thể tìm gặp trên Internet.

Ngày nay, với số lượng những trang Web lên tới hàng tỉ, nên việc tìm ra số trang với chứa nội dụng đòi hỏi của từ khoá với thể lên tới hàng triệu trang. Do đó, việc hiển thị những trang tìm thấy theo đúng thứ tự quan yếu của những trang và theo mong muốn của người tiêu dùng cũng là một trở ngại to đòi hỏi sự sàng lọc từ máy truy tìm và sự khéo léo về cách thức đặt ra từ khoá từ người tiêu dùng máy.

Một cỗ máy tìm kiếm tài liệu là một mạng lưới hệ thống ứng dụng máy tính giúp con người tìm kiếm thông tin được tích tụ trên mạng lưới hệ thống máy tính như mạng Internet, hoặc máy tính cá thể. Máy tìm được cho phép người sử dụng nhu yếu những thông tin với những hạn chế nhất định ( thường được miêu tả bởi từ hoặc cụm từ ) và nhận về một list những link siêu văn bản thỏa mãn nhu cầu những hạn chế. Máy tìm sử dụng mạng lưới hệ thống chỉ mục để hoàn toàn với thể tìm kiếm nhanh gọn và hiệu suất cao. Máy tìm thường được hiểu là máy tìm những thông tin công khai sáng tỏ trên mạng, nếu ko với những năng lực cao hơn. Ngoài ra còn với những loại máy tìm khác như máy tìm doanh nghiệp tìm thông tin trên mạng nội bộ, máy tìm cá thể tìm thông tin trên máy tính cá thể, và máy tìm di động .Một số máy tìm còn khai thác thông tin trong những nhóm tin, những hạ tầng tài liệu to, hay trong những mạng lưới hệ thống thư mục mở như DMOZ.org. Khác với mạng lưới hệ thống thư mục mạng được duy trì bởi con người, máy tìm hoạt động tiêu khiển dựa vào những thuật toán. Những trang web được gọi là máy tìm thực ra là giao diện người tiêu dùng của những máy tìm chiếm hữu bởi những doanh nghiệp khác nhau .

Những thuật ngữ tương quan[sửa|sửa mã nguồn]

Những thuật toán hay kỹ thuật mà máy truy tìm tiêu dùng để xếp hạng hay giám định tầm quan yếu của một trang Web theo một từ khoá cho trước gọi là sự phân hạng (ranking), hay thuần tuý hơn là phân hạng.

Những kỹ thuật thay đổi mã nguồn HTML của một trang Web cũng như những kỹ thuật khác ngoài việc sửa mã nguồn HTML nhằm tăng tối đa thứ hạng của trang Web đối với một số từ khóa nào đó trên những máy truy tìm gọi là kỹ thuật tối ưu hoá cho máy tìm kiếm hay SEO (từ tiếng Anh Search Engine Optimization).

Hoạt động phân hạng những trang Web[sửa|sửa mã nguồn]

Ngoài việc khắc phục và xử lý số lượng trang tìm thấy theo nhu yếu của một từ khoá trong kho tài liệu update của nó, những máy truy lùng tài liệu còn phải tìm cách chống lại sự nhiễu loạn của những trang ko với nội dung tương thích với nhu yếu nhưng vẫn lọt vào list tuyển chọn của máy truy lùng .Nguyên do của những nhiễu loạn này là việc những trang Web chuyên về quảng cáo hay tiếp thị xoành xoạch tìm cách để lọt vào số 1 trong list tuyển chọn của máy truy lùng, và qua đó họ hoàn toàn với thể ra mắt mẫu sản phẩm của họ tới người tiêu dùng. Trái lại, người tiêu dùng, trong hầu hết những trường hợp, ko muốn tìm những quảng cáo tiếp thị mà chỉ muốn tìm những tài liệu khác theo ý đã ghi trong từ khoá .Do những đặc thù phức tạp trên, việc phân hạng những trang Web tìm được bởi một bộ từ khoá cho trước của máy truy lùng sẽ dựa vào việc vận dụng thêm những thuật toán hay giải pháp khắc phục và xử lý đặc trưng quan yếu :

Những tiêu chuẩn quan yếu tiêu dùng trong phân hạng[sửa|sửa mã nguồn]

Dưới đây là những tiêu chuẩn hầu hết mà những thuật toán của những máy tìm kiếm Web sử dụng để phân hạng những trang Web :

  1. Tần số phát sinh : được hiểu là tổng số lần xuất hiện của một chữ hay một cụm từ của từ khoá trong nội dung một trang Web nào đó. Theo sự giám định của những chuyên gia, thì tần số phát sinh của một trang Web càng cao sẽ chứng tỏ nội dung của trang Web đó càng liên quan hay càng nói nhiều tới những gì nêu trong từ khoá. Do đó, mật độ từ khóa đóng vai trò quan yếu trong việc phân hạng một trang Web.
  2. Thẻ meta và câu lệnh title:
    Theo tiếng nói HTML, thì thẻ meta là những câu lệnh nằm ở phần đầu (header) của mã của một trang Web. Thẻ meta với dạng:

    Trong nhiều máy truy tìm, người thiết kế còn cho rằng sự xuất hiện những chi tiết hay toàn bộ nội dung của từ khoá càng sớm trong một trang mã HTML thì điều đó chứng tỏ trang đó với thể với chủ đề liên quan càng nhiều tới từ khoá. Hậu quả là một trang Web với thể được phân hạng cao hơn nếu những phần hay toàn bộ từ khoá với mặt sớm hơn trong phần mã HTML. Tương tự, trong một số thẻ meta, máy truy tìm sẽ đọc nội dung và lấy ra những yếu tố phân hạng. Những thẻ meta với nhiều hiệu lực cho việc phân hạng là:

    • Với lý do tương tự, nếu câu lệnh
    • (tựa đề của trang Web) ko bị bỏ trống thì thứ hạng của nó với thể được tăng hơn.
  3. Tiếng nói: Nếu một người tiêu dùng đang nối vào Internet bằng một máy tính sử dụng tiếng Pháp thì việc hiển thị những trang Web với cùng tiếng nói Pháp với máy tính đó rõ ràng là hiệu quả hơn cho người đó. Do đó, yếu tố tiếng nói của trang Web cũng được chú ý trong phân hạng.
  4. Số lượng liên liên kết ngoài: Theo sự giám định của nhiều chuyên gia phát triển máy truy tìm thì nếu một trang Web được nhiều nơi khác nói tới hay mở liên kết tới liên hệ của nó thì rõ ràng trị giá của trang Web này cao hơn là những trang Web cùng kiểu nhưng lại ko với hay ít được liên kết hay nói từ những trang khác. Tương tự, những trang Web nào được nhiều trang Web khác liên kết tới (hay nói tới) thì chất lượng của nó với thể cao hơn và được phân hạng cao hơn.

Kỹ thuật tăng thứ hạng cho một trang Web[sửa|sửa mã nguồn]

Việc tăng thứ hạng của một trang Web cho những máy truy lùng là do những nguyên do sau đây :

  • Những hạ tầng thương nghiệp hay những cơ quan với hoạt động này muốn hoà nhập vào thị trường toàn cầu. Họ với những trang Web, một trong những giải pháp quan yếu là làm sao những trang Web này tới được người tiêu dùng Internet. Ngoài việc đăng quảng cáo trên trang phổ biến thì việc làm sao cho liên hệ trang Web của họ được hiển thị ngay từ trang trả về trước tiên cũng là một giải pháp quan yếu tác động tới việc tiếp thị.
  • Những trang Web truyền bá thông tin hay tuyên truyền những đề tài riêng cũng muốn đem thông tin của mình phổ biến tới được người tiêu dùng ở khắp nơi nên cũng mong muốn tăng thứ hạng trang Web của mình.

Do tầm quan yếu của việc xếp thứ bậc cho một trang Web nên đã phát sinh những hậu quả :

  • Sự ra đời của những doanh nghiệp tư vấn về tăng thứ hạng cho trang Web: những doanh nghiệp này sẽ nhận làm những nhà sản xuất SEO cho thân chủ để đưa thứ hạng những trang đó lên trong danh sách hiển thị trước tiên của những máy truy tìm.
  • Những trang Web giả dụng (page cloaking): Người thiết kế những trang này sẽ tìm cách sản xuất một nội dung với thể nhận sự phân hạng cao trong những máy truy tìm trong lúc thực tế nếu một người tiêu dùng Internet truy cập tới liên hệ này (qua trang trả về của máy truy tìm hay qua việc gõ thẳng liên hệ vào máy truy cập) thì trang đó hiển thị một nội dung hoàn toàn khác với sự giám định của máy truy cập. Hành động này xuất phát từ ý muốn tăng cường khả năng tiếp thị của một số trang Web.
Kỹ thuật xí gạt những máy truy tìm như trên ko quá phức tạp. Một ví dụ là chỉ việc thêm vào phần nội dung những thẻ meta và câu lệnh title thật nhiều chữ hay đoạn văn bản với khả năng làm tăng thứ hạng của chính nó lên mà thực ra bản thân phần hiển thị (phần giữa câu lệnh body) của trang ko hề liên hệ tới. Máy truy tìm lúc xét tới những trang tương tự sẽ ko thể biết rằng nội dung những văn từ ghi trong thẻ meta hoàn toàn ko thích hợp với nội dung hiển thị của nó. Tuy nhiên, sự xí gạt chỉ với thể xảy ra trong thời kì ngắn. Sau đó, lúc nhận được phản ánh từ người tiêu dùng, máy truy cập sẽ được điều chỉnh và lúc đó những trang giả dụng này sẽ bị trừng trị bằng cách xoá hẳn chỉ số đã được gán cho trang Web đó.
  • Tính tạm thời của SEO: Phương pháp phân hạng những trang Web của những máy truy tìm thường thay đổi theo tình hình phát triển của Internet và của sự thay đổi nội dung của những trang Web. Do đó, một trang Web nhất thiết chỉ với thể được phân hạng cao trong một thời hạn nhất thiết mà thôi. Để một trang Web tiếp tục được giữ thứ hạng cao thì nội dung của nó (hay ít nhất nội dung những thẻ meta) phải thay đổi hoặc là tự trang đó phải được tăng liên kết từ những liên hệ Web khác tới và đây cũng là chỗ cho những nhà giỏi về SEO phục vụ.
  • Bảo trợ quảng cáo cho máy truy tìm: Bản thân những máy truy tìm cũng với thể là những cơ quan phục vụ quảng cáo do đó một trong những cách tốt để tăng hiệu quả tiếp thị là tham gia những nhà sản xuất quảng cáo ngay trên những máy truy tìm.
  • Phá hoại máy truy tìm: Sở hữu thể do nhiều nguyên do phức tạp, những tay tin tặc với thể tổ chức tiến công vào máy truy tìm nhất là những máy được ưa thích. Ngày 26 tháng 7 năm 2004, hệ thống máy truy tìm to nhất hiện tại, Google, đã bị tiến công bởi virus máy tính myDoom làm cho hệ thống này ngưng hoạt động từ 4 tiếng.

Phân loại máy truy lùng[sửa|sửa mã nguồn]

Ngày nay, thì những máy truy lùng đã tăng trưởng rất xa so với dạng nguyên thuỷ. Sở hữu hai cách chính phân loại máy truy lùng .

Theo phương pháp hoạt động tiêu khiển[sửa|sửa mã nguồn]

  • Kiểu máy nhện (spider): Cơ sở vật chất dữ liệu của những máy truy tìm được cập nhật hoá bởi những phần mềm đặc trưng thường gọi là "robot", "spider" hay "Webcrawler". Những phần mềm này sẽ tự động dò tìm và phân tích từ những trang với sẵn trong hạ tầng dữ liệu để kiếm ra những liên kết (link) từ những trang và trở lại bổ sung dữ liệu cho chính nó sau lúc phân tích. Phần mềm này cũng sẽ báo cáo về những liên kết đã bị đào thải. Từ khoá được bỏ vào là để cho máy truy tìm lục kiếm trong bảng chỉ số của nó. Kết quả tốt nhất sau lúc phân hạng sẽ được xếp ở thứ tự trước tiên. Trang thông dụng nhất tiêu dùng nguyên tắc này là http://www.google.com

300px Metacrawler Giao diện của máy metacrawler

  • Kiểu máy truy tìm ảo (meta-search engine): Ngày nay, người ta với thể lợi dụng những máy truy tìm sẵn với để thiết kế thành một loại máy truy tìm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm này khá thuần tuý. Nó ko với hạ tầng dữ liệu. Lúc hoạt động thì nó sẽ gởi từ khoá tới những máy truy tìm khác một cách nhất tề và nhận về tất cả những kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại những tài liệu tìm được cho thân chủ. Ưu điểm của loại máy truy tìm này là lợi dụng hạ tầng dữ liệu của những máy truy tìm khác để tìm ra nhiều kết quả hơn và nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu với những máy truy tìm nguyên thuỷ nên gọi là meta- (tiền tố meta với tức là "siêu hình" hay "ảo"). Tiêu biểu loại này là MetaCrawler.
  • Kiểu thư mục đối tượng (subject directory): Còn gọi là máy truy tìm theo phân lớp (hierarchical search engine) – máy truy tìm này phân lớp sẵn những đối tượng vào những thư mục và người tiêu dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho tới lúc tìm ra những trang Web mà mình muốn. Kiểu này dễ cho người truy cập nhưng với điểm yếu là nó ko thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra. Hơn nữa, sự phân loại thỉnh thoảng ko được đầy đủ và xác thực. Tiêu biểu của loại này là http://www.yahoo.com
  • Kiểu hạ tầng dữ liệu đặc trưng hay còn gọi là bất khả kiến Web (invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra ko thực sự với từ liên hệ trang Web cụ thể qua những máy truy tìm; dữ liệu này tồn tại trong những hạ tầng dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà những trang Web được phép sử dụng. Đặc trưng, những trang Web nghiên cứu của những đại học hay học viện như http://lii.org Lưu trữ 2008-06-11 tại Wayback Machine, http://www.academicinfo.net và http://infomine.ucr.edu Lưu trữ 2011-06-13 tại Wayback Machine thuộc kiểu này.
  • Sau này nhiều máy truy tìm tương trợ người tiêu dùng qua nhiều cách thức khác nhau nên người ta ít thấy ranh giới phân chia của những máy truy tìm nữa mà thay vào đó là những hệ thống máy truy tìm lại bao gồm nhiều kiểu chức năng khác nhau. Chẳng hạn như http://www.yahoo.com ko còn đơn thuần là một máy truy tìm theo kiểu thư mục đối tượng mà ngoài ra nó cũng sản xuất luôn cả kiểu máy nhện cho người tiêu dùng.

Theo công dụng[sửa|sửa mã nguồn]

Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà với:

  • Kiếm liên hệ trang Web
  • Kiếm liên hệ thư điện tử
  • Kiếm thông tin riêng về một người
  • Kiếm thông tin về một tổ chức
  • Kiếm việc làm
  • Kiếm bản đồ…

Phép toán và tương hỗ của máy truy lùng[sửa|sửa mã nguồn]

370px Thenonnuoc Sử dụng Google để tìm lại nguồn thơ lúc chỉ nhớ một câuĐể lan rộng ra những tính năng tìm kiếm, cũng như tạo thêm nhiều tiện lợi cho người tiêu dùng, những máy truy lùng cũng đã tương hỗ thêm nhiều phép toán lên từ khóa. Dĩ nhiên mỗi máy hoàn toàn với thể sẽ tương hỗ những phép toán khác nhau. Ở đây chỉ nêu ra những phép toán được tương hỗ bởi hầu hết những máy truy lùng .

  • Sử dụng phép "+": Để tìm những trang với mặt tất cả những chữ của từ khóa mà ko theo thứ tự nào hết thì viết nối những chữ này với nhau bằng dấu +. Ví dụ: Tìm trang nói về cách thức viết Linux scripts với thể tiêu dùng bộ từ khóa
    +Linux +script +tutor
  • Sử dụng phép "": Trong số những trang Web tìm được do quy định của từ khóa thì máy truy tìm sẽ loại bỏ những trang mà nội dung của chúng với chứa chữ (hay cụm từ) trong ngoặc kép đứng ngay sau dấu trừ. Ví dụ: Lúc tìm tin tức về những loại xe tiêu dùng kỹ thuật lai mới chưa với bán trên thị trường nhưng ko muốn những trang bán xe hay những trang nói về hai kiểu xe Prius (của Toyota) và kiểu xe Insight (của Honda) lọt vào danh cách truy tìm thì với thể thử từ khóa
    +car +hibrid -sale -Prius -Insight
  • Sử dụng dấu ngoặc kép " ": Lúc muốn chỉ thị máy truy tìm nguyên văn của cụm từ, với thể tiêu dùng dấu ngoặc kép. Ví dụ: Để tìm lại nguyên tác và nội dung bài thơ với câu nước non nặng một lời thề thì với thể thử tiêu dùng từ khoá với ngoặc kép
    "Nước non nặng một lời thề"
  • Sử dụng những phép toán của đại số Bool: Hiện tại, nhiều máy truy tìm tương trợ thêm những phép toán như là OR, AND và NOT. Lúc tiêu dùng thì tên của những phép toán này đề xuất phải viết chữ in hoa. Phép toán Bool đòi hỏi điền vào đúng vị trí quy định một từ (hay một cụm từ trong ngoặc kép) giữ vai trò của toán tử. Ngoài ra, tất cả máy truy tìm chỉ hoạt động tốt trong một số lượng giới hạn những phép toán Bool cho một bộ từ khoá. Lời khuyên chung là ko nên tiêu dùng quá 6 phép toán Bool cho cùng một bộ từ khoá và ko phải máy truy tìm nào cũng tương trợ đầy đủ những phép toán AND, OR hay NOT
    • OR: Sở hữu cú pháp là (Toán tử 1) OR (Toán tử 2). Lệnh này cho phép tìm những trang Web nào với chứa một trong những toán tử của phép toán OR của bộ từ khoá. Ví dụ để tìm những bài viết về Nguyễn Trãi trong cả tiếng Việt và tiếng nước ngoài thì với thể tiêu dùng bộ từ khoá
      "Nguyễn Trãi" OR "Nguyen Trai"
      Những máy truy tìm với thể tiêu dùng OR là: AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot và Gigablast.
    • AND: Sở hữu cú pháp (Toán tử 1) AND (Toán tử 2). Phép toán AND nhằm yêu cầu máy truy tìm kiếm những trang với sự hiện diện của tất cả những toán tử. Ví dụ nanotechology AND health
      sẽ giúp truy tìm những trang với mặt đồng thời hai chữ health và chữ nanotechnology
      Một số trang truy tìm sẽ tiêu dùng AND như là mặc định (trong đó với Google). Bạn cũng với thể thay thế bằng cách tiêu dùng dấu + trong một số trường hợp nào máy truy tìm ko với chức năng của đại số Bool.
      Những trang tương trợ phép toán AND là: AltaVista, AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light, Yahoo và Gigablast.
    • NOT: Phép này hoàn toàn tương tự như cách tiêu dùng dấu -. Tức thị, sự truy tìm sẽ loại bỏ những trang mà nội dung với chứa toán tử đứng ngay sau phép toán NOT. Tuy nhiên trong nhiều máy truy tìm với tương trợ thì phép này cũng chỉ được tiêu dùng với một lần cho một bộ từ khoá. Tỉ dụ để tìm tài liệu hướng dẫn về tiếng nói lập trình C/C++ với thể thử tiêu dùng trên Altavista
      "C/C++ tutor" NOT book
      Những trang với thể tiêu dùng NOT là AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light và Gigablast.
  • Sử dụng phép NEAR: Sử dụng để truy tìm những trang Web mà nội dung của chúng với những thành tố của từ khoá nằm sắp nhau. Phép toán này rất với lợi để tìm ra những trang với một cụm từ, một khái niệm, một khái niệm hay một lời phát biểu mà bạn ko nhớ hết được. Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:
    "Ong non" NEAR "Dê cỏn"
  • Sử dụng dấu ngoặc đơn () để chẻ nhánh. Sử dụng ngoặc đơn cho phép tìm nhiều kết hợp phức tạp. Ví dụ để truy tìm tài liệu về cách tạo ra CD ROM với khả năng tự phát động với thể thử từ khoá
    bootable AND (CD OR CDROM OR CD-ROM) AND (howto OR instruction)

Tương trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light

  • Lưu ý:
    1. Trong mọi trường hợp thì từ khoá sai chính tả sẽ ko thể với hiệu quả.
    2. Cách tốt nhất là tiêu dùng chữ in hoa cho những phép toán.
    3. Những trang tìm kiếm của Hotbot hay MSN thì bạn phải chuyển sang chọn chức năng "Boolean phrase" lúc tiêu dùng những phép toán Boolean.

Từ khoá mặc định[sửa|sửa mã nguồn]

Nhiều máy truy lùng còn tương hỗ thêm những từ khoá mặc định. Lúc tiêu dùng những từ khoá mặc định như một thành phần của bộ từ khoá thì những trang Web được trả về sẽ thoả mãn những đặc tính chuyên biệt hoá theo ý nghĩa mà những từ khoá mặc định này hình tượng. Những tương hỗ này được cho phép trấn áp được những loại trang nào muốn truy lùng .

Những từ khoá mặc định kết thúc bằng dấu hai chấm : và chữ (hay cụm từ trong ngoặc kép) của bộ từ khoá nào đứng ngay sau dấu này sẽ bị chi phối bởi điều kiện của từ khoá mặc định, còn những thành phần khác trong từ khoá sẽ ko thay đổi ý nghĩa.

  • Những từ khoá mặc định giới hạn máy truy tìm trả về những trang nằm trong một tên miền, hay một miền con. Tuỳ theo máy truy tìm mà những từ khoá mặc định được sử dụng.
    1. Altavista tương trợ chức năng này bằng từ khoá host:. Ví dụ, host:mars.jpl.nasa.gov mars saturn chỉ tìm trong mars.jpl.nasa.gov tất cả những trang với chứa chữ "mars" và chữ "saturn".
    2. Excite, Google (Netscape, Yahoo) tương trợ chức năng này bằng từ khoá site:, lúc kết hợp với những lệnh khác với thể tìm theo cách chuyên biệt. Ví dụ, "carbon nanotech" -host:www.technologyreview.com cho phép tìm tất cả những trang nào với chứa cụm từ "carbon nanotech" ngoại trừ những trang xuất sứ từ www.technologyreview.com
    3. Inktomi (HotBot, iWon, LookSmart) tương trợ chức năng này bằng từ khoá domain:. Ví dụ, để tìm những trang với đuôi là ".edu" (thường là trang Web của những đại học) về đề tài "heart transplan", với thể tiêu dùng bộ từ khoá "heart transplan" +host:edu để tìm những trang với đuôi gốc là.edu mang đề tài này.
    4. AllTheWeb tương trợ những từ khoá domain, url, site: cho chức năng này. Ví dụ, để tìm những trang về "deutch" từ những trang trong nước Đức với thể tiêu dùng deutch domain:.de
  • Những từ khoá mặc định tiêu dùng để tìm trang với tựa đề chứa một từ (hay cụm từ) đặc trưng:
    1. AltaVista, AllTheWeb, Inktomi (MSN và HotBot) tiêu dùng từ khoá title:. Ví dụ, title: "Mars Landing" sẽ giúp truy tìm những trang với đề tựa về Hoả Tinh.
    2. Google và Teoma tương trợ những từ khoá intitle:allintitle: ("allintitle:" sẽ tác động tới tất cả những chữ xếp sau dấu :).
  • Những từ khoá tiêu dùng để tìm những liên hệ Web nào với chứa từ (hay cụm từ) của bộ từ khoá:
    1. Google tương trợ từ khoá inurl:allinurl:.
      • Muốn tìm liên hệ những trang Web với một chữ đặc trưng thì tiêu dùng inurl. Ví dụ, inurl:nasa sẽ giúp tìm tất cả những liên hệ Web nào với chứa chữ "nasa".
      • Nếu cần truy tìm một liên hệ với nhiều hơn một chữ thì tiêu dùng allinurl. Ví dụ, allinurl:vietnam thetholucbat sẽ giúp tìm tất cả những trang nào mà nội dung liên hệ của nó chứa chữ "vietnam" hay là chữ "thetholucbat".
    2. Inktomi, AOL, GoTo, HotBot sản xuất từ khoá originurl: cho việc này.
    3. Yahoo thì tiêu dùng từ khoá u:
    4. Exite tiêu dùng url:
  • Những từ khoá mặc định giúp tìm những trang với cài đặt những liên kết tới liên hệ trang được ghi trong từ khoá:
    1. Google, Yahoo sẽ sản xuất từ khoá link:. Tuy nhiên, Yahoo yêu cầu liên hệ trong từ khoá phải với đủ tiếp đầu ngữ http:// thì mới hoạt động hữu hiệu. Ví dụ, bộ từ khoá link:vi.wikipedia.org sẽ giúp truy ra tất cả những trang Web nào với liên kết tới trang Bách khoa toàn thư tiếng Việt này.
    2. MSN tương trợ chức năng này bằng từ khoá linkdomain:
  • Ngoài ra, để truy tìm những loại tệp với định dạng (format) đặc trưng thì với thể tiêu dùng từ khoá filetype:(đuôi của tập tin):
    1. Google: sẽ tương trợ truy tìm những kiểu tệp: PDF, Word (.doc), Excel (.xls), PowerPoint (.ppt) và Rich Text Format (.rtf) cũng như PostScript (.ps), Text (.txt), HTML (.htm hay.html), WordPerfect (.wpd) và những đuôi khác… Ví dụ: laser filetype:pdf sẽ giúp tìm những trang là những tập tin dạng .pdf (.pdf là loại tập tin được tiêu dùng trong cá hồ sơ văn bản của phần mềm Adobe Arcobat).
    2. Yahoo cho phép tìm HTML (htm hay html), PDF, Excel (.xls), PowerPoint (.ppt), Word (.doc), RSS/XML (.xml) và tập tin văn bản dạng (.txt).
    3. MSN chỉ tương trợ chuyên tìm những loại tệp: HTML, PDF, PowerPoint (.pps hay.ppt), những dạng của Word, hay Excel.
Lưu ý: Đối với những máy truy tìm thì những tệp với đuôi.htm khác với những tệp với đuôi.html. Do đó, nếu muốn tìm một cách chắc chắc tất cả những tệp dạng HTML thì nên tìm làm hai lần, một riêng cho htm và một cho html.

Ký tự thay thế và ký tự "~" trong bộ từ khoá

[sửa|sửa mã nguồn]

Ký tự thay thế (wildcard character) được hiểu là một ký tự với thể tiêu dùng để thay thế, hay đại diện cho một tập hợp con của tập những ký tự chưa được xác định hoàn toàn. Một cách thuần tuý hơn, ký tự thay thế là ký tự được tiêu dùng để đại diện cho một ký tự, hay một chuỗi ký tự trong một từ khoá, mệnh đề, câu hay dãy những ký tự.
Nhiều máy truy tìm tương trợ cho việc sử dụng hai loại ký tự thay thế. Đó là dấu sao * và dấu chấm hỏi ?

  • Dấu sao *: dấu này sẽ thay thế cho một dãy bất kì những ký tự (chữ, số, hay dấu). Ví dụ, trong từ khoá với t*ng thì chữ t*ng với thể hiểu ngầm là tướng, từng, tuồng, ttamxng,…
    Cần lưu ý sự khác biệt về ý nghĩa đối với ký tự thay thế * tiêu dùng trong những hệ quản lý như là DOS, LINUX, Windows,… Theo cách hiểu của những hệ thống này thì dấu * hoàn toàn ko bị lệ thuộc vào biên giới của một từ. Trong lúc đó, dấu * tiêu dùng trong máy truy tìm sẽ được hạn chế trong biên giới của một từ. Ví dụ, từ khoá My* tiêu dùng trong những phương tiện tìm kiếm của những hệ quản lý kiểu Windows thì nó với thể là My Downloads, My Documents, My Yahoo!, my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere,.... Trong lúc đó my* trong những máy truy tìm chỉ giới hạn trong những chữ) lập thành khởi đầu với my. Tương tự, trong ví dụ trên thì My Downloads, My Documents, My Yahoo! sẽ ko được máy truy tìm xem xét mà chỉ với my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere là hợp thức mà thôi.
    AltaVista, Inktomi (iWon), Northern Light, Gigablast, Google, Yahoo, MSN,… đều tương trợ cho cách tiêu dùng dấu * này.
  • Dấu chấm hỏi ?: tiêu dùng thay cho một ký tự duy nhất nào đó. Ví dụ, ph?ng với thể là phong, phặng, manhongit.dhp@gmail.com, ph_ng, ph-ng,... nhưng ko thể là phượng, ph ng, phug, phăang.
    AOL Search, Inktomi (iWon) là những máy truy tìm với tương trợ dấu ? này.

Dấu ngã ~: Đặc trưng trong Google với một cách để tìm ko những những trang với chứa từ khoá mà còn tìm những trang với chứa chữ đồng nghĩa (synonym) Anh ngữ với từ khoá. Ví dụ, ~food facts sẽ giúp truy tìm những dữ liệu với chữ "food facts" và những chữ tương đương như "nutrition facts",… Sự truy tìm theo tương trợ này đặc trưng hữu dụng trong trường hợp những tài liệu cần tìm quá hiếm hoi.

Chế độ hạng sang của máy truy lùng[sửa|sửa mã nguồn]

300px AskJeeves Chế độ tăng của máy truy lùng AskJeeves ( www.ask.com )

Ngoài chế độ tìm kiếm thông thường hầu hết những máy truy tìm đều tương trợ chức năng tăng mà dòng liên kết của nó thường viết bởi cụm từ "Advanced search", hay thuần tuý là "Advanced". Trong chế độ này thì sự tìm kiếm được hướng dẫn chi tiết hơn. Đặc điểm chung của những chế độ tăng là:

  • Giao diện được thêm vào nhiều khung chữ hay ô trống (text box) với dòng hướng dẫn để tiện người tiêu dùng điền vào. Ko nhất thiết phải điền hết tất cả những khung chữ nhưng những khung này được điền một cách đúng cách và nhiều chi tiết thì càng tạo điều kiện cho máy truy tìm làm việc hiệu quả hơn.
  • Hồ hết những máy truy tìm cho phép lọc lựa (filter) lại những thông tin như là:
    • Lựa chọn tiếng nói. Cho tới nay với một số máy truy tìm sau cho phép tìm riêng những trang Việt ngữ:
    • Lựa chọn tháng ngày của trang Web.
    • Lựa chọn những kiểu tệp (file type).
    • Lọc bỏ những nội dung dành riêng cho người to…

Sở hữu thể sử dụng những phép toán đã nêu trong bài 2 để tăng phép truy lùng. Tuy nhiên, người tiêu dùng nên thận trọng vì hoàn toàn với thể những hiệu quả sẽ chịu tác động tác động của nhiều điều kiện kèm theo khác .

Sử dụng những tính năng đặc trưng quan yếu của máy truy lùng[sửa|sửa mã nguồn]

Những máy truy lùng hoàn toàn với thể cung ứng thêm 1 số ít phương tiện đi lại để tránh khó khăn vất vả của việc truy lùng. Sau đây là vài công dụng đặc trưng quan yếu

  • Tìm thêm dữ liệu theo liên hệ (related search): Sau lúc tìm kiếm, máy truy tìm với thể giúp đào sâu sự truy tìm bằng cách sản xuất những bộ từ khoá chi tiết hơn dưới dạng những dòng liên kết (link). Những liên kết này thu nhỏ thị trường tìm kiếm (nếu số trang tìm theo từ khoá quá to). Thực ra, nếu cách chọn từ khoá đủ tập trung và khéo thì sẽ ko phải mượn tới chức năng này. Ví dụ, như tìm những trang viết về sao Hoả mà tiêu dùng từ khoá mars thì số lượng trang tìm ra sẽ vô cùng to. Do đó, với thể bấm thêm vào những chữ liên hệ để máy truy tìm thu nhỏ thị trường tìm kiếm lại.
    Những trang với chức năng để tìm dữ liệu theo liên hệ là: AltaVista (Related Searches),Ask.com AllTheWeb (Narrow your search), Excite (Refine Your Results), HotBot, Lycos, MSN, Yahoo (also try).
  • Nhóm gọn (cluster): trong lúc tìm kiếm nếu máy truy tìm cho rằng những trang tìm ra với thể ở chung một trang nguồn thì nó chỉ chọn ra một trang đại diện, còn những trang khác sẽ được xếp gọn vào và người tiêu dùng với thể triển khai rộng ra thành nhiều trang nếu muốn. Tương tự, sự tìm kiếm sẽ dễ hơn và ít bị nhiễu loạn thông tin của cùng một trang.
    Những trang với chức năng này là: AltaVista (Additional relevant pages from this site), AllTheWeb (more hits from), Excite, Google (More results from), HotBot, MSN, Northern Light.
  • Trang tương tự và trang với chính tả sắp giống: Trong một số trường hợp thì chức năng tìm những trang tương tự như những trang mà máy truy tìm cho rằng với thể hữu dụng. Để tiêu dùng chức năng này chỉ việc bấm vào liên kết tương ứng. Riêng trong Google thì còn với link gợi ý thêm hay sửa chính tả cho việc truy tìm bằng chữ "Did you mean..."
    Những trang với chức năng tìm trang Web tương tự là: AltaVista (similar pages, related pages), AOL Search (Show me more like this), Google (did you mean, similar pages).

400px Chucnangnangcao

Những chức năng đặc trưng của máy truy tìm Google

  • Trang với từ nối dài (stemming): Đây là khả năng của một số máy truy tìm cho phép tìm những trang với những chữ mở rộng của chữ trong từ khoá. Ví dụ, thay vì chỉ tìm "tutor" thì tìm luôn những trang với "tutors, tutorial, e-tutor,…"
    AOL Search với chức năng này mặc định, Direct Hit, HotBot (Enable Word Stemming).
  • Chức năng tồn trữ (cached) của Google: Sở hữu nhiều trường hợp trang Web đã bị xoá ko thể hiển thị được nữa nhưng thông tin của nó trong hạ tầng dữ liệu của máy truy tìm vẫn còn mà người tiêu dùng với thể cần tới. Trong thời kì những tin tức này chưa bị xoá khỏi hạ tầng dữ liệu thì vẫn với thể đọc được nó nhờ vào chức năng đặc trưng này của Google.
  • Dịch chuyển (translation): Một số trang cho khả năng dịch lại trang tìm thấy sang thứ tiếng mà người tiêu dùng đang với. Thường thì chỉ với dịch được ra những thứ tiếng thông dụng như Anh, Pháp, Đức, hay Tây Ban Nha và sự dịch chuyển này cũng ko xác thực hoàn toàn. Dù vậy, người tiêu dùng với thể nắm được một phần thông tin với thể dịch ra.
    Những trang với chức năng dịch chuyển là: AltaVista (Translate), Google(Translate this page).

Máy tìm hoạt động tiêu khiển như thế nào[sửa|sửa mã nguồn]

Một máy tìm hoạt động tiêu khiển theo những bước cơ bản sau
Những máy tìm mạng triển khai việc làm lưu giữ thông tin về một số lượng khổng lồ những trang web nó tìm thấy trên WWW. Những website này được lấy về bằng những con lọ mọ ( còn gọi là nhện web ) bằng cách lần theo những siêu link. Nội dung những website sau đó được nghiên cứu và phân tích để xác lập xem website đó nên Open trong những nhu yếu tìm kiếm với tổng hợp từ khóa nào ( ví dụ, những từ thu được từ tiêu đề, nội dung hoặc những trường đặc trưng quan yếu gọi là meta tags ) .

Liên kết ngoài[sửa|sửa mã nguồn]

Source: https://bloghong.com
Category: Là Gì