tyle bong da anh

  • Sự đóng góp
  • Thời gian cập nhật 21/10/2021
  • 3 readings
  • Rating 0
  • great
  • Step on

Giới thiệu về tyle bong da anh

xem bong da 24h

Gu Junzhong1 Chen Min2

(1 Viện Ứng dụng Máy tính, Đại học Sư phạm Đông Trung Quốc, Thượng Hải 200062)

(2 Trung tâm xúc tiến thông tin xã hội và kinh tế quốc gia khu vực mới Phố Đông Thượng Hải 201206)

Tóm tắt: Hệ thống tìm kiếm web hiện tại đã bị chỉ trích vì thiếu hỗ trợ ngữ nghĩa. Để giải quyết vấn đề này, cần có sự hỗ trợ của phân tích dữ liệu lớn. Bài viết này thảo luận về vấn đề công cụ tìm kiếm dựa trên phân tích dữ liệu lớn. Lấy công cụ tìm kiếm thông minh SmartSearch do tác giả thiết kế và phát triển làm ví dụ, nó giải thích cách triển khai hiệu quả các ý tưởng thiết kế của tìm kiếm thông minh với sự trợ giúp của phân tích dữ liệu lớn, mở rộng ngữ nghĩa và hỗ trợ bản thể học. Phân tích sâu và thảo luận về kiến ​​trúc tổng thể, thiết kế mô-đun và thiết kế giao diện của hệ thống tìm kiếm đáp ứng việc tìm kiếm thông minh của người dùng. Thực tiễn cho thấy rằng với sự trợ giúp của phân tích dữ liệu lớn, tìm kiếm thông minh có thể được thực hiện một cách hiệu quả.Mạng Tạp chí Giáo dục http://www.jyqkw.com
Từ khóa: công cụ tìm kiếm, dữ liệu lớn, phân tích dữ liệu lớn, tìm kiếm thông minh, bản thể học

1. Tìm kiếm thông minh

Các công cụ tìm kiếm như Google và Baidu đã trở thành trợ thủ mà mọi người không thể làm được nếu không truy cập Internet. Đáng tiếc, mặc dù người dùng sử dụng công cụ tìm kiếm hàng ngày nhưng luôn có những lời phàn nàn liên tục về việc tìm kiếm. Bởi vì có "bản chất" và "cặn bã" trong kết quả của mỗi tìm kiếm, có thông tin bạn muốn và những thứ không liên quan gì đến mục tiêu của bạn.

Ví dụ: nếu chúng ta truy vấn "Vạn Lý Trường Thành", mục đích ban đầu là truy vấn Vạn Lý Trường Thành nổi tiếng. Kết quả được thể hiện trong Hình 1.

Tại đây đã xuất hiện các thông báo như "Great Wall Group", "Great Wall Computer", "Great Wall Chinese School", thực tế đây không phải là những gì người dùng mong muốn. Những gì người dùng thực sự muốn là thông tin về Vạn Lý Trường Thành và các thông tin liên quan phong phú hơn, chẳng hạn như: Vạn Lý Trường Thành được xây dựng khi nào, nó có được liệt kê trong Bảy kỳ quan thế giới hay không, và bảy kỳ quan thế giới khác là gì? và nhiều thứ khác nữa. Chúng không hiển thị trong kết quả tìm kiếm.

Làm thế nào để giải quyết vấn đề này là một thách thức lớn.

Cốt lõi của vấn đề là hệ thống tìm kiếm hiện tại bỏ qua ngữ nghĩa của các yêu cầu của người dùng và ngữ nghĩa của đối tượng tìm kiếm — các tài liệu web. Hệ thống tìm kiếm chỉ tìm kiếm trên Internet theo liệu có từ vựng (chẳng hạn như "Vạn lý trường thành") trong tài liệu cần truy vấn, bất kể ngữ nghĩa của từ vựng này. Trên thực tế, thuật ngữ "Vạn Lý Trường Thành" có thể có nghĩa là tòa nhà cổ kính vĩ đại của Trung Quốc "Vạn Lý Trường Thành", nó có thể là tên của một nhà sản xuất ô tô, một trường học, một công ty CNTT (Great Wall Computer Company), hoặc một nhãn hiệu. Tóm lại, nó có thể mô tả một tòa nhà, thuộc khái niệm "tòa nhà"; nó có thể là tên của một công ty nào đó, thuộc về khái niệm "doanh nghiệp"; nó cũng có thể là một nhãn hiệu, thuộc về khái niệm " Nhãn hiệu".

Một hệ thống tìm kiếm thông minh phải có khả năng hiểu ý nghĩa của các yêu cầu của người dùng và hơn nữa, có thể tự động phân biệt ngữ nghĩa của nó và thực hiện tìm kiếm dựa trên ngữ nghĩa này và ngữ nghĩa của nhu cầu người dùng. Đây là nhiệm vụ của tìm kiếm thông minh.

Hơn nữa, không giống như các truy vấn cơ sở dữ liệu truyền thống, một trong những đặc điểm của tìm kiếm web là người dùng thường không thể bày tỏ đầy đủ nhu cầu của họ ngay lập tức, mà dần dần tiếp cận chúng thông qua nhiều tương tác với các công cụ tìm kiếm (thông qua truy vấn, kiểm tra của người dùng trả về kết quả, Sau đó xây dựng lại truy vấn, công cụ tìm kiếm trả về kết quả tìm kiếm ... theo cách này, nhiều tương tác), nhằm đạt được mục tiêu về cơ bản theo yêu cầu của người dùng. Kết quả là hiệu quả rất thấp. Nếu hệ thống tìm kiếm có thể hiểu rõ ý nghĩa của một yêu cầu truy vấn thông qua phân tích dữ liệu lớn khi người dùng đưa ra yêu cầu truy vấn đầu tiên và tự động mở rộng biểu thức truy vấn về mặt ngữ nghĩa, nó có thể cải thiện đáng kể hiệu quả và giảm gánh nặng cho người dùng.

Đồng thời, trong trường hợp không hỗ trợ ngữ nghĩa, hệ thống tìm kiếm hiện tại cũng không đạt yêu cầu đối với hai chỉ số đánh giá cốt lõi về hiệu suất tìm kiếm thường được công nhận, đó là tỷ lệ chính xác và tỷ lệ thu hồi.

Lấy tỷ lệ truy xuất làm ví dụ. Ví dụ: nếu người dùng truy vấn "Cục chính trị", công cụ tìm kiếm hiện tại sẽ trả về URI của trang web có chứa từ này. Vì vậy, nếu không có từ này trong một trang web, nhưng lại có các Ủy viên Bộ Chính trị và Ủy viên Ban Thường vụ, các trang web đó sẽ bị các công cụ tìm kiếm hiện nay bỏ qua. Ví dụ, nếu từ "Cục chính trị" không xuất hiện trên một trang web, nhưng nội dung nó báo cáo là hoạt động của Bí thư Thành ủy Thượng Hải Han Zheng. Theo ý nghĩa ban đầu của người dùng, công cụ tìm kiếm cũng nên trả về URI tương ứng, bởi vì bí thư Thành ủy Thượng Hải là Ủy viên Bộ Chính trị, và thông tin trên loại trang web này cũng là những gì người dùng. nhu cầu. Một tìm kiếm thông minh hỗ trợ truy vấn ngữ nghĩa nên có chức năng này. Để giải quyết vấn đề này, cần có sự hỗ trợ của phân tích dữ liệu lớn.

Để tạo điều kiện thuận lợi cho việc phân tích, cấu trúc cơ bản của công cụ tìm kiếm được trình bày trong Hình 2.

Như trong Hình 2, yêu cầu tìm kiếm của người dùng xuất hiện dưới dạng biểu thức truy vấn (Quer yExpression). Đánh giá từ dữ liệu thống kê của các kiểu sử dụng hiện có, từ vựng có trong biểu thức yêu cầu tìm kiếm thường nằm trong vòng 2 hoặc 3 từ và hầu hết người dùng sử dụng một từ (chẳng hạn như "Vạn lý trường thành"). Các toán tử logic (chẳng hạn như "và" và "hoặc") có thể được sử dụng để liên kết các từ giữa các từ, chẳng hạn như "Great Wall∧China".

Hệ thống giao diện người dùng của công cụ tìm kiếm (Giao diện truy vấn) nhận được biểu thức truy vấn của người dùng và chuyển tiếp nó tới nhân của công cụ tìm kiếm (SearchEngine Kernel). Nhân của công cụ tìm kiếm trước tiên sẽ tham khảo chỉ mục tài liệu cục bộ và khi được tìm thấy, nó sẽ gửi tài liệu được liên kết với chỉ mục của từ vựng. Cung cấp cho mô-đun sắp xếp và quay trở lại hệ thống giao diện người dùng sau khi sắp xếp. Trong số đó, hệ thống thu thập thông tin (Spider) liên tục thu thập dữ liệu các trang web từ Internet và lưu trữ trong thư viện tài liệu cục bộ (Corpus), đồng thời tự động trích xuất chỉ mục (Index) và ghi vào hệ thống chỉ mục.

Từ năm 2011, với sự hỗ trợ của Ủy ban Khoa học và Công nghệ Thành phố Thượng Hải, Viện Ứng dụng Máy tính của Đại học Sư phạm Hoa Đông đã bắt đầu phát triển một công cụ tìm kiếm thông minh dựa trên phân tích dữ liệu lớn, được gọi là SmartSearch. Người dùng đầu tiên của nó là Đường dây nóng Thượng Hải, một cổng thông tin trực thuộc Viễn thông Thượng Hải (Hình 3 cho thấy giao diện người dùng của nó).

Như trong Hình 3, bên dưới hộp nhập tìm kiếm của SmartSeach, có ba phần tử tìm kiếm tùy chọn: Google, Bing và Nutch. Chúng có thể được chia thành hai loại: tìm kiếm meta và tìm kiếm trực tiếp. Phương pháp tìm kiếm sử dụng các công cụ tìm kiếm hiện có (chẳng hạn như Google và Bing) để tìm kiếm ban đầu và sau đó xử lý được gọi là tìm kiếm meta về mặt học thuật. Ở đây, meta tìm kiếm Google và Bing đề cập đến meta tìm kiếm tương ứng-tìm kiếm của Google và tìm kiếm của Microsoft; và Nutch đề cập đến tìm kiếm trực tiếp của chính SmartSeach, được đặt tên như vậy vì SmartSeach sử dụng phần mềm nguồn mở Nutch để thu thập dữ liệu mạng. SmartSearch cho phép người dùng chỉ sử dụng tìm kiếm meta, tìm kiếm trực tiếp hoặc kết hợp cả hai để lấy dữ liệu.

Để giải quyết vấn đề thiếu ngữ nghĩa, SmartSearch trước tiên phân tích khái niệm mà từ mà người dùng yêu cầu thuộc về khái niệm nào. Ví dụ: "Great Wall" thuộc về một tòa nhà, tên công ty hay nhãn hiệu; một ví dụ khác là "Virus "thuộc về khái niệm y tế hoặc khái niệm thông tin. Mục tiêu cần sự hỗ trợ của dữ liệu lớn.

Tóm lại, thông qua phân tích dữ liệu lớn, hệ thống sẽ tự động liên kết các từ vựng mà người dùng yêu cầu với khái niệm tương ứng. Chúng tôi sử dụng ánh xạ 1 và 2 để biểu diễn:

1 (thuật ngữ truy vấn) = khái niệm

Trong một khái niệm, đôi khi có nhiều đối tượng liên kết với từ vựng, do đó, nó có thể bị ràng buộc thêm với các đối tượng liên quan.

2 (khái niệm) = đối tượng

Dữ liệu lớn liên quan ở đây bao gồm sự hài lòng với các yêu cầu trước đây của người dùng và kết quả trả về, dữ liệu lịch sử được người dùng sử dụng (tức là dữ liệu Cookie) và đặc điểm hành vi của người dùng.

Các chức năng thông minh được cung cấp bởi giao diện người dùng của SmartSearch bao gồm:

1. Liên kết một thuật ngữ truy vấn với một khái niệm hoặc đối tượng cụ thể, chẳng hạn, cung cấp giao diện truy vấn:

Vạn lý trường thành &

Vạn Lý Trường Thành & <Đối tượng>

đại diện cho một khái niệm cụ thể, chẳng hạn như "building"; đề cập đến một đối tượng cụ thể. Dựa trên phân tích dữ liệu lớn và suy luận kiến ​​thức, ràng buộc này có thể được thực hiện tự động. Tức là, người dùng gửi truy vấn "Vạn Lý Trường Thành" và hệ thống tìm kiếm sẽ tự động mở rộng nó thành "Vạn Lý Trường Thành & Tòa nhà" thông qua phân tích dữ liệu lớn. Bằng cách triển khai truy vấn theo cách này, có thể thu được kết quả thỏa đáng.

2. Tìm kiếm mức độ liên quan và mối quan hệ

Kết quả của truy vấn "Vạn Lý Trường Thành" ở trên là thông tin về Vạn Lý Trường Thành, nhưng người dùng thường cảm thấy cơn khát của họ vẫn chưa được dập tắt. Họ cũng muốn biết: Vạn Lý Trường Thành thuộc Bảy kỳ quan thế giới Vậy thông tin về sáu kỳ quan tương tự còn lại là gì? Cụ thể, so với việc thu thập thông tin cá nhân đơn giản, người dùng có xu hướng thích kết quả tìm kiếm mức độ liên quan và tìm kiếm mối quan hệ hơn.

Ví dụ: người dùng sẽ cố gắng truy vấn thông tin mối quan hệ giữa hai đối tượng, chẳng hạn như:

Tìm một đối tượng liên quan đến một đối tượng:

Truy vấn này có nghĩa là tìm kiếm thông tin về các đối tượng có mối quan hệ cha con / con gái với Yao Ming (YAO Ming). Một ví dụ khác,

Truy vấn này dành cho thông tin về mối quan hệ giữa Yao Ming và Ye Li (YE Li).

3. Truy vấn mẫu, cụ thể là Truy vấn bằng ví dụ

Truy vấn mẫu là một giao diện mà người dùng rất vui khi thấy. Thông thường, người dùng sử dụng một ví dụ để minh họa nhu cầu của họ. Ví dụ: nếu người dùng muốn lấy thông tin về một công dân Nga tương tự như tình trạng của Obama ở Hoa Kỳ, anh ta có thể sử dụng truy vấn:

,

Kết quả của các truy vấn tương tự trong Tìm kiếm thông minh được hiển thị trong Hình 4.

Thông tin của Tổng thống Nga được trả lại cho người dùng dưới dạng một sơ đồ mối quan hệ, như trong phần bên phải của Hình 4.

2. Phân tích dữ liệu lớn và tìm kiếm thông minh

Rõ ràng, tìm kiếm thông minh tốt hơn nhiều so với tìm kiếm hiện tại. Để thực hiện tìm kiếm thông minh, cần có nhiều kiến ​​thức, chẳng hạn như:

● Người dùng cần biết chính xác những gì?

● Các bài báo tìm thấy trên Internet cho chúng ta biết điều gì?

● Ý kiến ​​của bài báo về một đối tượng đáng khen ngợi hay xúc phạm?

● Bạn có thể cho tôi biết tóm tắt của bài báo trong vài dòng không?

● Ngoài nội dung báo cáo trong bài báo, còn những thông tin liên quan nào khác?

...

Việc tiếp thu những kiến ​​thức này liên quan đến các vấn đề về dữ liệu lớn và phân tích dữ liệu lớn. Trên thực tế, có một số vấn đề liên quan ở đây. Một là làm thế nào để tìm hiểu nhu cầu thực sự của người dùng thông qua phân tích dữ liệu lớn; hai là tìm hiểu ngữ nghĩa và nội hàm của các tài liệu trên Internet thông qua phân tích dữ liệu lớn; và mở rộng ngữ nghĩa của các truy vấn tự động làm cho người dùng muốn có được Mở rộng thông tin và xử lý kiến ​​thức.

Để biết liệu yêu cầu do người dùng nhập, chẳng hạn như "Vạn lý trường thành" ở đây, có nghĩa là một tòa nhà nổi tiếng, "Vạn lý trường thành", Great Wall Motors, Great Wall Computer Company hay Great Wall Marathon, hệ thống tìm kiếm cần phân tích :

1) Dữ liệu lịch sử được hầu hết người dùng truy vấn trước đây

2) Lịch sử truy vấn của người dùng

3) Thói quen sử dụng của người dùng

4) Bối cảnh của yêu cầu người dùng (nghĩa là người dùng vừa hỏi cái gì?)

và nhiều thứ khác nữa.

Loại phân tích này liên quan đến việc phân tích dữ liệu nhật ký khổng lồ, dữ liệu cookie lướt web của người dùng, đặc điểm hành vi của người dùng, v.v. Bài toán phân tích là một bài toán phân tích dữ liệu lớn điển hình. Đồng thời, để thực hiện truy vấn liên kết được hiển thị trong Hình 4, để tự động phân tích từ Internet của người Nga và thông tin của họ tương tự như mối quan hệ của Obama ở Hoa Kỳ, cần phải phân tích liên kết và công nghệ phân tích dữ liệu lớn là cần thiết.

Hình 5 là kết quả của việc tìm kiếm "Faye Wong" dựa trên SmartSearch thông qua phân tích dữ liệu lớn.

Trong tìm kiếm của SmartSearch, từ truy vấn "Faye Wong" do người dùng nhập tự động được liên kết với khái niệm "người", sau đó là "nghệ sĩ giải trí" và "ca sĩ". Như trong hình, trên Internet cũng có một "Faye Wong", là quyền thị trưởng thành phố Quảng Nguyên. Với sự trợ giúp của nhật ký và phân tích hành vi, hệ thống xác định rằng người dùng quan tâm đến ca sĩ Faye Wong và do đó trả về thông tin liên quan về ca sĩ Faye Wong. Với sự hỗ trợ của dữ liệu lớn, phân tích của những người liên quan đến Faye Wong sẽ được trả lại, như được hiển thị trong phần bên phải của trang (như trong Hình 6 sau khi nhấp để phóng to).

Thông qua phân tích dữ liệu lớn, các tài liệu cũng có thể được tự động tóm tắt và thậm chí có thể thực hiện tóm tắt nội dung của tất cả các tài liệu được tìm thấy. Hình 7 cho thấy hệ thống tự động đưa ra một bản tóm tắt của tài liệu sau khi nhấp vào Tóm tắt của thông báo đầu tiên. Để có bản tóm tắt của tất cả các tài liệu, chỉ cần nhấp vào WholeSummary trên trang.

Có thể thấy rằng với sự hỗ trợ của phân tích dữ liệu lớn, tìm kiếm thông minh có thể thể hiện những chức năng mạnh mẽ.

Công nghệ phân tích dữ liệu lớn được sử dụng trong một số khía cạnh trong Tìm kiếm thông minh:

1) Phân tích dữ liệu lớn xác nhận mong muốn thực sự được thể hiện theo yêu cầu của người dùng

2) Phân tích dữ liệu lớn để thu được thông tin ngữ nghĩa của tài liệu web

3) So sánh chính xác thông tin ngữ nghĩa mà người dùng yêu cầu với thông tin ngữ nghĩa của tài liệu web

4) Thực hiện mở rộng ngữ nghĩa và tìm kiếm mở rộng trên các tài liệu ứng viên được chọn sau khi so sánh

5) Sắp xếp các tài liệu kết quả một cách hợp lý

Để tìm hiểu các yêu cầu ngữ nghĩa chính xác của một từ truy vấn do người dùng nhập vào, cần phải khai thác và phân tích một số lượng lớn các yêu cầu truy vấn lịch sử của người dùng, làm rõ yêu cầu nhập của người dùng, lấy kết quả và sau đó cấu trúc lại truy vấn để có được kết quả ... Cho đến khi người dùng ngừng xây dựng lại truy vấn. Dừng xây dựng lại truy vấn có nghĩa là người dùng hài lòng với kết quả. Ý nghĩa thực sự của truy vấn ban đầu là ý nghĩa của truy vấn cuối cùng và hệ thống tìm kiếm có thể nhận ra truy vấn cuối cùng là nhu cầu của người dùng thông qua phân tích. Bằng cách này, với sự trợ giúp của phân tích dữ liệu lịch sử, hệ thống tìm kiếm thông minh có thể tìm hiểu các đặc điểm hành vi của người dùng và các khái niệm tương ứng mà họ quan tâm trong từ vựng. Chỉ cần người dùng nhập truy vấn một lần, hệ thống sẽ tự động tìm kiếm theo khái niệm tương ứng, giúp cải thiện hiệu quả và làm cho người dùng thuận tiện hơn.

Ví dụ, lần đầu tiên người dùng nhập "Vạn lý trường thành", hệ thống tìm kiếm sẽ trả về kết quả như Hình 1, và người dùng không hài lòng. Do đó, người dùng tạo lại truy vấn: "Great Wall∧Building". Kết quả tìm kiếm, người dùng hài lòng và ngừng cấu trúc lại truy vấn. Bằng cách này, hệ thống có thể, dựa trên dữ liệu lớn về hành vi lịch sử đã tìm kiếm của người dùng (chẳng hạn như dữ liệu cookie), khi người dùng đưa ra yêu cầu truy vấn "Great Wall" lần đầu tiên, hệ thống trực tiếp biết được yêu cầu của người dùng thông qua phân tích. để truy vấn Vạn lý trường thành như một tòa nhà, rồi trả về Thông tin về Vạn lý trường thành. Không cần người dùng liên tục cấu trúc lại các truy vấn, những lợi thế của phân tích dữ liệu lớn đã được tiết lộ. Do hạn chế về không gian nên sẽ giới thiệu chi tiết trong một bài viết khác.

Thứ ba, việc thực hiện tìm kiếm thông minh

Để thực hiện các chức năng được yêu cầu trước đây dựa trên phân tích dữ liệu lớn, các công cụ tìm kiếm truyền thống phải được mở rộng. Để mở rộng hệ thống giao diện người dùng, cơ chế phân tích và suy luận phải được thêm vào. Hình 8 là một sơ đồ của sự mở rộng thông minh.

1) Phân tích dữ liệu lớn xác nhận mong muốn thực sự được thể hiện theo yêu cầu của người dùng

2) Phân tích dữ liệu lớn để thu được thông tin ngữ nghĩa của tài liệu web

3) So sánh chính xác thông tin ngữ nghĩa mà người dùng yêu cầu với thông tin ngữ nghĩa của tài liệu web

4) Thực hiện mở rộng ngữ nghĩa và tìm kiếm mở rộng trên các tài liệu ứng viên được chọn sau khi so sánh

5) Sắp xếp các tài liệu kết quả một cách hợp lý

Để tìm hiểu các yêu cầu ngữ nghĩa chính xác của một từ truy vấn do người dùng nhập vào, cần phải khai thác và phân tích một số lượng lớn các yêu cầu truy vấn lịch sử của người dùng, làm rõ yêu cầu nhập của người dùng, lấy kết quả và sau đó cấu trúc lại truy vấn để có được kết quả ... Cho đến khi người dùng ngừng xây dựng lại truy vấn. Dừng xây dựng lại truy vấn có nghĩa là người dùng hài lòng với kết quả. Ý nghĩa thực sự của truy vấn ban đầu là ý nghĩa của truy vấn cuối cùng và hệ thống tìm kiếm có thể nhận ra truy vấn cuối cùng là nhu cầu của người dùng thông qua phân tích. Bằng cách này, với sự trợ giúp của phân tích dữ liệu lịch sử, hệ thống tìm kiếm thông minh có thể tìm hiểu các đặc điểm hành vi của người dùng và các khái niệm tương ứng mà họ quan tâm trong từ vựng. Chỉ cần người dùng nhập truy vấn một lần, hệ thống sẽ tự động tìm kiếm theo khái niệm tương ứng, giúp cải thiện hiệu quả và làm cho người dùng thuận tiện hơn.

Ví dụ, lần đầu tiên người dùng nhập "Vạn lý trường thành", hệ thống tìm kiếm sẽ trả về kết quả như Hình 1, và người dùng không hài lòng. Do đó, người dùng tạo lại truy vấn: "Great Wall∧Building". Kết quả tìm kiếm, người dùng hài lòng và ngừng cấu trúc lại truy vấn. Bằng cách này, hệ thống có thể, dựa trên dữ liệu lớn về hành vi lịch sử đã tìm kiếm của người dùng (chẳng hạn như dữ liệu cookie), khi người dùng đưa ra yêu cầu truy vấn "Great Wall" lần đầu tiên, hệ thống trực tiếp biết được yêu cầu của người dùng thông qua phân tích. để truy vấn Vạn lý trường thành như một tòa nhà, rồi trả về Thông tin về Vạn lý trường thành. Không cần người dùng liên tục cấu trúc lại các truy vấn, những lợi thế của phân tích dữ liệu lớn đã được tiết lộ.

Do hạn chế về không gian nên sẽ giới thiệu chi tiết trong một bài viết khác.

Thứ ba, việc thực hiện tìm kiếm thông minh

Để thực hiện các chức năng được yêu cầu trước đây dựa trên phân tích dữ liệu lớn, các công cụ tìm kiếm truyền thống phải được mở rộng. Để mở rộng hệ thống giao diện người dùng, cơ chế phân tích và suy luận phải được thêm vào. Hình 8 là một sơ đồ của sự mở rộng thông minh.

Ở đây, một số thành phần cốt lõi đã được mở rộng trên công cụ tìm kiếm: QueryInterface mở rộng ngữ nghĩa, Hệ thống hỗ trợ ngữ nghĩa, Hệ thống suy luận và Hệ thống Ontology.

● Giao diện truy vấn mở rộng về mặt ngữ nghĩa được sử dụng để phân tích các yêu cầu của người dùng, xác định ngữ nghĩa của các yêu cầu của người dùng và liên kết với các khái niệm hoặc đối tượng nhất định.

● Hệ thống hỗ trợ ngữ nghĩa là một mô-đun xử lý ngữ nghĩa cơ bản hỗ trợ phân tích ngữ nghĩa.

● Hệ thống lập luận là một công cụ lập luận phục vụ cho việc phân tích ngữ nghĩa và xử lý tri thức.

● Hệ thống Ontology được sử dụng để biểu diễn và xử lý tri thức. Tri thức có thể được mô tả bởi ontology, và ontology được quản lý bởi ontology system. Bản thể luận có thể được mô tả bằng đồ thị có hướng (DAG). Các nút đại diện cho các khái niệm và các vòng cung có hướng biểu thị mối quan hệ giữa các khái niệm. Ví dụ: một người đàn ông và một người phụ nữ có thể được mô tả như hai khái niệm và mối quan hệ giữa họ, vợ và chồng, có thể được mô tả bằng vòng cung có hướng (hai chiều) giữa hai nút này. Cơ sở tri thức (KB) lưu trữ các khái niệm và mối quan hệ giữa các khái niệm / đối tượng mà người dùng có thể quan tâm. Ở đây, kiến ​​thức được chia thành kiến ​​thức tĩnh và kiến ​​thức động. Kiến thức tĩnh là kiến ​​thức được lưu trữ trực tiếp trong cơ sở kiến ​​thức và kiến ​​thức động là kiến ​​thức được khai thác trực tiếp từ Internet. Kiến thức được khai thác sau đó được lưu trữ trong cơ sở kiến ​​thức và trở thành kiến ​​thức tĩnh.

SmartSearch được triển khai trên hệ thống mã nguồn mở Hadoop. Để đạt được hiệu quả quản lý dữ liệu, hệ thống tệp phân tán (HDFS) và công nghệ cơ sở dữ liệu SQL / NoSQL được sử dụng để quản lý chỉ mục tài liệu được tìm kiếm, thư viện tài liệu, cơ sở kiến ​​thức và các dữ liệu khác. Để đáp ứng nhu cầu tính toán khối lượng lớn, công nghệ MapReduce được sử dụng ở đây, tức là các yêu cầu tính toán được tự động phân rã thành một chuỗi các phép tính con, và nhiều nút tính toán được tính toán cùng nhau, đây là tiến trình Bản đồ. Sau đó, các kết quả phụ tính toán của mỗi nút tính toán được thu thập và rút gọn thành một kết quả tổng, đó là quy trình Rút gọn. Phương pháp tính toán này có tính song song cao, khả năng mở rộng mạnh mẽ và yêu cầu thấp đối với các nút tính toán. Nó có thể giải quyết vấn đề nan giải về lượng lớn dữ liệu lớn, lượng phân tích và tính toán lớn và các nền tảng tính toán truyền thống khó hỗ trợ.

Một số thành phần cơ bản được mô tả như sau:

● Dựa trên Apache Nutch1 và Solr2, chúng tôi đã xây dựng một nhân công cụ tìm kiếm (Search Engine Kernel). Nutch là một phần mềm tìm kiếm mã nguồn mở, được triển khai bằng Java và Solr cũng là một phần mềm tìm kiếm mã nguồn mở. Cái trước được sử dụng để triển khai thu thập thông tin của trình thu thập thông tin và cái sau được sử dụng để quản lý chỉ mục và quản lý cơ bản. Kernel của công cụ tìm kiếm dựa trên Nutch và Solr chịu trách nhiệm truy cập Internet để tìm nạp dữ liệu, tự động xây dựng một chỉ mục sau khi tìm nạp nó và lưu trữ nó trong thư viện chỉ mục cục bộ và thư viện tài liệu. Khi người dùng yêu cầu, hãy cung cấp dịch vụ lập chỉ mục và trực tiếp tìm các tài liệu có liên quan trong thư viện tài liệu cục bộ với sự trợ giúp của chỉ mục. Trong SmartSearch, chức năng tìm kiếm đã được mở rộng, không còn tìm kiếm tài liệu từ chỉ mục như các công cụ tìm kiếm truyền thống mà tìm kiếm tài liệu từ các khái niệm được ngụ ý trong truy vấn của người dùng và phản ánh đầy đủ ngữ nghĩa. Điều này đạt được với sự trợ giúp của mô-đun Mở rộng QuerySemantic trong hình.

● Giao diện truy vấn mở rộng ngữ nghĩa (SEQE) và Hệ thống hỗ trợ tri thức (Knowledge Support System) được sử dụng để phân tích ngữ nghĩa và mở rộng ngữ nghĩa cho các truy vấn của người dùng, và các truy vấn đã xử lý sẽ được chuyển đến hạt nhân. Hệ thống cũng thiết kế các giao diện của bên thứ ba, chẳng hạn như giao diện phân tích dựa trên dữ liệu lớn bản thể học.

● Mô-đun mở rộng ngữ nghĩa truy vấn (QSE) và Hệ thống hỗ trợ kiến ​​thức (KSS) được sử dụng để mở rộng ngữ nghĩa. QSE sử dụng công nghệ dữ liệu lớn với sự trợ giúp của ngữ cảnh, đặc điểm người dùng, hành vi người dùng và lịch sử truy vấn (ví dụ: Cookie). Phân tích truy vấn của người dùng và ràng buộc các từ mà người dùng yêu cầu với các khái niệm hoặc đối tượng cụ thể. Nền tảng kiến ​​thức ở đây là một hệ thống tự mở rộng.

● Hệ thống bản thể là cơ sở của biểu diễn tri thức, với các đặc điểm về khả năng mở rộng, khả năng phản xạ, tự tăng trưởng và khả năng quản lý. Động cơ lý luận là một hệ thống lý luận tri thức dựa trên quy tắc. Đối với phân tích dữ liệu lớn và thu nhận kiến ​​thức, cách thể hiện kiến ​​thức là rất quan trọng. Ontology là một chủ đề rất phổ biến gần đây, có thể được sử dụng để mô tả ngữ nghĩa và kiến ​​thức của các khái niệm, vì vậy SmartSearch được triển khai trên một hệ thống ontology hiệu quả.

Thứ tư, kết luận

SmartSearch đã tạo ra một bước đột phá lớn trong công nghệ. Lần đầu tiên nhận ra việc khai thác và phân tích dữ liệu văn bản khổng lồ. Với sự trợ giúp của các kết quả phân tích dữ liệu văn bản, có thể thu được thông tin ngữ nghĩa của dữ liệu văn bản khổng lồ trên mạng. Với sự trợ giúp của phân tích liên kết chuyên sâu, các đối tượng mà người dùng quan tâm trong thông tin văn bản mạng có thể được đào sâu hơn, để có được thông tin đối tượng liên quan và các đặc điểm liên quan của đối tượng. Thứ hai, phân tích ngữ nghĩa của các yêu cầu của người dùng được thực hiện. Với sự trợ giúp của công nghệ phân tích dữ liệu lớn, mục đích, ngữ nghĩa và thông tin ẩn của từ vựng đầu vào của người dùng được tự động hiểu, để kết quả tìm kiếm đáp ứng mong muốn của người dùng và độ chính xác của tìm kiếm và tỷ lệ thu hồi được cải thiện. Đồng thời, với sự trợ giúp của phân tích dữ liệu lớn, các kết quả trả về có thể được tổng hợp tự động và tất cả các tài liệu trả về có thể được tóm tắt, thuận tiện cho người dùng và tạo nền tảng cho quá trình xử lý thông minh hơn.

Mạng Tạp chí Giáo dục http://www.jyqkw.com
người giới thiệu

[1]Junzhong Gu. Tìm kiếm web định hướng ngữ nghĩa, Tạp chí quốc tế về lý thuyết và ứng dụng cơ sở dữ liệu[J].Vũ 6, số 4, tháng 8, 2013.

[2]Shen, Yitao. Gu, Junzhong. Diao, Lijuan. Sử dụng Seme BasedGraph để ước tính mức độ liên quan ngữ nghĩa từ vựng của Trung Quốc[C]Hội nghị quốc tế lần thứ 5 về khoa học thông tin và ứng dụng, ngày 6 tháng 5 năm 2014-ngày 9 tháng 5 năm 2014, Seoul, Hàn Quốc.

Chúc các bạn đọc tin tyle bong da anh vui vẻ!