Công nghệ giảm báo động giả trên Camera HIKvision

Hiện tượng học tập sâu sắc tiếp tục kích động thế giới CNTT, với sức mạnh tính toán hiện nay ở mức độ mà nó có thể được sử dụng đúng cách trong các ứng dụng thực tiễn. Hikvision đã đi đầu trong việc áp dụng công nghệ trong ngành giám sát và vượt ra ngoài, và đã phát hành tập đầu tiên của sản phẩm khai thác sức mạnh của trí tuệ nhân tạo (AI). 

Khái niệm học tập sâu sắc có nguồn cảm hứng từ cách não người hoạt động. Bộ não của chúng ta có thể được xem như là một mô hình học tập rất phức tạp. Các mạng thần kinh não bao gồm hàng tỷ các nơ-ron thần kinh kết nối; học tập sâu mô phỏng cấu trúc này. Các mạng lớp đa lớp này có thể thu thập thông tin và thực hiện các hành động tương ứng theo phân tích thông tin đó.

Trong hai năm qua, công nghệ này đã xuất sắc trong nhận dạng tiếng nói, tầm nhìn máy tính, dịch tiếng nói và nhiều hơn nữa. Nó thậm chí đã vượt qua khả năng của con người trong các lĩnh vực xác minh khuôn mặt và phân loại hình ảnh; do đó, nó đã được đánh giá cao trong lĩnh vực giám sát bằng video cho ngành công nghiệp an ninh. 

Khả năng nâng cao nhận thức của con người - ví dụ như phân biệt chúng với động vật - làm cho công nghệ này trở thành một bổ sung tuyệt vời cho kho vũ khí an ninh. Theo thống kê của cảnh sát và các dịch vụ hỏa hoạn, điều này đặc biệt có liên quan trong một thế giới mà các báo động giả chiếm 94 đến 99% tất cả các báo động.

Các hoạt động học tập sâu sắc như thế nào

Học sâu là bản chất khác so với các thuật toán khác. Cách giải quyết những thiếu sót của thuật toán truyền thống được bao gồm trong các khía cạnh sau đây.

Mô hình thuật toán học sâu có cấu trúc sâu hơn các thuật toán truyền thống. Đôi khi, số lớp có thể đạt được trên một trăm, cho phép nó xử lý số lượng lớn dữ liệu trong các phân loại phức tạp. Học tập sâu sắc là rất giống với quá trình học của con người, và có một quá trình trừu tượng-tính-từng-lớp. Mỗi lớp sẽ có trọng số khác nhau, và trọng số này phản ánh những gì đã được học về các thành phần của hình ảnh. Cấp độ lớp càng cao thì các thành phần cụ thể càng cụ thể. Cũng giống như bộ não con người, một tín hiệu ban đầu trong quá trình học tập sâu sắc đi qua các lớp xử lý; tiếp theo, nó cần một sự hiểu biết một phần (nông) cho một trừu tượng tổng thể (sâu),nơi nó có thể nhận ra đối tượng.
 


Học tập sâu không đòi hỏi sự can thiệp bằng tay nhưng dựa vào một máy tính để trích xuất các tính năng của chính nó. Bằng cách này, nó có thể trích xuất nhiều tính năng từ mục tiêu càng tốt, bao gồm các tính năng trừu tượng khó hoặc không thể mô tả được. Càng có nhiều tính năng thì việc nhận dạng và phân loại chính xác hơn sẽ được thực hiện. Một số lợi ích trực tiếp mà các thuật toán học sâu có thể mang lại bao gồm đạt được độ chính xác nhận dạng tương đương hoặc thậm chí tốt hơn so với con người, khả năng chống nhiễu mạnh và khả năng phân loại và nhận biết hàng ngàn tính năng.
 

Thách thức của các hệ thống hiện có

Các hệ thống giám sát thông thường hầu hết phát hiện các mục tiêu chuyển động mà không cần phân tích thêm. Ngay cả các camera IP thông minh cũng chỉ có thể ánh xạ từng điểm trên từng hình một, làm cho việc hiệu chuẩn một số tính năng (ví dụ trán hoặc má) rất khó khăn, do đó giảm độ chính xác. 

Ví dụ như đối với bảo mật chu vi, các công nghệ khác có thể được (và được sử dụng) để cung cấp bảo mật toàn diện hơn. Nhưng tất cả đều có nhược điểm của họ. Các máy dò phát hồng ngoại có thể được "nhảy qua" nhưng cũng có thể bị báo động sai do động vật gây ra. Hàng rào điện tử có thể là một mối nguy an toàn, và được giới hạn ở một số khu vực nhất định. Một số giải pháp này cũng có thể tốn kém và phức tạp để cài đặt.

Vật thể như động vật, lá hoặc thậm chí là ánh sáng có thể gây ra các báo động giả, do đó việc xác định được hình dạng của con người thực sự cải thiện tính chính xác của các chức năng VCA chu vi. Báo động sai thường xuyên luôn là vấn đề cho người dùng cuối, những người cần dành thời gian để điều tra từng trang, có khả năng trì hoãn bất kỳ phản ứng cần thiết nào và thường ảnh hưởng đến hiệu quả.
 


Hãy tưởng tượng, ví dụ, một tình huống mà nó tương đối yên tĩnh - một vị trí vào ban đêm, nơi có rất ít xe hơi và những người xung quanh. Ngay cả ở đây, có thể có 50 tín hiệu cảnh báo sai trong một đêm. Giả sử phải mất 2-3 phút để kiểm tra một báo động giả, và chỉ có 3 trong số 50 đảm bảo sự chú ý nhiều hơn - nói mỗi 15 phút. Người bảo vệ cần phải kiểm tra hệ thống và nhìn lại cảnh báo, hoặc người nào đó cần được gửi đến địa điểm và nhìn xung quanh, kiểm tra xem có ai đã "nhập cảnh mà không được phép" hay không. Trong hầu hết các tổ chức, chúng cũng cần được báo cáo / ghi lại, thêm vào tổng thời gian dành cho "báo động giả" này. Vì vậy, 50 tín hiệu giả này có thể tốn hơn hai giờ mỗi đêm lãng phí thời gian trong kịch bản đó.

Học tập sâu, tuy nhiên, tạo ra một sự khác biệt lớn. Với số lượng lớn dữ liệu chất lượng tốt từ máy ảnh và các nguồn khác, như Viện Nghiên cứu Hikvision, và hơn một trăm thành viên làm sạch dữ liệu để gắn nhãn các hình ảnh video, dữ liệu mẫu với hàng triệu chủng loại trong ngành đã được tích lũy. Với số lượng lớn dữ liệu đào tạo có chất lượng này, các mô hình nhận dạng khuôn mặt người, xe và đối tượng ngày càng trở nên chính xác hơn cho việc sử dụng giám sát bằng video.

Dựa trên một loạt các thí nghiệm, độ chính xác nhận dạng của các giải pháp sử dụng thuật toán học sâu đã tăng độ chính xác lên 38% - áp dụng thí dụ này cho ví dụ trước, đó là tiết kiệm gần một giờ mỗi đêm. Điều này làm cho công nghệ học tập sâu sắc trở thành một lợi thế lớn trong giải pháp bảo mật chu vi, với nhiều dòng chính xác hơn, xâm nhập, lối vào và xuất cảnh.

Sử dụng khác

Giá trị của công nghệ Học tập sâu xa hơn bảo mật truyền thống. Ví dụ, theo dõi các mô hình chuyển động của các cá nhân có thể thấy nếu họ đang "loitering" và một mối đe dọa tiềm ẩn trong tương lai. Một ngưỡng có thể được thiết lập để bán kính năm mét, hoặc 10 giây để ở trong cùng một vị trí. Nếu người đó vượt qua ngưỡng nào, một cảnh báo có thể được kích hoạt. Giải pháp theo dõi cá nhân và so sánh hành vi này với một cơ sở dữ liệu để xem liệu nó có nhận ra một mẫu hay không.

Một ứng dụng khác sẽ là trong trường hợp "ngã xuống" có thể là mối đe dọa, giống như một nhà chăm sóc người cao tuổi. Nếu một ngưỡng chiều cao được đặt ở mức 0,5m và thời gian 10 giây, ví dụ giải pháp sẽ có thể thấy một người rơi xuống (khi họ đi dưới 0.5m) và có thể gặp rắc rối (nếu họ "ở lại" dài hơn 10 giây). Giải pháp sử dụng các tham số thiết lập để so sánh với cơ sở dữ liệu của nó và nâng cao một báo động. 

Với các tính năng và lợi ích như thế này, thật dễ dàng để xem có bao nhiêu ứng dụng thông minh có thể được cung cấp bởi công nghệ học tập sâu sắc.

Trung tâm nghiên cứu và phát triển 10.000 mạnh mẽ đang đẩy các ranh giới của các giải pháp giám sát và mang lại nhiều lợi ích hơn cho họ. Trí tuệ nhân tạo có tiềm năng to lớn, và Hikvision luôn khám phá những cách mới để áp dụng công nghệ thú vị này trong toàn ngành an ninh và hơn thế nữa.