Những lợi ích của công nghệ Deep Learning cho các thiết bị an ninh giám sát như thế nào?

Khi các dự án camera giám sát với quy mô lớn đang ngày càng nhiều, số lượng có thể lên đến hàng trăm nghìn thiết bị. Để lưu trữ dữ liệu dung lượng lớn, độ nét cao, thu thập, phân tích và ứng dụng dữ liệu một cách hiệu quả và sử dụng dữ liệu một cách thông minh đang trở nên quan trọng hơn bao giờ hết trong các yêu cầu đặt ra khi triển khai thiết kế một hệ thống an ninh. Do đó, muốn giải quyết việc lưu trữ cần phải có một công nghệ tối ưu với giá thành hợp lý.

Người dùng bảo mật hy vọng rằng việc đầu tư của họ vào các sản phẩm mới sẽ mang lại nhiều lợi ích hơn nữa ngoài việc truy tìm và theo dõi những người quan tâm và thu thập bằng chứng sau một sự kiện bảo mật. Một số ví dụ về các lợi ích bổ sung bao gồm sử dụng các công nghệ mới nhất để thay thế lượng lớn sức người cần thiết trước đây để tìm kiếm cảnh quay giám sát, phát hiện dữ liệu bất thường và tìm ra các cách hiệu quả hơn để cho phép giám sát chuyển từ theo dõi sau sự cố sang cảnh báo trong sự cố —Hoặc thậm chí là cảnh báo trước sự cố. Để đáp ứng những nhu cầu này, cần phải có những công nghệ mới. Giám sát video thông minh đã có sẵn trong nhiều năm. Tuy nhiên, kết quả của việc áp dụng nó không phải là lý tưởng. Sự xuất hiện của học sâu đã cho phép những yêu cầu này trở thành hiện thực.

Tính kém hiệu quả của các thuật toán thông minh truyền thống

Giám sát video thông minh truyền thống có các yêu cầu đặc biệt nghiêm ngặt đối với nền của cảnh. Độ chính xác của nhận dạng và phân tích thông minh trong các tình huống có thể so sánh vẫn không nhất quán. Điều này chủ yếu là do các thuật toán phân tích video thông minh truyền thống vẫn còn nhiều sai sót.

Trong một quy trình phân tích và nhận dạng thông minh, chẳng hạn như nhận dạng khuôn mặt người, cần có hai bước chính: Đầu tiên, các tính năng được trích xuất và thứ hai, “học phân loại” được thực hiện.

Mức độ chính xác trong bước đầu tiên này trực tiếp xác định độ chính xác của thuật toán. Trên thực tế, phần lớn khối lượng công việc tính toán và kiểm tra của hệ thống được tiêu tốn trong phần này. Các tính năng trong thuật toán thông minh truyền thống được thiết kế bởi con người và luôn mang nặng tính chủ quan. Những đặc điểm trừu tượng hơn – những đặc điểm mà con người khó hiểu hoặc khó mô tả – chắc chắn sẽ bị bỏ sót. Với việc thay đổi góc và ánh sáng, và đặc biệt là khi kích thước mẫu quá lớn, nhiều tính năng có thể quá khó để phát hiện. Do đó, trong khi các thuật toán thông minh truyền thống hoạt động tốt trong các môi trường rất cụ thể, những thay đổi tinh vi (chất lượng hình ảnh, môi trường, v.v.) mang lại những thách thức đáng kể về độ chính xác.

Bước thứ hai – học phân loại – chủ yếu liên quan đến việc phát hiện mục tiêu và nhận dạng thuộc tính. Khi số lượng các danh mục có sẵn để phân loại tăng lên, mức độ khó khăn cũng tăng theo. Do đó, các công nghệ phân tích thông minh truyền thống có độ chính xác cao trong phân tích phương tiện nhưng không phân tích con người và vật thể. Ví dụ, trong phát hiện phương tiện, người ta phân biệt một phương tiện và một phương tiện không phải là phương tiện, vì vậy việc phân loại đơn giản và mức độ khó thấp. Để nhận ra các thuộc tính của phương tiện, yêu cầu nhận dạng các thiết kế, logo, v.v. của các phương tiện khác nhau. Tuy nhiên, có tương đối ít trong số này, làm cho kết quả phân loại nói chung là chính xác. Mặt khác, nếu nhận dạng được thực hiện trên khuôn mặt của con người, thì mỗi người là một phân loại của riêng mình,

Các thuật toán thông minh truyền thống thường sử dụng các mô hình học tập nông cạn để xử lý các tình huống với lượng lớn dữ liệu trong các phân loại phức tạp. Kết quả phân tích còn lâu mới lý tưởng. Hơn nữa, những kết quả này trực tiếp hạn chế chiều rộng và chiều sâu của các ứng dụng thông minh và sự phát triển hơn nữa. Do đó, nhu cầu tăng cường “chiều sâu” của thông tin tình báo trong dữ liệu lớn cho ngành bảo mật đang phát sinh.

Ưu điểm của Học sâu và các thuật toán của nó

Các thuật toán thông minh truyền thống được thiết kế bởi con người. Chúng có được thiết kế tốt hay không phụ thuộc rất lớn vào kinh nghiệm và thậm chí là cả sự may mắn, và quá trình này đòi hỏi rất nhiều thời gian. Vì vậy, liệu có khả năng khiến máy móc tự động học một số tính năng không? Đúng! Đây thực sự là mục tiêu của Trí tuệ nhân tạo (AI).

Nguồn cảm hứng cho việc học sâu đến từ mạng lưới thần kinh của não người. Bộ não của chúng ta có thể được coi là một mô hình học sâu rất phức tạp. Mạng lưới thần kinh não bao gồm hàng tỷ tế bào thần kinh liên kết với nhau; học sâu mô phỏng cấu trúc này. Các mạng nhiều lớp này có thể thu thập thông tin và thực hiện các hành động tương ứng. Họ cũng có khả năng trừu tượng hóa và giải trí đối tượng.

Về bản chất, học sâu khác với các thuật toán khác. Cách nó giải quyết các thiếu sót của các thuật toán truyền thống được bao gồm trong các khía cạnh sau.

Đầu tiên, Từ “Nông” đến “Sâu”

Mô hình thuật toán cho học sâu có cấu trúc sâu hơn nhiều so với hai cấu trúc 3 lớp của các thuật toán truyền thống. Đôi khi, số lượng các lớp có thể lên đến hơn một trăm, cho phép nó xử lý một lượng lớn dữ liệu trong các phân loại phức tạp. Học sâu rất giống với quá trình học tập của con người và có một quá trình trừu tượng hóa tính năng theo từng lớp. Mỗi lớp sẽ có “trọng số” khác nhau, và trọng số này phản ánh những gì đã học về “thành phần” của hình ảnh. Cấp độ lớp càng cao, các thành phần càng cụ thể. Mô phỏng bộ não con người, một tín hiệu ban đầu trong học sâu đi qua các lớp xử lý; tiếp theo, cần phải hiểu một phần (nông) đến một tổng thể trừu tượng (sâu), nơi chúng ta có thể nhận thức được đối tượng.

Thứ hai, Từ “Tính năng nhân tạo” đến “Học tập tính năng”

Học sâu không cần can thiệp thủ công mà dựa vào máy tính để tự trích xuất các tính năng. Bằng cách này, nó có thể trích xuất càng nhiều tính năng từ mục tiêu càng tốt, bao gồm cả các tính năng trừu tượng khó hoặc không thể mô tả. Càng có nhiều tính năng, việc nhận dạng và phân loại sẽ càng chính xác. Một số lợi ích trực tiếp nhất mà thuật toán học sâu có thể mang lại bao gồm đạt được độ chính xác nhận dạng mẫu tương đương hoặc thậm chí tốt hơn con người, khả năng chống nhiễu mạnh và khả năng phân loại và nhận dạng hàng nghìn đặc điểm.

Các yếu tố chính của học sâu

Tổng cộng, có ba lý do chính khiến học sâu chỉ trở nên phổ biến trong những năm gần đây chứ không phải sớm hơn: quy mô dữ liệu liên quan, sức mạnh tính toán và kiến trúc mạng.

Những cải tiến về hiệu suất thuật toán theo hướng dữ liệu đã đẩy nhanh quá trình học sâu trong các ứng dụng thông minh khác nhau trong một khoảng thời gian ngắn. Cụ thể, với sự gia tăng về quy mô dữ liệu, hiệu suất thuật toán cũng được cải thiện. Theo đó, trải nghiệm người dùng đã được cải thiện và nhiều người dùng tham gia hơn, tạo điều kiện thuận lợi hơn nữa cho quy mô dữ liệu lớn hơn.

Dữ liệu giám sát video chiếm 60% dữ liệu lớn và số lượng này đang tăng ở mức 20% hàng năm. Tốc độ và quy mô của thành tựu này là do sự phổ biến của giám sát video độ nét cao — HD 1080p đang trở nên phổ biến hơn và độ phân giải 4K trở lên đang dần được áp dụng trong nhiều ứng dụng quan trọng.

Hikvision đã hoạt động trong ngành bảo mật nhiều năm với khả năng nghiên cứu và phát triển của riêng mình, sử dụng một lượng lớn dữ liệu hình ảnh và video thực làm mẫu đào tạo. Với lượng lớn dữ liệu chất lượng tốt và hơn một trăm thành viên trong nhóm gắn nhãn hình ảnh video, dữ liệu mẫu với hàng triệu danh mục đã được tích lũy. Với lượng lớn dữ liệu đào tạo chất lượng này, các mô hình nhận dạng mẫu người, phương tiện và đối tượng sẽ ngày càng chính xác hơn cho việc sử dụng giám sát video.

Hơn nữa, nền tảng phần cứng hiệu suất cao cho phép sức mạnh tính toán cao hơn. Mô hình học sâu đòi hỏi một lượng lớn mẫu, khiến cho một lượng lớn các phép tính là không thể tránh khỏi. Trước đây, các thiết bị phần cứng không có khả năng xử lý các mô hình học sâu phức tạp với hơn một trăm lớp. Vào năm 2011, DeepMind của Google đã sử dụng 1.000 thiết bị với 16.000 CPU để mô phỏng một mạng nơ-ron với khoảng 1 tỷ nơ-ron. Ngày nay, chỉ một số GPU được yêu cầu để đạt được cùng một loại sức mạnh tính toán với tốc độ lặp lại thậm chí còn nhanh hơn. Sự phát triển nhanh chóng của GPU, siêu máy tính, điện toán đám mây và các nền tảng phần cứng hiệu suất cao khác đã cho phép học sâu trở nên khả thi.

Cuối cùng, kiến trúc mạng đóng vai trò riêng của nó trong việc thúc đẩy quá trình học sâu. Thông qua việc tối ưu hóa liên tục các thuật toán học sâu, có thể đạt được khả năng nhận dạng đối tượng-mục tiêu tốt hơn. Đối với các ứng dụng phức tạp hơn như nhận dạng khuôn mặt hoặc trong các tình huống có ánh sáng, góc độ, tư thế, biểu cảm, phụ kiện, độ phân giải khác nhau, v.v., kiến trúc mạng sẽ ảnh hưởng đến độ chính xác của nhận dạng, tức là càng nhiều lớp trong thuật toán học sâu thì càng tốt màn biểu diễn.

Vào năm 2016, Hikvision đã đạt được vị trí số một trong hạng mục Phân loại cảnh tại Thử thách nhận dạng hình ảnh quy mô lớn ImageNet 2016. Nhóm từ Viện nghiên cứu Hikvision đã sử dụng mạng kiểu khởi động và mạng dư không sâu hoạt động tốt hơn trong quá trình đào tạo ít hơn đáng kể thời gian, theo các thí nghiệm của Hikvision để đào tạo và kiểm tra. Hơn nữa, Công nghệ Nhận dạng Ký tự Quang học (OCR) của Hikvision, dựa trên Học sâu và dẫn đầu bởi Viện Nghiên cứu của công ty, cũng giành được giải nhất trong Cuộc thi Đọc mạnh mẽ ICDAR 2016. Nhóm Hikvision về cơ bản đã vượt qua cả các đối thủ cạnh tranh mạnh mẽ trong nước và nước ngoài trong ba thử thách nhận dạng từ, bao gồm hình ảnh kỹ thuật số sinh, văn bản cảnh tập trung và văn bản cảnh ngẫu nhiên,

Ứng dụng của các sản phẩm học sâu

Trong hai năm qua, công nghệ học sâu đã vượt trội trong nhận dạng giọng nói, thị giác máy tính, dịch giọng nói, v.v. Nó thậm chí đã vượt qua khả năng của con người trong các lĩnh vực xác minh khuôn mặt và phân loại hình ảnh; do đó, nó đã được đánh giá cao trong lĩnh vực giám sát video cho ngành công nghiệp an ninh.

Trong ứng dụng của video thông minh trong việc phát hiện, theo dõi và nhận dạng mục tiêu, sự phát triển của học sâu đã có một ảnh hưởng sâu sắc. Khi áp dụng ba chức năng đó, học sâu có khả năng chạm đến mọi khía cạnh của ngành giám sát video an ninh: phát hiện khuôn mặt, phát hiện phương tiện, phát hiện phương tiện không có động cơ, nhận dạng khuôn mặt, nhận dạng thương hiệu xe, phát hiện người đi bộ, phát hiện đặc điểm cơ thể người, phát hiện khuôn mặt bất thường , phân tích hành vi đám đông, theo dõi nhiều mục tiêu, v.v.

Các loại chức năng thông minh này yêu cầu một loạt camera giám sát phía trước, máy chủ phía sau và các sản phẩm khác hỗ trợ các thuật toán học sâu. Trong các ứng dụng quy mô nhỏ, camera phía trước có thể trực tiếp vận hành việc trích xuất các tính năng có cấu trúc của con người và phương tiện, và hàng chục nghìn hình ảnh khuôn mặt người có thể được lưu trữ trong các thiết bị đầu cuối để thực hiện so sánh khuôn mặt trực tiếp, để giảm chi phí giao tiếp với Một máy chủ. Trong các ứng dụng quy mô lớn, camera front-end có thể hoạt động với các máy chủ back-end. Cụ thể, tác vụ video có cấu trúc được xử lý bởi các thiết bị front-end, giảm tải công việc cho các thiết bị back-end; hiệu quả đối sánh và tìm kiếm của các máy chủ back-end cũng được cải thiện.

Năm nay, Hikvision sẽ sớm giới thiệu một loạt sản phẩm với công nghệ học sâu, chẳng hạn như camera DeepInview Series có thể phát hiện, nhận dạng và phân tích chính xác các đặc điểm và hành vi của con người, phương tiện và đối tượng, đồng thời có thể được sử dụng rộng rãi trong nhà và ngoài trời các tình huống. Một trong những sản phẩm đáng được nhắc đến là Dòng NVR DeepInmind của Hikvision kết hợp các thuật toán học sâu nâng cao và bắt chước suy nghĩ và trí nhớ của con người. Các sản phẩm DeepInmind có chế độ NVR + GPU cải tiến, giữ lại các ưu điểm của NVR truyền thống và các chức năng phân tích video có cấu trúc bổ sung, cùng nhau cải thiện đáng kể giá trị của video.

Học sâu là cấp độ phát triển tiếp theo của AI. Nó không chỉ là học máy mà việc phân loại có giám sát của các tính năng và mẫu được thiết lập thành các thuật toán. Học sâu kết hợp các nguyên tắc không giám sát hoặc “tự học”. Hikvision đang phát triển khái niệm này trong các thuật toán phân tích của riêng mình. Độ chính xác được nâng cao là kết quả của việc học nhiều lớp và thu thập dữ liệu mở rộng. Việc áp dụng thuật toán này vào nhận dạng khuôn mặt, nhận dạng phương tiện, nhận dạng con người và các nền tảng khác sẽ cải thiện đáng kể hiệu suất của phân tích.