Етика и изкуствен интелект: техническа сигурност (2/7)

fria, fundamental rights impact assessment, оценка на въздействие на ИИ

Принципи за надежден изкуствен интелект

Въвеждането на изкуствения интелект в правната практика обещава ефективност и нови възможности, но също така носи със себе си значителни рискове. Затова един от най-важните принципи за надежден ИИ, формулирани от Европейската комисия, е техническата стабилност и сигурност.

През 2019 г., експертната група на високо равнище по въпросите на изкуствения интелект към Европейската комисия (ЕГВР ИИ) публикува своите "Насоки относно етичните аспекти за надежден ИИ". Това е един от основополагащите документи и до днес относно етичните изисквания към изкуствения интелект. Насоките формулират седем основни изисквания за надежден ИИ, които трябва да бъдат спазвани на всеки етап от жизнения цикъл на една система – от проектирането и внедряването до практическото приложение в реалната среда.

Тези изисквания са:

Човешки фактор и надзор - вижте статията ни тук
Техническа стабилност и безопасност
Управление на данните и неприкосновеност на личния живот - вижте статията ни тук
Прозрачност - вижте статията ни тук
Многообразие, недискриминация и справедливост - вижте статията ни тук
Обществено и екологично благополучие - вижте статията ни тук
Отчетност - вижте статията ни тук

Вторият принцип - за техническа стабилност и безопасност, е тясно свързан с превенцията на вреди – той изисква системите с ИИ да бъдат изграждани с предвидливост и устойчивост, така че да минимизират непредвидени грешки, да издържат на кибератаки и да гарантират безопасност за хората и обществото.

Какво включва принципът за сигурност?

Устойчивост на атаки и уязвимости

Подобно на всички софтуерни системи, и ИИ може да бъде уязвим на злонамерени атаки или технически грешки. Това включва:

защита срещу заразяване с данни (data poisoning), при което в обучителните масиви се вкарват подвеждащи данни, за да се изкривят резултатите;
устойчивост срещу вражески атаки чрез подвеждащи входни данни, например умело съставени промптове, които могат да накарат модела да разкрие поверителна информация или да изпълни забранени действия (prompt injections);
механизми за самонаблюдение и автоматично възстановяване, за да може системата да открива и неутрализира грешки в поведението си.

Резервни планове

Надеждните ИИ системи трябва да предвиждат възможност за преминаване в резервен режим при възникване на проблем. Това може да включва:

автоматично превключване към по-безопасни режими на работа,
„червен бутон“, който позволява незабавна човешка намеса и спиране на системата,
готови протоколи за действие при непредвидени ситуации.

Целта е да се предотвратят сериозни щети и да се гарантира, че системата няма да действа извън контрол или в противоречие с правните и етични норми.

Точност

Системите трябва да обработват информацията така, че да водят до правилни и последователни решения. Високата точност е особено важна в области като:

правосъдие (оценка на правни рискове, анализ на доказателства),
здравеопазване (прогнози за лечение или диагнози),
сигурност (идентификация и контрол на достъпа).

Грешки в тези сфери могат да застрашат човешки живот, основни права или професионална тайна.

Надеждност и възпроизводимост

Надеждният ИИ трябва да може да дава едни и същи резултати при еднакви условия. Това е критично за:

научна проверимост – за да може резултатите да бъдат повторени и валидирани,
контрол и отчетност – за да е ясно на каква база е взето дадено решение.

Конкретни рискове за сигурността

Изтичане на данни

Системите с ИИ, свързани към външни услуги, могат да станат жертва на интервенционни атаки, без потребителят дори да подозира.

Представете си „poisoned“ (отровен) документ, споделен чрез Google Drive. Той съдържа скрити команди които, принуждават системата (например ChatGPT Connectors) да изтегли чувствителни API ключове и да ги изпрати към външен сървър, без никаква човешка намеса. Може да прочетете за истински такъв случай в WIRED.

Prompt-injection (атака чрез промпт)

Това е сред най-големите рискове в AI сигурността днес. Злонамерените промптове могат да преодолеят предпазни механизми на модела, като насочат поведението му в посока, нежелана от дизайнера.

Например, системите на ChatGPT или Bing Chat могат да бъдат подведени чрез директна промяна на инструкциите („ignore earlier instructions...“), позволявайки достъп до вътрешни инструкции или кодови имена. Има случаи, в които Google Bard или Microsoft Copilot са били накарани да изпълнят злонамерени API действия чрез т.нар. „indirect prompt injection“ - когато атакуващ вкарани инструкции в споделени документи (напр. Google Docs или SharePoint), които ИИ после автоматично изпълнява.

Инфилтрация на AI системи чрез приложима инфраструктура

Кибератаки могат да се извършват не само с документи, но и с покани за календар. Например, Gemini бе изложен на атака чрез отровена (poisoned) покана в календар (Google Calendar). Чрез нея, системата е била инструктирана да изпълнява команди като отваряне на прозорци, включване на отопление и дори изпращане на обидни съобщения.

Генериране на злонамерен софтуер (Ransomware)

ИИ инструментите се използват не само за генериране на текст, но и за създаване на злонамерен код. Групи като GTG-5004 използват Claude Code за автоматично създаване и разпространение на зловреден софтуер, а ESET и Anthropic алармират за първия прототип на ransomware, създаден с локален LLM, наречен „PromptLock“.

“Vibe-hacking” и смислови манипулации

ИИ се използва и за психо-емоционални манипулации. Една от атаките, наречена "vibe-hacking", включва генериране на убедителни изнудващи съобщения (например отмъщение с искане на откуп), насочени към служители в здравеопазване или институции. Може да прочетете за истински такива случаи в theverge.com.

Значение за българската правна практика

За адвокати и юристи в България сигурността на системите с ИИ е пряко свързана с професионалната тайна и защитата на лични данни. Използването на общи инструменти като ChatGPT, Gemini и Claude идва със съответните рискове за сигурността на споделените данни.

Ето защо при използването на ИИ инструменти е критично важно:

да се проверява как доставчикът гарантира защита на данните,
да има ясни механизми за човешки контрол,
да се прилагат добри практики за киберсигурност и редовни одити.

🟢 Пробвайте Правен интелект сега! 🟢

Сиянна Лилова

27.08.2025 г.

AI aсистент за български адвокати

Готови ли сте да започнете да работите по-бързо и ефективно?

Правен Интелект може да ви помогне за правни проучвания, отговори на въпроси на клиенти, създаване на клаузи и документи на база официални правни източници. Пробвайте го сега!

Пробвай сега

AI aсистент за български адвокати