版權與隱私

▌生成資料的版權與智慧財產權

本堂課的核心問題:我們可否銷售由 AI 創建的聊天機器人、文章或圖片?

雖然界線有些模糊,法律跟不上科技進展速度,但平台政策提供了一些指引。

1. AI 平台的版權政策

  1. Copyrights & Intellectual Property of Generated Data from AI Agents

OpenAI 為商業用戶提供的法律保障包含:

  • 版權護盾 (Copyright Shield):OpenAI 承諾客戶,如果因為使用他們生成的內容而面臨侵權索賠,OpenAI 將支付相關費用。

  • 適用對象:適用於 ChatGPT Enterprise 和 開發者平台 (API) 的用戶。

    • ChatGPT 普通免費版用戶不受此保護。

    • 本課程是透過 API 構建 AI Agent,屬於受保護的範圍。

  • 商業權利:作為開發者,你基本上可以自由使用、銷售這些 Agent 生成的文章。

2. 自行訓練數據的警告

  • 數據來源:如果你使用自己的技術對模型進行訓練或微調,要確保沒有用到有版權的資料。

  • 銷售軟體:如果你只是構建及銷售 Agent(軟體本身),而不是直接銷售其內容,通常會安全些。

3. 圖像與聲音的版權

  • Dall-E (OpenAI):包含在 OpenAI 的保護範圍內,使用相對安全。

  • 開源模型 (如 Stable Diffusion, Flux):

    • 雖然模型本身可商用,但需注意生成的內容。
    • 肖像權風險:如果生成公眾人物(如 Elon Musk, Donald Trump)的圖像並進行銷售,可能會侵犯肖像權或導致法律問題。
  • 語音與轉錄 (Whisper & TTS):一般來說,使用 Whisper 進行轉錄或使用 Text-to-Speech 生成語音,是可以自由使用和銷售的。

4. 開源模型授權分析:Llama 3.1

Meta 的 Llama 模型,課程分析了授權條款:

  • 授權:非獨家、全球性、免版稅的授權,可以從事使用、複製、分發和修改 Llama 模型。

  • 標示義務:在使用 Llama 的產品或服務中,必須包含「Built with Llama」的標示或協議副本。

  • 7 億月活躍用戶條款:如果你的產品月活躍用戶超過 7 億 (700 Million),則必須向 Meta 申請額外的授權。

    解讀:除非你是像 Apple 或 Google 這樣的巨頭,否則本條款對一般開發者沒有限制,你可以自由構建和銷售。

  • 免責聲明:Meta 提供模型是「按照原樣 (As is)」提供的,不提供任何擔保,也不對你使用模型造成的損害負責。

5. 總結

  • OpenAI API 用戶:受到 Copyright Shield 保護,可安心進行商業應用。
  • Llama 用戶:除非擁有超過 7 億用戶,否則在標示清楚的前提下可自由商用。
  • 主要風險:使用受版權保護的數據進行微調,以及生成涉及公眾人物肖像的圖片。

下節預告:下節課將探討數據安全與隱私(Data Security and Privacy),了解當我們將私人資料放進 AI Agent 時會發生什麼事。

▌數據隱私

這節課討論在使用 AI Agent 處理敏感數據(客戶數據、私人數據)時的保護措施,主要分為使用 OpenAI API 與本地模型兩種途徑。

1. OpenAI API

大多數的 Agent 開發,通常會使用 OpenAI API。(Sky: 現在應該不一定了)

根據 OpenAI 的政策,其安全性與一般 ChatGPT 網頁版不同:

  • 不參與訓練:透過 API 和 Playground 發送的請求,不會被用於訓練 OpenAI 的模型。

  • 數據所有權:你擁有輸入(Inputs)和輸出(Outputs)的所有權,並且可以控制數據保留的時間。

  • 安全合規:OpenAI 通過了 SOC2 合規審計。

  • 加密技術:靜態數據(Data at rest)採用 AES-256 加密,並在傳輸過程中進行加密保護。

  • 結論:一般來說,通過 API 構建 AI Agent 是安全的,適合商業用途。

2. 本地模型

如果你需要絕對的安全性,或者完全不希望數據傳送到 OpenAI 的伺服器,唯一的解決方案是使用本地模型。

  • 操作方式:利用 Ollama 等工具在本地機器上運行模型(如 Llama 3.1)。

  • 優點:資料永遠不會離開你的電腦,完全不需要連接互聯網,因此是 100% 安全的。

  • 缺點與限制:

    • 硬體限制:受限於本地硬體效能。大多數人可以運行 8GB (Q4 量化) 的模型,但無法運行像 70B 或 405B 參數的頂級模型,除非你擁有企業級的 GPU 集群(如 A100)。

    • 商業化困難:這種方式較難打包成軟體服務(SaaS)進行銷售,因為推理(Inference)是在用戶自己的電腦上進行。

3. 其他 API 供應商

  • 政策文件:使用 Groq 或其他 API 時,建議查看其文檔中的「政策 (Policies)」部分,包含使用條款、隱私政策與安全性說明。

  • 安全性承諾:這些公司通常也會承諾數據安全,與 OpenAI 類似。

  • 潛在風險:即便數據是安全的,使用任何 API 仍需注意「越獄 (Jailbreaks)」的風險,這是無法 100% 保證不會發生的。

4. 無審查模型

  • API 限制:目前不可能通過正規的公共 API 來運行「無審查 (Uncensored)」的模型,因為供應商不會允許這種服務。若需要無審查功能,通常只能依賴本地模型。

5. 總結

  • 若要構建商業軟體,OpenAI API 是安全的選擇,它承諾不使用數據進行訓練且具備企業級加密。

  • 若處理極度敏感數據且不允許任何外洩,本地運行 Llama 是唯一途徑,但需犧牲模型智能程度與硬體便利性。

▌LLM 中的審查、對齊與偏見

  1. Censorship, Alignment, & Bias in LLMs like Deepseek, ChatGPT, Claude, or Gemini

本節課探討在使用 AI Agent 時,可能面臨的另一個問題:審查制度 (Censorship)。

不同模型的供應商會根據其政策或地緣政治因素,對特定的主題進行限制。

1. 審查制度實例

  • DeepSeek (深度求索):

    • 嚴格的審查:作為中國的模型,DeepSeek 在涉及「中國」或「台灣」的議題上有非常嚴格的審查。

    • 回應模式:如果你在 Agent 中詢問關於台灣的時事(例如 “What is going on in Taiwan?”),通常會得到無回應、強硬編碼的回答(如「台灣是一個政治地位複雜的地區」),或者直接要求你改問關於程式碼的問題,表明不想談論此話題。

    • 帳號風險:如果持續觸碰敏感話題,使用者可能被平台完全封鎖。

  • OpenAI (ChatGPT):

    • 同樣存在審查制度,雖然審查的主題與 DeepSeek 不同,但限制依然存在。

    • 雖然目前趨勢似乎稍微放寬,但仍有其界限。

2. 閉源模型

閉源模型 (Closed Source Models) 的問題,使用像 ChatGPT、Gemini 等閉源模型的 API 構建應用程式時,開發者面臨以下控制權喪失的問題 :

  • 系統提示詞控制權:供應商保留對系統提示詞(System Prompt)的控制權,可能會隨時更改而不通知,導致你的軟體崩潰。
  • 版本控制:供應商可能棄用舊模型或偷偷更新,影響業務穩定性。
  • 強制對齊 (Alignment):採用「一體適用 (One size fits all)」的對齊方式,不一定適合特定的應用場景。
  • 數據隱私:供應商能看到所有的查詢內容,並可能以你不希望的方式使用數據。

3. 解決方案

如果審查制度對你的應用程式造成問題,講師建議使用本地運行的 Dolphin 系列模型(例如基於 Llama 3 的 Dolphin 版本)。

Dolphin 的優勢:

  • 完全可控:Dolphin 是可引導的(Steerable),由系統擁有者(你)決定系統提示詞和價值對齊方式。

  • 無強制道德規範:它不會將其道德觀或準則強加給你,使用者自行決定規範。

  • 功能強大:適用於邏輯、程式碼編寫、數學,且包含 Function Calling 功能。

  • 數據掌控:你完全擁有對數據的控制權。

4. 實務建議

如果你是為客戶構建 AI Agent,使用「無審查模型」通常不太實用,因為它們可能會生成不可控或不適當的內容。

如果你想要一個完全無偏見(Unbiased)或為了娛樂、研究用途,可以在 Ollama 或 Hugging Face 上尋找並運行這些無審查模型(甚至有 DeepSeek 的無審查版本)。

5. 總結

開發者需要意識到不同 API 供應商(如 DeepSeek vs OpenAI)有不同的審查紅線。

如果需要完全的自由與控制,本地運行的 Dolphin 等無審查模型是唯一的解法,但需自行承擔內容管理的責任。

▌n8n 的銷售授權

  1. Can you sell AI agents, AI Automations or the codebase from n8n?

本節課分析 n8n 的授權模式(Sustainable Use License),釐清開發者是否可以銷售基於 n8n 構建的 AI Agent、自動化工作流,或是直接銷售 n8n 的程式碼。

在商業化你的 n8n 技能之前,必須了解 n8n 採用的特殊授權條款 — 可持續使用授權 (Sustainable Use License)。

免責聲明:講師並非律師,以下內容僅為條款導讀。若有具體商業疑慮,建議閱讀官方文件或諮詢法律顧問。

1. 授權原則

n8n 的原始碼(Fair Code)大多數遵循「可持續使用授權」。規則如下:

  • 允許的使用範圍:你可以修改或使用該軟體進行內部商業用途(Internal Business Purposes)、非商業用途或個人用途。

  • 分發限制:如果你要分發或提供該軟體給他人,必須是免費的(即非商業用途)。

  • 版權聲明:不可移除或更改軟體中的任何授權或版權聲明。

2. 禁止行為

為了保護 n8n 的商業模式,禁止:

  • 轉售 (White Labeling):你不能從 GitHub 下載 n8n 的程式碼,加上一些新功能後,重新包裝為自己的產品出售。

  • 付費託管服務:你不能架設 n8n 伺服器並向客戶收取「訪問權限」的費用(Hosting and charging people money to access it)。

  • SaaS 後端數據濫用:你不能利用 n8n 收集用戶的私人憑證(例如 HubSpot 帳密),並將其數據用於你的競爭產品中。

3. 允許的商業行為

對於開發者和接案者來說,以下商業模式是允許的:

  • 諮詢與代建服務:你可以提供與 n8n 相關的諮詢服務,例如為客戶構建工作流 (Workflows)、開發自定義節點 (Custom Nodes)。

  • 維護與支援:你可以協助客戶在其伺服器上安裝、設置和維護 n8n,並收取服務費。

  • 內部數據同步:公司可以使用 n8n 來同步其控制的數據(例如 CRM 到內部資料庫)。

  • 嵌入式 AI Chatbot:

    • 場景:你可以在你的應用程式中嵌入一個 AI Chatbot。
    • 條件:該 Chatbot 使用你公司(開發者)的 API 憑證(支付 API 費用),而終端用戶只是與之對話,不需輸入自己的憑證。這種情況是被允許的。

4. 特殊情況與聯繫方式

如果你想做的事情不在上述允許範圍內,或者你不確定是否違規,可以直接寫電子郵件詢問 license@n8n.io

建議:在嘗試銷售任何基於 n8n 的產品之前,先聯繫官方確認,是最保險的做法。

5. 總結

  • 不能做:偷 n8n 的原始碼去賣、做白牌 n8n 產品、或是做收費的 n8n 託管服務。

  • 可以做:銷售你設計的工作流 (Workflows)、提供建置與諮詢服務、以及在你的產品中嵌入由你支付 API 成本的 AI 功能。

▌相關法案

  1. GDPR Basics

GDPR 嚴格要求,必須與 IT 分包商簽署數據處理協議(Data Processing Agreement,簡稱 DPA)— 在德語中稱為 Auftragsverarbeitungsvereinbarung(AVV)。

以 ChatGPT 為例,這個流程非常簡單:

  • 獲取機構 ID:只要您擁有平台帳號(可用於產生 API 金鑰的帳號),就能在機構的「一般設定(General Settings)」中看到您的機構 ID(Organization ID)。

    機構:「公司」、「企業」或「法人團體」

  • 前往條款頁面:將此 ID 複製到剪貼簿,前往 OpenAI 首頁,捲動至頁尾,點擊右下角的「其他政策(Other Policies)」。
  • 選擇 DPA:在「法律(LEGAL)」區塊下,選擇「數據處理增補條款(Data Processing Addendum)」。
  • 執行簽署:在頁面最下方,您會看到一個標記為「執行數據處理協議(Execute Data Processing Agreement)」的連結。點擊後會進入一個頁面,您可以在該處輸入公司名稱、剪貼簿中的機構 ID 以及您的電子郵件地址。

完成上述流程後,您會在一分鐘內透過電子郵件收到 DPA(即 AVV)——這便履行了 GDPR 的一項關鍵形式要求。

  1. EU & US Compliance: GDPR, (DSGVO) CCPA, CPRA & the EU AI Act

開發與銷售 AI Agent 時,必須遵守相關法律,例如:GDPR、CCPA 與歐盟人工智慧法案,特別是歐盟市場(EU AI Act 與 GDPR),因為歐洲的法規比美國嚴格許多。

1. 歐盟人工智慧法案 (EU AI Act)

這是歐盟的監管框架,目的在確保 AI 系統值得信賴且安全,並採用「基於風險(Risk-based)」的方法進行分類監管。

A. 風險分類系統

開發者要儘早評估風險等級:

  • 不可接受的風險 (Unacceptable Risk):被禁止的 AI 用途,例如操縱人類行為的系統。

  • 高風險 (High Risk):具有重大影響的系統,例如提供醫療建議或法律建議的 Chatbot。這類系統可以開發,但需要嚴格的文檔與監管。

  • 有限風險 (Limited Risk):大多數客戶服務 Chatbot 屬於此類。主要要求是透明度,即必須告知用戶他們正在與 AI 互動。

  • 最小風險 (Minimal Risk):無強制義務。

B. 開發者的合規要求

一旦確定了風險等級(通常是有限風險或高風險),你需要:

  • 披露 AI 互動:明確告知用戶這是一個 AI Chatbot。

  • 確保數據隱私與 GDPR 合法:保護用戶數據。

  • 減少偏見 (Mitigate Biases):使用多樣化的數據集,避免對特定群體造成傷害。

  • 維護文檔:記錄使用了哪些數據集以及系統如何運作,特別是對於高風險系統。

  • 人工監督:建立人類介入或審查的機制。

2. 資料保護規則

GDPR 適用於任何處理個人數據(如姓名、電子郵件、IP 地址)的 Chatbot。

美國通常較寬鬆,採用「選擇退出(Opt-out)」模式即可;歐盟則需要更嚴格的定義與同意機制。

關鍵措施:

  • 數據最小化:只收集絕對必要的數據。

  • 加密傳輸與存儲:使用 HTTPS 和 AES-256 加密(OpenAI API 已包含此功能)。

  • 同意管理:明確告知數據收集目的,並保留同意記錄。

  • 用戶權利:用戶有權要求訪問、更正或刪除其數據。

3. 實務操作

如何確保 OpenAI 與 n8n 的合規性?

雖然法規看起來很複雜,但在技術執行上,如果你使用正確的工具與設置,通常是安全的。

A. OpenAI API 的數據駐留 (Data Residency)

為了符合歐洲法規,OpenAI 提供了將數據保留在歐洲的選項:

  • 設置方法:在 OpenAI API 平台的專案設置中,選擇 Europe 作為區域。

  • 效果:這確保靜態數據(Data at rest)存儲在歐洲伺服器,不會被發送到美國,從而符合更嚴格的隱私要求。

  • 安全性:OpenAI API 使用 AES-256 加密,並且不使用 API 數據進行模型訓練。

B. 工具選擇

  • n8n:這是一家總部位於柏林(德國)的公司,其軟體本身在設計上就絕對符合 GDPR 規範。

  • Botpress:也包含許多符合歐盟規定的功能。

4. 總結

要在歐洲合法銷售 AI Agent,最簡單且有效的策略是:

  1. 使用 OpenAI API 並將專案區域設置為 Europe。

  2. 確保 Chatbot 透明化(告知用戶它是 AI)。

  3. 負責任地處理數據(不收集非必要個資、確保數據多樣性以減少偏見)。

以下兩節跳過

皆為文件資訊,你可以透過 AI 幫你整理總結。

  1. GDPR: Key Information in a Comprehensive Article

  2. EU AI Act: Key Information in a Comprehensive Article

▌總結回顧

  1. Recap: Important Points to Remember

本節總結了本章討論過的安全與法律議題,並提醒開發者在使用 LLM 構建應用時應具備的核心觀念。

1. 模型選擇

權衡:API vs. 本地模型

  • API 模型 (如 OpenAI):

    • 優點:性能強大,輸出品質最好。
    • 缺點:成本較高,且數據需傳輸至外部。
    • 建議:如果是為客戶構建應用程式,建議使用最好的模型(付費 API),以確保品質。
  • 本地模型 (Local LLMs):

    • 優點:完全免費,數據隱私性極高(可離線運行)。
    • 缺點:輸出品質較差,失敗率較高(除非擁有 H100 等級的算力來運行 400B 參數的超大模型)。
    • 建議:適合個人測試、娛樂或對隱私有極致要求的情境。

2. 安全措施

  • API Key 管理:務必定期輪換(Rotate)API 金鑰,並將其存儲在安全的地方。

  • RAG 與向量數據庫:

    • 確保寫入向量數據庫的數據是合法的。
    • 不要使用有版權保護的資料,或未經允許爬取的網頁內容。
  • Telegram 觸發器防護:

    • 強制要求:使用 Telegram Trigger 時,務必加上一個 If 節點來驗證 Chat ID。
    • 如果不做,任何人都能使用你的工作流,這將是災難性的安全事件。

3. 攻擊風險意識

  • 越獄 (Jailbreaks):攻擊者可能會試圖繞過安全過濾。

  • 提示注入 (Prompt Injections):

    • 當 Agent 具備聯網爬蟲功能時,可能會讀取到網頁中隱藏的惡意指令。
    • 風險:這可能導致 Agent 發送詐騙連結給用戶。
  • 資料投毒 (Data Poisoning):雖然通過 API 發生的機率極低(接近零),但仍需知曉此概念。

4. 法律、版權與合規性

  • 版權保護:

    • 使用 OpenAI API 的開發者受 Copyright Shield 保護。
    • 開源模型(如 Llama)通常可自由商用,除非你的月活躍用戶超過 7 億。
  • GDPR 與隱私合規:

    • 透明度:清楚告知用戶他們正在與 AI 互動。
    • 數據多樣性:使用高質量、多樣化的數據集以減少偏見。
    • 數據駐留:若服務歐洲客戶,記得將 OpenAI 專案區域設置為 Europe。
    • 文檔:準備好清晰的技術文檔。

5. 對 LLM 本質的認知

  • 統計學模型:LLM 只是在計算下一個最可能的 Token,它並不理解「真理」。

  • 不可盡信:

    • 輸出內容不保證 100% 準確,可能會出錯或產生幻覺。
    • 訓練數據本身可能包含錯誤資訊(例如網路上可能充斥著錯誤的文章或謊言)。
  • 人類監督:開發者應定期檢查 AI 的輸出,不能完全放任。

6. 總結

學習的本質在於改變行為。

  • 如果你不信任大公司,請使用本地模型。
  • 如果你追求品質並接受條款,請付費使用 API。
  • 始終保持懷疑,驗證輸出,並做好安全防護。

▌下一步

  1. Recap: Thank You and What Comes Next?

本堂課程的總結回顧,整理了從基礎概念、工具應用、進階 RAG 技術到商業部署的完整學習路徑。

1. 基礎資訊

  • 快速入門:學習了如何使用 NotebookLM 作為最簡單的 RAG 工具。

  • LLM 運作原理:深入了解大型語言模型的訓練方式、Function Calling(函數調用)以及如何使用工具。

  • 向量資料庫 (Vector Database):

    • 理解其儲存數據與檢索(Retrieval)的機制。
    • 學習了 Top-k 結果的意義以及測試時間計算 (Test time compute)。
    • 了解推論模型 (Reasoning models) 雖然強大但較慢且昂貴,應視情況使用。

2. 構建 RAG 應用

  • ChatGPT 介面:利用 GPT Builder 創建專屬 GPT,設定系統指令並上傳知識庫。

  • 資料處理:

    • Markdown:適合 RAG 的數據格式。
    • 學習了如何將 HTML 網頁轉為 Markdown,以及利用 YouTube 影片字幕和 CSV 文件進行訓練。

3. 本地開源模型

  • 工具鏈:使用 Ollama 運行模型,並透過 TechPowerUp 檢查 GPU 性能。

  • AnythingLLM:

    • 在本地構建 RAG 應用。
    • 切分策略 (Chunking):長文本使用較大的 Chunk size,短文本則用較小的,並調整 Top-k 參數。

4. Flowise

  • 基礎設置:了解 OpenAI API 定價,並通過 NodeJS 本地安裝 Flowise。

  • 應用構建:

    • 建立了能夠爬取網頁的 Chat Flow,並學習如何導出/導入 JSON。
    • 在 Flowise 中整合本地 Ollama 模型與本地 Embedding 模型。
  • 進階代理 (Agents):

    • Dual Agent:連接多種工具(如 Compose IO 發送郵件、管理行事曆)與 Pinecone 向量資料庫。
    • 多代理系統 (Multi-agent):模擬 CEO 與員工之間的溝通架構。
    • 順序代理 (Sequential Agents):無 CEO 的固定流程結構。

5. n8n

  • 工作流設計:

    • 掌握 Trigger (觸發器) 與 Action (動作) 的概念,以及 JSON 數據流的處理。
    • 創建了自動更新 Pinecone 資料庫的工作流,以及免費的網頁爬蟲工作流。
  • MCP (Model Context Protocol):

    • 將 Claude Desktop 作為客戶端,n8n 作為伺服器,實現更穩定且低成本的函數調用。
    • 利用 n8n 內建的 MCP 工具替代傳統的 HTTP 請求。
  • 雙向整合:透過 HTTP Request 節點連接 Flowise 與 n8n,也能利用 Webhooks 從 Flowise 觸發 n8n。

6. 進階 RAG

  • Prompt Caching:透過快取重複的 Prompt 來降低成本並加速處理(適用於重複性高或短時間內的任務)。

  • GraphRAG:在向量資料庫中建立實體(Entities)間的連接圖譜,雖成本較高但準確度提升。

  • 情境檢索 (Contextual Retrieval):講師最推薦的技術。在切分數據時,為每個 Chunk 加上 50-100 個 Token 的上下文解釋,大幅提升檢索品質。

7. 部署與商業化

  • 託管服務:學習在 Render、Hostinger、Replit 以及 WordPress 上部署 AI 應用的方法。

  • 商業實戰:掌握了如何尋找潛在客戶(Leads)、定價策略以及銷售 AI 自動化服務的完整劇本。

8. 安全與合規

  • 數據安全:妥善保管 API Key,並遵守 GDPR 等法規。

  • 負責任的開發:確保數據來源合法,並注意版權問題。


9. 總結

「學習」的定義是:在相同的情況下,表現出不同的行為。

直到你親手構建出一個 RAG 應用或自動化工作流之前,你都不算真正學會了。

現在就去動手建造些什麼吧!

1個讚