▌生成資料的版權與智慧財產權
本堂課的核心問題:我們可否銷售由 AI 創建的聊天機器人、文章或圖片?
雖然界線有些模糊,法律跟不上科技進展速度,但平台政策提供了一些指引。
1. AI 平台的版權政策
- Copyrights & Intellectual Property of Generated Data from AI Agents
OpenAI 為商業用戶提供的法律保障包含:
-
版權護盾 (Copyright Shield):OpenAI 承諾客戶,如果因為使用他們生成的內容而面臨侵權索賠,OpenAI 將支付相關費用。
-
適用對象:適用於 ChatGPT Enterprise 和 開發者平台 (API) 的用戶。
-
ChatGPT 普通免費版用戶不受此保護。
-
本課程是透過 API 構建 AI Agent,屬於受保護的範圍。
-
-
商業權利:作為開發者,你基本上可以自由使用、銷售這些 Agent 生成的文章。
2. 自行訓練數據的警告
-
數據來源:如果你使用自己的技術對模型進行訓練或微調,要確保沒有用到有版權的資料。
-
銷售軟體:如果你只是構建及銷售 Agent(軟體本身),而不是直接銷售其內容,通常會安全些。
3. 圖像與聲音的版權
-
Dall-E (OpenAI):包含在 OpenAI 的保護範圍內,使用相對安全。
-
開源模型 (如 Stable Diffusion, Flux):
- 雖然模型本身可商用,但需注意生成的內容。
- 肖像權風險:如果生成公眾人物(如 Elon Musk, Donald Trump)的圖像並進行銷售,可能會侵犯肖像權或導致法律問題。
-
語音與轉錄 (Whisper & TTS):一般來說,使用 Whisper 進行轉錄或使用 Text-to-Speech 生成語音,是可以自由使用和銷售的。
4. 開源模型授權分析:Llama 3.1
Meta 的 Llama 模型,課程分析了授權條款:
-
授權:非獨家、全球性、免版稅的授權,可以從事使用、複製、分發和修改 Llama 模型。
-
標示義務:在使用 Llama 的產品或服務中,必須包含「Built with Llama」的標示或協議副本。
-
7 億月活躍用戶條款:如果你的產品月活躍用戶超過 7 億 (700 Million),則必須向 Meta 申請額外的授權。
解讀:除非你是像 Apple 或 Google 這樣的巨頭,否則本條款對一般開發者沒有限制,你可以自由構建和銷售。
-
免責聲明:Meta 提供模型是「按照原樣 (As is)」提供的,不提供任何擔保,也不對你使用模型造成的損害負責。
5. 總結
- OpenAI API 用戶:受到 Copyright Shield 保護,可安心進行商業應用。
- Llama 用戶:除非擁有超過 7 億用戶,否則在標示清楚的前提下可自由商用。
- 主要風險:使用受版權保護的數據進行微調,以及生成涉及公眾人物肖像的圖片。
下節預告:下節課將探討數據安全與隱私(Data Security and Privacy),了解當我們將私人資料放進 AI Agent 時會發生什麼事。
▌數據隱私
這節課討論在使用 AI Agent 處理敏感數據(客戶數據、私人數據)時的保護措施,主要分為使用 OpenAI API 與本地模型兩種途徑。
1. OpenAI API
大多數的 Agent 開發,通常會使用 OpenAI API。(Sky: 現在應該不一定了)
根據 OpenAI 的政策,其安全性與一般 ChatGPT 網頁版不同:
-
不參與訓練:透過 API 和 Playground 發送的請求,不會被用於訓練 OpenAI 的模型。
-
數據所有權:你擁有輸入(Inputs)和輸出(Outputs)的所有權,並且可以控制數據保留的時間。
-
安全合規:OpenAI 通過了 SOC2 合規審計。
-
加密技術:靜態數據(Data at rest)採用 AES-256 加密,並在傳輸過程中進行加密保護。
-
結論:一般來說,通過 API 構建 AI Agent 是安全的,適合商業用途。
2. 本地模型
如果你需要絕對的安全性,或者完全不希望數據傳送到 OpenAI 的伺服器,唯一的解決方案是使用本地模型。
-
操作方式:利用 Ollama 等工具在本地機器上運行模型(如 Llama 3.1)。
-
優點:資料永遠不會離開你的電腦,完全不需要連接互聯網,因此是 100% 安全的。
-
缺點與限制:
-
硬體限制:受限於本地硬體效能。大多數人可以運行 8GB (Q4 量化) 的模型,但無法運行像 70B 或 405B 參數的頂級模型,除非你擁有企業級的 GPU 集群(如 A100)。
-
商業化困難:這種方式較難打包成軟體服務(SaaS)進行銷售,因為推理(Inference)是在用戶自己的電腦上進行。
-
3. 其他 API 供應商
-
政策文件:使用 Groq 或其他 API 時,建議查看其文檔中的「政策 (Policies)」部分,包含使用條款、隱私政策與安全性說明。
-
安全性承諾:這些公司通常也會承諾數據安全,與 OpenAI 類似。
-
潛在風險:即便數據是安全的,使用任何 API 仍需注意「越獄 (Jailbreaks)」的風險,這是無法 100% 保證不會發生的。
4. 無審查模型
- API 限制:目前不可能通過正規的公共 API 來運行「無審查 (Uncensored)」的模型,因為供應商不會允許這種服務。若需要無審查功能,通常只能依賴本地模型。
5. 總結
-
若要構建商業軟體,OpenAI API 是安全的選擇,它承諾不使用數據進行訓練且具備企業級加密。
-
若處理極度敏感數據且不允許任何外洩,本地運行 Llama 是唯一途徑,但需犧牲模型智能程度與硬體便利性。
▌LLM 中的審查、對齊與偏見
- Censorship, Alignment, & Bias in LLMs like Deepseek, ChatGPT, Claude, or Gemini
本節課探討在使用 AI Agent 時,可能面臨的另一個問題:審查制度 (Censorship)。
不同模型的供應商會根據其政策或地緣政治因素,對特定的主題進行限制。
1. 審查制度實例
-
DeepSeek (深度求索):
-
嚴格的審查:作為中國的模型,DeepSeek 在涉及「中國」或「台灣」的議題上有非常嚴格的審查。
-
回應模式:如果你在 Agent 中詢問關於台灣的時事(例如 “What is going on in Taiwan?”),通常會得到無回應、強硬編碼的回答(如「台灣是一個政治地位複雜的地區」),或者直接要求你改問關於程式碼的問題,表明不想談論此話題。
-
帳號風險:如果持續觸碰敏感話題,使用者可能被平台完全封鎖。
-
-
OpenAI (ChatGPT):
-
同樣存在審查制度,雖然審查的主題與 DeepSeek 不同,但限制依然存在。
-
雖然目前趨勢似乎稍微放寬,但仍有其界限。
-
2. 閉源模型
閉源模型 (Closed Source Models) 的問題,使用像 ChatGPT、Gemini 等閉源模型的 API 構建應用程式時,開發者面臨以下控制權喪失的問題 :
- 系統提示詞控制權:供應商保留對系統提示詞(System Prompt)的控制權,可能會隨時更改而不通知,導致你的軟體崩潰。
- 版本控制:供應商可能棄用舊模型或偷偷更新,影響業務穩定性。
- 強制對齊 (Alignment):採用「一體適用 (One size fits all)」的對齊方式,不一定適合特定的應用場景。
- 數據隱私:供應商能看到所有的查詢內容,並可能以你不希望的方式使用數據。
3. 解決方案
如果審查制度對你的應用程式造成問題,講師建議使用本地運行的 Dolphin 系列模型(例如基於 Llama 3 的 Dolphin 版本)。
Dolphin 的優勢:
-
完全可控:Dolphin 是可引導的(Steerable),由系統擁有者(你)決定系統提示詞和價值對齊方式。
-
無強制道德規範:它不會將其道德觀或準則強加給你,使用者自行決定規範。
-
功能強大:適用於邏輯、程式碼編寫、數學,且包含 Function Calling 功能。
-
數據掌控:你完全擁有對數據的控制權。
4. 實務建議
如果你是為客戶構建 AI Agent,使用「無審查模型」通常不太實用,因為它們可能會生成不可控或不適當的內容。
如果你想要一個完全無偏見(Unbiased)或為了娛樂、研究用途,可以在 Ollama 或 Hugging Face 上尋找並運行這些無審查模型(甚至有 DeepSeek 的無審查版本)。
5. 總結
開發者需要意識到不同 API 供應商(如 DeepSeek vs OpenAI)有不同的審查紅線。
如果需要完全的自由與控制,本地運行的 Dolphin 等無審查模型是唯一的解法,但需自行承擔內容管理的責任。
▌n8n 的銷售授權
- Can you sell AI agents, AI Automations or the codebase from n8n?
本節課分析 n8n 的授權模式(Sustainable Use License),釐清開發者是否可以銷售基於 n8n 構建的 AI Agent、自動化工作流,或是直接銷售 n8n 的程式碼。
在商業化你的 n8n 技能之前,必須了解 n8n 採用的特殊授權條款 — 可持續使用授權 (Sustainable Use License)。
免責聲明:講師並非律師,以下內容僅為條款導讀。若有具體商業疑慮,建議閱讀官方文件或諮詢法律顧問。
1. 授權原則
n8n 的原始碼(Fair Code)大多數遵循「可持續使用授權」。規則如下:
-
允許的使用範圍:你可以修改或使用該軟體進行內部商業用途(Internal Business Purposes)、非商業用途或個人用途。
-
分發限制:如果你要分發或提供該軟體給他人,必須是免費的(即非商業用途)。
-
版權聲明:不可移除或更改軟體中的任何授權或版權聲明。
2. 禁止行為
為了保護 n8n 的商業模式,禁止:
-
轉售 (White Labeling):你不能從 GitHub 下載 n8n 的程式碼,加上一些新功能後,重新包裝為自己的產品出售。
-
付費託管服務:你不能架設 n8n 伺服器並向客戶收取「訪問權限」的費用(Hosting and charging people money to access it)。
-
SaaS 後端數據濫用:你不能利用 n8n 收集用戶的私人憑證(例如 HubSpot 帳密),並將其數據用於你的競爭產品中。
3. 允許的商業行為
對於開發者和接案者來說,以下商業模式是允許的:
-
諮詢與代建服務:你可以提供與 n8n 相關的諮詢服務,例如為客戶構建工作流 (Workflows)、開發自定義節點 (Custom Nodes)。
-
維護與支援:你可以協助客戶在其伺服器上安裝、設置和維護 n8n,並收取服務費。
-
內部數據同步:公司可以使用 n8n 來同步其控制的數據(例如 CRM 到內部資料庫)。
-
嵌入式 AI Chatbot:
- 場景:你可以在你的應用程式中嵌入一個 AI Chatbot。
- 條件:該 Chatbot 使用你公司(開發者)的 API 憑證(支付 API 費用),而終端用戶只是與之對話,不需輸入自己的憑證。這種情況是被允許的。
4. 特殊情況與聯繫方式
如果你想做的事情不在上述允許範圍內,或者你不確定是否違規,可以直接寫電子郵件詢問 license@n8n.io 。
建議:在嘗試銷售任何基於 n8n 的產品之前,先聯繫官方確認,是最保險的做法。
5. 總結
-
不能做:偷 n8n 的原始碼去賣、做白牌 n8n 產品、或是做收費的 n8n 託管服務。
-
可以做:銷售你設計的工作流 (Workflows)、提供建置與諮詢服務、以及在你的產品中嵌入由你支付 API 成本的 AI 功能。
▌相關法案
- GDPR Basics
GDPR 嚴格要求,必須與 IT 分包商簽署數據處理協議(Data Processing Agreement,簡稱 DPA)— 在德語中稱為 Auftragsverarbeitungsvereinbarung(AVV)。
以 ChatGPT 為例,這個流程非常簡單:
- 獲取機構 ID:只要您擁有平台帳號(可用於產生 API 金鑰的帳號),就能在機構的「一般設定(General Settings)」中看到您的機構 ID(Organization ID)。
機構:「公司」、「企業」或「法人團體」
- 前往條款頁面:將此 ID 複製到剪貼簿,前往 OpenAI 首頁,捲動至頁尾,點擊右下角的「其他政策(Other Policies)」。
- 選擇 DPA:在「法律(LEGAL)」區塊下,選擇「數據處理增補條款(Data Processing Addendum)」。
- 執行簽署:在頁面最下方,您會看到一個標記為「執行數據處理協議(Execute Data Processing Agreement)」的連結。點擊後會進入一個頁面,您可以在該處輸入公司名稱、剪貼簿中的機構 ID 以及您的電子郵件地址。
完成上述流程後,您會在一分鐘內透過電子郵件收到 DPA(即 AVV)——這便履行了 GDPR 的一項關鍵形式要求。
- EU & US Compliance: GDPR, (DSGVO) CCPA, CPRA & the EU AI Act
開發與銷售 AI Agent 時,必須遵守相關法律,例如:GDPR、CCPA 與歐盟人工智慧法案,特別是歐盟市場(EU AI Act 與 GDPR),因為歐洲的法規比美國嚴格許多。
1. 歐盟人工智慧法案 (EU AI Act)
這是歐盟的監管框架,目的在確保 AI 系統值得信賴且安全,並採用「基於風險(Risk-based)」的方法進行分類監管。
A. 風險分類系統
開發者要儘早評估風險等級:
-
不可接受的風險 (Unacceptable Risk):被禁止的 AI 用途,例如操縱人類行為的系統。
-
高風險 (High Risk):具有重大影響的系統,例如提供醫療建議或法律建議的 Chatbot。這類系統可以開發,但需要嚴格的文檔與監管。
-
有限風險 (Limited Risk):大多數客戶服務 Chatbot 屬於此類。主要要求是透明度,即必須告知用戶他們正在與 AI 互動。
-
最小風險 (Minimal Risk):無強制義務。
B. 開發者的合規要求
一旦確定了風險等級(通常是有限風險或高風險),你需要:
-
披露 AI 互動:明確告知用戶這是一個 AI Chatbot。
-
確保數據隱私與 GDPR 合法:保護用戶數據。
-
減少偏見 (Mitigate Biases):使用多樣化的數據集,避免對特定群體造成傷害。
-
維護文檔:記錄使用了哪些數據集以及系統如何運作,特別是對於高風險系統。
-
人工監督:建立人類介入或審查的機制。
2. 資料保護規則
GDPR 適用於任何處理個人數據(如姓名、電子郵件、IP 地址)的 Chatbot。
美國通常較寬鬆,採用「選擇退出(Opt-out)」模式即可;歐盟則需要更嚴格的定義與同意機制。
關鍵措施:
-
數據最小化:只收集絕對必要的數據。
-
加密傳輸與存儲:使用 HTTPS 和 AES-256 加密(OpenAI API 已包含此功能)。
-
同意管理:明確告知數據收集目的,並保留同意記錄。
-
用戶權利:用戶有權要求訪問、更正或刪除其數據。
3. 實務操作
如何確保 OpenAI 與 n8n 的合規性?
雖然法規看起來很複雜,但在技術執行上,如果你使用正確的工具與設置,通常是安全的。
A. OpenAI API 的數據駐留 (Data Residency)
為了符合歐洲法規,OpenAI 提供了將數據保留在歐洲的選項:
-
設置方法:在 OpenAI API 平台的專案設置中,選擇 Europe 作為區域。
-
效果:這確保靜態數據(Data at rest)存儲在歐洲伺服器,不會被發送到美國,從而符合更嚴格的隱私要求。
-
安全性:OpenAI API 使用 AES-256 加密,並且不使用 API 數據進行模型訓練。
B. 工具選擇
-
n8n:這是一家總部位於柏林(德國)的公司,其軟體本身在設計上就絕對符合 GDPR 規範。
-
Botpress:也包含許多符合歐盟規定的功能。
4. 總結
要在歐洲合法銷售 AI Agent,最簡單且有效的策略是:
-
使用 OpenAI API 並將專案區域設置為 Europe。
-
確保 Chatbot 透明化(告知用戶它是 AI)。
-
負責任地處理數據(不收集非必要個資、確保數據多樣性以減少偏見)。
以下兩節跳過
皆為文件資訊,你可以透過 AI 幫你整理總結。
-
GDPR: Key Information in a Comprehensive Article
-
EU AI Act: Key Information in a Comprehensive Article
▌總結回顧
- Recap: Important Points to Remember
本節總結了本章討論過的安全與法律議題,並提醒開發者在使用 LLM 構建應用時應具備的核心觀念。
1. 模型選擇
權衡:API vs. 本地模型
-
API 模型 (如 OpenAI):
- 優點:性能強大,輸出品質最好。
- 缺點:成本較高,且數據需傳輸至外部。
- 建議:如果是為客戶構建應用程式,建議使用最好的模型(付費 API),以確保品質。
-
本地模型 (Local LLMs):
- 優點:完全免費,數據隱私性極高(可離線運行)。
- 缺點:輸出品質較差,失敗率較高(除非擁有 H100 等級的算力來運行 400B 參數的超大模型)。
- 建議:適合個人測試、娛樂或對隱私有極致要求的情境。
2. 安全措施
-
API Key 管理:務必定期輪換(Rotate)API 金鑰,並將其存儲在安全的地方。
-
RAG 與向量數據庫:
- 確保寫入向量數據庫的數據是合法的。
- 不要使用有版權保護的資料,或未經允許爬取的網頁內容。
-
Telegram 觸發器防護:
- 強制要求:使用 Telegram Trigger 時,務必加上一個
If節點來驗證 Chat ID。 - 如果不做,任何人都能使用你的工作流,這將是災難性的安全事件。
- 強制要求:使用 Telegram Trigger 時,務必加上一個
3. 攻擊風險意識
-
越獄 (Jailbreaks):攻擊者可能會試圖繞過安全過濾。
-
提示注入 (Prompt Injections):
- 當 Agent 具備聯網爬蟲功能時,可能會讀取到網頁中隱藏的惡意指令。
- 風險:這可能導致 Agent 發送詐騙連結給用戶。
-
資料投毒 (Data Poisoning):雖然通過 API 發生的機率極低(接近零),但仍需知曉此概念。
4. 法律、版權與合規性
-
版權保護:
- 使用 OpenAI API 的開發者受 Copyright Shield 保護。
- 開源模型(如 Llama)通常可自由商用,除非你的月活躍用戶超過 7 億。
-
GDPR 與隱私合規:
- 透明度:清楚告知用戶他們正在與 AI 互動。
- 數據多樣性:使用高質量、多樣化的數據集以減少偏見。
- 數據駐留:若服務歐洲客戶,記得將 OpenAI 專案區域設置為 Europe。
- 文檔:準備好清晰的技術文檔。
5. 對 LLM 本質的認知
-
統計學模型:LLM 只是在計算下一個最可能的 Token,它並不理解「真理」。
-
不可盡信:
- 輸出內容不保證 100% 準確,可能會出錯或產生幻覺。
- 訓練數據本身可能包含錯誤資訊(例如網路上可能充斥著錯誤的文章或謊言)。
-
人類監督:開發者應定期檢查 AI 的輸出,不能完全放任。
6. 總結
學習的本質在於改變行為。
- 如果你不信任大公司,請使用本地模型。
- 如果你追求品質並接受條款,請付費使用 API。
- 始終保持懷疑,驗證輸出,並做好安全防護。
▌下一步
- Recap: Thank You and What Comes Next?
本堂課程的總結回顧,整理了從基礎概念、工具應用、進階 RAG 技術到商業部署的完整學習路徑。
1. 基礎資訊
-
快速入門:學習了如何使用 NotebookLM 作為最簡單的 RAG 工具。
-
LLM 運作原理:深入了解大型語言模型的訓練方式、Function Calling(函數調用)以及如何使用工具。
-
向量資料庫 (Vector Database):
- 理解其儲存數據與檢索(Retrieval)的機制。
- 學習了 Top-k 結果的意義以及測試時間計算 (Test time compute)。
- 了解推論模型 (Reasoning models) 雖然強大但較慢且昂貴,應視情況使用。
2. 構建 RAG 應用
-
ChatGPT 介面:利用 GPT Builder 創建專屬 GPT,設定系統指令並上傳知識庫。
-
資料處理:
- Markdown:適合 RAG 的數據格式。
- 學習了如何將 HTML 網頁轉為 Markdown,以及利用 YouTube 影片字幕和 CSV 文件進行訓練。
3. 本地開源模型
-
工具鏈:使用 Ollama 運行模型,並透過 TechPowerUp 檢查 GPU 性能。
-
AnythingLLM:
- 在本地構建 RAG 應用。
- 切分策略 (Chunking):長文本使用較大的 Chunk size,短文本則用較小的,並調整 Top-k 參數。
4. Flowise
-
基礎設置:了解 OpenAI API 定價,並通過 NodeJS 本地安裝 Flowise。
-
應用構建:
- 建立了能夠爬取網頁的 Chat Flow,並學習如何導出/導入 JSON。
- 在 Flowise 中整合本地 Ollama 模型與本地 Embedding 模型。
-
進階代理 (Agents):
- Dual Agent:連接多種工具(如 Compose IO 發送郵件、管理行事曆)與 Pinecone 向量資料庫。
- 多代理系統 (Multi-agent):模擬 CEO 與員工之間的溝通架構。
- 順序代理 (Sequential Agents):無 CEO 的固定流程結構。
5. n8n
-
工作流設計:
- 掌握 Trigger (觸發器) 與 Action (動作) 的概念,以及 JSON 數據流的處理。
- 創建了自動更新 Pinecone 資料庫的工作流,以及免費的網頁爬蟲工作流。
-
MCP (Model Context Protocol):
- 將 Claude Desktop 作為客戶端,n8n 作為伺服器,實現更穩定且低成本的函數調用。
- 利用 n8n 內建的 MCP 工具替代傳統的 HTTP 請求。
-
雙向整合:透過 HTTP Request 節點連接 Flowise 與 n8n,也能利用 Webhooks 從 Flowise 觸發 n8n。
6. 進階 RAG
-
Prompt Caching:透過快取重複的 Prompt 來降低成本並加速處理(適用於重複性高或短時間內的任務)。
-
GraphRAG:在向量資料庫中建立實體(Entities)間的連接圖譜,雖成本較高但準確度提升。
-
情境檢索 (Contextual Retrieval):講師最推薦的技術。在切分數據時,為每個 Chunk 加上 50-100 個 Token 的上下文解釋,大幅提升檢索品質。
7. 部署與商業化
-
託管服務:學習在 Render、Hostinger、Replit 以及 WordPress 上部署 AI 應用的方法。
-
商業實戰:掌握了如何尋找潛在客戶(Leads)、定價策略以及銷售 AI 自動化服務的完整劇本。
8. 安全與合規
-
數據安全:妥善保管 API Key,並遵守 GDPR 等法規。
-
負責任的開發:確保數據來源合法,並注意版權問題。
9. 總結
「學習」的定義是:在相同的情況下,表現出不同的行為。
直到你親手構建出一個 RAG 應用或自動化工作流之前,你都不算真正學會了。
現在就去動手建造些什麼吧!