《翻譯》LLM Zoomcamp 2025 第一堂課

這是原先打算在 6月2日開放的課程,但由於講師要去休假,所以提前在 5月27日上傳影片。

以下是 Claude 協助翻譯的內容,希望對大家有幫助。


▌影片介紹

在這場啟動會議中,我們將介紹 2025 LLM Zoomcamp 的先決條件、課程大綱、作業、專案、時程安排,以及學習所需要的技術。

LLM Zoomcamp 是一堂免費的線上課程,探索 LLM 的實際應用。在 10 週內,你將學習如何建構一個能回答你自己的知識庫問題 AI 系統。

這堂課將介紹:

  • 認識新的講師團隊,了解課程如何配合真實生活的時程安排(包括講師在西西里島休假期間)
  • 瀏覽 GitHub 儲存庫、作業流程和證書標準
  • 學習確切的技術堆疊:Python、Docker、CLI、Git 和 GPU,以及為什麼每個工具對大型語言模型工作都很重要
  • 預覽你將在第 10 週交付的檢索增強生成(RAG)聊天機器人,加上專題項目和排行榜
  • 獲得「公開學習」、透過 FAQ 貢獻賺取加分,以及畢業後找到 LLM 工作的專業技巧
  • 參與現場問答,涵蓋代理程式、開源模型、GPU 提供商、監控與 MLOps 等更多內容

課程結束時,你將了解 LLM Zoomcamp 2025 是否適合你、如何準備,以及在哪裡尋求幫助。

影片章節:

  • 開場 – 為什麼提前舉辦啟動直播
  • 課程日期與西西里度假衝突
  • 今日會議路線圖
  • 認識 2025 講師團隊
  • 先決條件:Python、CLI、Git、Docker
  • GitHub 儲存庫導覽與星星請求
  • 高階課程大綱概覽
  • 3 分鐘解釋 RAG
  • 願景:你將建構的 RAG 聊天機器人
  • 逐模組詳細分解
  • 播放清單、課程安排
  • 辦公時間、證書、時程表
  • 作業提交示範
  • 有效瀏覽 FAQ
  • FAQ 貢獻如何賺取積分
  • 「公開學習」策略
  • 排行榜與過往範例
  • Slack vs Telegram 支援
  • 正確的 Slack 討論串禮儀
  • 贊助商致謝
  • 支持課程的方式
  • 現場問答環節開始
  • 代理程式與未來課程計劃
  • GPU 提供商與開源課程
  • 監控與 MLOps 相似性
  • LLM 職位的就業市場建議
  • 本地與託管 LLM 說明
  • 提前開始專題項目
  • 總結與結語

參考連結:


以下內容翻譯自講師本堂課的逐字稿

▌開場

為什麼提前舉辦啟動直播

大家好,歡迎來到我們的 LLM Zoomcamp 課程和啟動直播。課程實際上從下週開始,也就是星期一,我相信是 6 月 2 日開始。那麼為什麼我們現在就舉辦啟動直播呢?

原因是我即將去度假,因為我的規劃疏忽,我忘了在行事曆中加入一些事情,我忘了課程下週就要開始了。所以我會在西西里島的海灘上,而課程就要開始了。我想,好吧,我已經有票了,課程也已經定在這個日期開始,我該怎麼辦?我想我們就提前一週舉辦啟動直播,我會解釋即將發生的一切,然後如果你想的話,你甚至可以現在就開始學習課程,或者我們等到星期一,如果你願意的話。

》今日會議路線圖

無論如何,今天的計劃是,這是我們要涵蓋的內容。我們會談論講師、課程、課程大綱、課程組織安排,我們會談論我們的 Slack 如何使用以及如何尋求幫助,然後我們會談論支持我們和問題。

》認識 2025 講師團隊

這些是講師。如果你去年參加了我們的課程,你會看到不同的面孔,所以我們稍微改變了內容。我也不認識今年所有的講師,所以會有一位講師對你來說是驚喜,你會在課程中發現,但我不會詳細介紹,不會給你們所有人的傳記。

你可能已經認識我了,我在經營 DataTalks Club,我們在組織免費課程,這是其中一門課程。我以前是數據科學家,我想我現在仍然是,因為我甚至現在今天還在做一些數據和開發的工作,但我主要專注於教學,這就是我在這裡做的事情。

然後是 Kasper,Kasper Lukovski,他會談論向量搜索。我認識 Kasper 已經有一段時間了,他很久以前在我們頻道的開源聚光燈部分展示了 Qdrant,大概兩三年前。所以我們保持聯繫已經有一段時間了。Kasper 會談論向量搜索。

然後是 Timour,我們也認識很久了。Timour 是我們第一門課程——機器學習 Zoomcamp 的學生,他在那裡很活躍,之後我和他在許多課程上合作。他負責最佳實踐模組,所以你會看到他。

至於監控模組,我不知道確切誰會負責,但會是一個了解 Phoenix 的人——Phoenix 是一個 LLM 監控工具。我們稍後會更多談論模組,但是的,我們很快就會知道那個人是誰。

這就是課程團隊,讓我們談談課程本身。

▌課程資源與平台

》先決條件:Python、CLI、Git、Docker

為了在課程中感到舒適,你需要什麼?你需要能夠編程並了解一點 Python。如果你還不會 Python,你可以快速學習。這門課程需要的 Python 基礎並不需要你成為 Python 專家,你只需要閱讀一篇入門文章,花大概一天時間熟悉即可。

如果你已經知道如何用 Java 或 JavaScript 編程,你可以快速掌握 Python。所以你大概有一週時間來做這件事,因為課程下週正式開始。如果你在想這個週末可以做什麼,如果你還不會 Python,這就是你應該做的。

然後你應該熟悉使用命令行,比如瀏覽文件系統、運行不同的程序、使用 Git 等等。最後是 Docker,我們把 Docker 當作先決條件,所以你應該安裝 Docker 並能夠用 Docker 運行程序。如果你還不會 Docker,你可以查看我們的其他課程,例如機器學習 Zoomcamp 或數據工程 Zoomcamp 來學習 Docker。在這裡我們只是假設你已經知道了。

》GitHub 儲存庫導覽與星星請求

這是課程儲存庫,這是所有內容的主要入口點。我現在要在直播聊天中分享連結,如果你稍後觀看這個錄影,我會把它放在評論中,我現在就做。

這是我們保存所有內容的地方,這是基於 Git 的,在 GitHub 上,這很好,因為你們每個人都可以為課程做貢獻。可以是貢獻你的筆記或貢獻一些額外內容。當你對課程內容感到更舒適時,你會看到是否可以貢獻,我們鼓勵所有貢獻。

現在我想解釋這個儲存庫中發生了什麼,給你一個小導覽,但我也想請你們幫個忙。我希望你們所有人現在點擊這個連結,然後到課程頁面給我們一個星星。你只需點擊這裡的星星。我要喝口水給你們一些時間這樣做。

我請你們這樣做的原因是,如果你們所有人——現在在這個直播中的所有人以及稍後也會觀看這個錄影的每個人,我假設有些人會在 6 月 2 日課程正式開始時也會觀看這個,因為我們會在通訊中包含這個影片——如果你們所有人都給我們一個星星,它會出現在 GitHub 趨勢中,如果它出現在 GitHub 趨勢中,很多人會看到它,對吧?看到的人越多,就越多人能從我們的免費課程中受益,從我們為你們準備的內容中受益。所以請幫我們個忙,給我們一個星星。

▌課程內容與架構

》高階課程大綱概覽

好的,我們這裡有什麼?我認為這是相當不言自明的,你可以花些時間瀏覽一下。有趣的事情從這裡開始,當我們有課程大綱時。對於每個模組,我們都有模組的簡要描述,確切說明我們要涵蓋什麼,標題是可點擊的。這裡也有資料夾,你可以看到。當你點擊這裡的模組一,它會帶你到介紹資料夾,我們有更詳細的模組內容描述。

每個模組包含一些特定主題的討論,然後有一系列影片。影片是預錄的,想法是你按照這裡出現的順序瀏覽影片。這裡有一些評論,如果你需要的話。當你跟著影片學習時,你不必打字,你可以複製貼上。這就是你的做法,每個模組都是一樣的。

另外,在課程開始之前,你可以查看我們錄製的一些工作坊。其中一個工作坊成為了這個模組一,所以我從這裡移除了它,但另一個工作坊「建構搜索引擎」我們一年前錄製,材料仍然相當相關,所以我建議你現在可以做的是查看這個工作坊。

因為在這門課程中,我們不僅要專注於 LLM,還要專注於 LLM 的一個特定應用,即 RAG。RAG 代表檢索增強生成,我稍後會談論它是什麼,但 RAG 的關鍵組件之一是檢索,檢索就是搜索,對吧?如果你想更了解搜索如何工作,你可以查看這個工作坊。這是可選的,但如果你對這個東西感興趣,你可以在這裡查看。實際上,我們在那裡實現的一些東西,我們會在這門課程中使用。在那裡我們實現了一個搜索引擎,一個用 Python 實現的小型內存搜索引擎,我們也會在課程中使用。所以你不需要參加工作坊來理解那裡到底是什麼,但我建議你這樣做。

然後另一個重要的事情是你到 cohorts 2025,這裡你有所有特定於這個隊列的材料。我們有上週的問答直播,然後是播放清單,課程管理平台是你可以提交作業和專案的地方,然後是第一個模組的作業。所有這些都在這裡,這是一個重要的事情,你可以收藏它,這樣你更容易回來,因為它會包含你為這個特定版本需要的很多東西。

這個課程啟動直播就是現在正在發生的,所以我會在這裡包含連結。我不認為我需要花更多時間解釋這個儲存庫,你可以自己瀏覽並看看。當然我很感謝星星,所以這裡我在要求星星,這裡有一個 QR 碼,但既然你們都已經給了星星,如果你沒有,現在是最好的時機,請這樣做,但如果你做了,我就繼續。

》3 分鐘解釋 RAG

然後讓我們談談課程大綱,在談論課程大綱時,我想實際談論什麼是 RAG,給你動機或讓你一瞥我們究竟要涵蓋什麼。

這是我們課程中的一個 FAQ 文件。我們有多門課程:機器學習工程 MLOps Zoomcamp、數據工程 Data Engineering Zoomcamp、MLOps 課程、這個 LLM 課程,還有一個關於股票市場分析的課程,我們還要推出兩門更多課程。有很多內容,也有很多人們問的問題,我們在一個看起來像這樣的文件中收集了所有這些問題。

這是關於這個特定課程 LLM Zoomcamp 的常見問題 FAQ 文件,你可以看到課程。例如,這裡有一個運行 OpenAI chat completions create 時的錯誤,然後你看到有一個解釋,如果你遇到這個錯誤需要做什麼。這些是學生面臨的錯誤,這些是這些問題的解決方案。

假設你有這個問題,你需要做的是瀏覽整個文件並理解,比如說你有一個 Elasticsearch 的問題,然後你需要搜索,你需要瀏覽所有 Elasticsearch 的提及,這不是非常方便。

我想要的,這也是我們在這門課程中要做的,是以某種方式從所有這些文件、從我們擁有的所有這些課程中獲取所有這些知識,並將它們放入搜索引擎中。

我們不想自己瀏覽這個知識庫,我們想與聊天應用程序對話並問「嘿,我有這個錯誤,解決方案是什麼」,然後在幕後它會瀏覽所有文件,選擇相關條目,然後給我們,也會重新表述為我們的特定用例。這就是我們想在這門課程中實現的。

讓我更詳細地展示它究竟會是什麼樣子。想像你是一個學生,你有一個問題,你的問題是「我剛發現這門課程,我還能加入嗎?」這是一個非常流行的問題。

如果你只是問一個 LLM,如果我去 ChatGPT 問這樣的問題,它會說它不知道你在談論什麼課程。所以它不知道,它沒有幫助。如果我們只是使用 LLM 來回答我們的問題,我們需要做的是訪問這個數據庫,這個 FAQ,然後基於 FAQ 我們想給你一個答案。

所以這不好,這是我們看到的類似回應的例子。我們想要攝取這個,把這個放入數據庫知識庫,然後給定學生的問題,給定課程參與者的問題,我們想從這個 FAQ 中找到一些文件,一些與這個特定問題相關的條目,然後將它們發送給 LLM,給 AI,然後 AI 查看問題,查看 FAQ 的可能條目,然後給出答案。

例如,如果我拿這個文件,我知道其中一個條目包含答案,現在我要編輯這個問題,基於文件回答學生的問題,然後讓我們看看答案。現在它能夠使用我們的知識庫,我們在這裡提供了知識。這裡是問題,這裡是我們能夠檢索的文件,然後你有答案。這就是我們想要實現的,當然不會是 ChatGPT,但這就是我們想要的。

我們想要實現從我們的知識庫獲取數據並檢索我們需要的文件,最相關的文件,然後將它們發送給 LLM,形成類似於這個的提示,然後最終將答案返回給課程參與者。這就是我們想要實現的。

》願景:你將建構的 RAG 聊天機器人

為此我們將使用 RAG。RAG 是 LLM 在行業中最常見的應用之一,一年前它是最常見的應用,現在可能不同,但它仍然相當常見。RAG 是一種使用我們的知識庫來回答學生問題的方式,當僅僅一個 LLM 無法幫助時,當 LLM 需要額外上下文時。

RAG 代表檢索增強生成。檢索是搜索,我們從知識庫中檢索一些東西,然後用這個檢索我們增強我們的生成。這裡增強意味著我們不只是問 LLM,我們也給額外的上下文。這就是 RAG 是什麼,這就是我們在這門課程中要實現的確切內容。

在這門課程中我們要做 RAG,我們要學習如何用數據庫索引數據,如何檢索它,如何建構這個流程,然後 LLM 是這裡的組件之一。所以我們將學會建構 AI 應用程序,AI 驅動的聊天或我會說問答系統。

為此我們實際需要多個東西,這就是我們在課程中要涵蓋的。首先我們會給你 LLM 是什麼的概述,如何使用它們,RAG 是什麼,我剛才描述的但我們會更詳細地涵蓋。然後我們會談論向量數據庫,除此之外還有不同類型的搜索,有文本搜索和向量搜索,我們要涵蓋兩者。

然後我們要評估我們的檢索,所以我們要比較向量搜索、文本搜索和其他搜索方法,你也可以有混合搜索,當你結合文本和向量時。我們要評估這個,我們也要評估我們整個的 RAG 流程。所以我們要談論不同的評估方法,因為一件事是你可以依靠直覺感覺說好這看起來不錯,但最好也要做數據驅動的決策,我們會在模組三中涵蓋它。

》逐模組詳細分解

然後我們要在模組四中談論監控,我們要談論當你實際部署系統時可能發生的問題,當用戶開始使用它時。所以你想確保你監控系統的健康狀況以及與之相關的成本。我們會在監控中涵蓋這個。

然後最後我們要談論不同的最佳實踐,比如你如何讓你的應用程序變得更好。有一些技巧和竅門你可以用來讓你的問答系統更智能。

然後最後,我會喘口氣,我說話太多了,然後最後我們要把所有東西放在一起做一個專案。所以你會重新實現,你會遵循相同的,基本上輪到你來實現事情了。而不是只是跟著影片學習,你需要選擇一個數據集並重做我們在課程中學到的一切,但是你自己做。這將是專案,這就是課程。

我不知道為什麼我有第三張儲存庫的幻燈片,但這就是你會找到課程大綱的地方,這就是你會找到所有內容的地方。

好的,這就是課程大綱,這就是我們要涵蓋的,現在讓我們談談課程安排,比如組織部分。

▌學習管理與評估

》播放清單、課程安排

課程是預錄的,它們已經在我們的 YouTube 頻道上。我會快速向你展示如何找到它們。如果你去 YouTube DataTalks Club,這是我們的 URL,你現在正在觀看,所以當你觀看時你可以簡單地點擊這裡的圖標。

我們有播放清單,所以這是你需要去的地方,這裡我們有兩個相關的播放清單,實際上有超過兩個,但對你最相關的是,我們有這麼多播放清單,首先是 LLM Zoomcamp,然後是 LLM Zoomcamp 2025,然後 2024 也可能相關。

第一個播放清單,只是 LLM Zoomcamp,包含實際內容,所以所有這些影片都是預錄的,這些影片的連結你可以在模組內容中找到。所以當你點擊這裡時,它實際上會帶你到這個播放清單。這是主要內容。

然後另一個是 2025 的,這裡我們會有,我們有課前問答,我們上週進行的,我們在那裡涵蓋了很多東西,所以如果你有一些問題,你可以查看這個,看看你的問題是否已經得到回答,或者如果你觀看,你可能也會學到很多新東西。當然這個我們現在進行的影片也會出現在這個播放清單中。

然後這個 2024 是完全相同的事情,但是為了去年。我們已經在這裡有了一些東西,所以你可以查看它們。例如我提到的工作坊「實現搜索引擎」是那個播放清單的一部分。然後啟動直播,然後我們有辦公時間,所以這些是我回答你問題的影片直播。然後最後我談論了專案,所以內容對這個隊列也仍然非常相關,所以查看一下。但你的主要播放清單將是這個 2025 和常規的 Zoomcamp。

》辦公時間、證書、時程表

好的,所以這是預錄的,在 YouTube 上發布。辦公時間,我們去年已經有辦公時間,我不知道我們是否會為每個模組進行很多,可能不會。一些模組將是新的,所以我們可能會有兩到三個辦公時間,兩個是肯定的。我們會有一個關於向量搜索的和一個關於監控的,這是為了讓你能夠問關於它們內容的問題並得到答案。

然後最後你需要做你的專案,為此你有兩週時間,然後一週用於同儕評審。最後你會得到證書,這個證書,如果你通過專案你會得到證書,如果你沒有通過專案你不會得到證書。為了通過專案,作為專案的一部分,你需要評估其他專案,其他人的專案,只有當你做同儕評審時你才會通過專案。你會了解更多,但這大致是計劃:兩週做專案,然後第三週是評估三個同儕。

我談論了找到播放清單,但這是一個視覺說明,說明你如何能做到這一點。然後我已經談論了證書,我已經談論了 FAQ 文件。

》作業提交示範

對於作業,每個模組都有作業,這是為了確保你理解了模組的主要概念並能重複一些事情。我們有作業來確保你有理解。對於作業你會得到分數,每個正確答案在作業中會是一分,有時是兩分,然後我們有一個排行榜。

作業在 2025 資料夾中的 cohorts 裡,然後每個模組都有作業。這是作業的樣子,這裡會有作業的文字描述,說明你需要做什麼,當你完成這個作業時,比如說你得到問題一,你需要運行 Elasticsearch,你需要運行這個特定版本然後查詢它,然後你需要找出建構哈希是什麼。

一旦你做了它要求的,然後你去這裡的平台,介紹,然後可能是某個哈希,你在這裡輸入,然後你到第二個問題,然後你回答第二個問題,然後你回答第三個問題,以此類推。然後最後你可以提交,這就是你如何使用課程管理平台提交你的作業。

這是課程管理平台,它有的另一個東西是時間線,所以你看到每個模組的截止日期是什麼時候。你會有兩週時間,實際上幾乎三週,21 天是三週。記住課程下週開始,所以你有一些時間完成模組一,然後一些時間完成模組二,以此類推。我沒有在這裡添加專案,但一旦我們做了,它會看起來像這樣,所以你也會有專案的日期。

》有效瀏覽 FAQ

FAQ 我已經告訴你,如果你有問題你就使用它。你只需到這個文件,試圖在這裡找到你的問題。這很重要,我們用它作為建構系統的例子,但你也實際上用它來問問題,為了找到你問題的答案。

》FAQ 貢獻如何賺取積分

然後對 FAQ 的貢獻,我們想鼓勵你為 FAQ 做貢獻,這就是為什麼如果你貢獻一些東西,比如說你有一個問題或 Slack 中的某人有一個問題,你幫助他們解決這個問題,但這個問題不在 FAQ 中,所以你做的是在這裡描述問題,描述解決方案,然後到課程管理平台,比如說作業一,然後這裡 FAQ 貢獻,你簡要解釋你實際做了什麼,你添加到 FAQ 文件中的什麼。如果你這樣做,你會為作業得到一個額外的分數。

所以你得到六分,我們有六個問題,每個正確答案你得到一分,然後如果你為 FAQ 做貢獻,你也會得到一分。然後你也會因為公開學習而得到分數,我稍後會告訴你什麼是公開學習,但在這裡你添加一些連結。

》有效瀏覽 FAQ

實際上我們有一個機器人正在做這件事。這個機器人,我們的社群成員之一 Alex Leinov 實現了一個機器人,他甚至在課程之前,在課程的上一版之前就實現了它,這個機器人是這門課程的靈感來源。基於機器人正在做的事情,我們建構了課程,你可以使用這個機器人。

這裡是一個例子,你拿機器人問一個問題,然後機器人在做什麼,在它的知識庫內它有 FAQ 文件,它也有 Slack 中的歷史,所以它知道在 Slack 中討論了什麼,基於這個它可以給答案。所以如果你有問題,你可以問機器人。

▌溝通平台使用

》「公開學習」策略

現在讓我們談談公開學習。我已經談論了這裡的這些東西。什麼是公開學習?每次你學習,我們想鼓勵你不要私下學習。私下學習是當你學習某些東西,然後它只是留在你的腦海中,沒有人知道你學習了它的事實。公開學習是相反的,你學習某些東西,然後你告訴其他人你學習了它。這就是所謂的公開學習,我們想鼓勵你公開學習。

我們希望你分享進展,我們希望你分享你學到的東西,因為它幫助你建立網絡、提高可見度、建立聯繫。比如說,如果你想在完成這門課程後在 AI 領域找工作,它也會幫助你,因為它會讓你出現在也對這個主題感興趣的人的雷達上,他們是潛在的雇主。在未來,他們將能夠發現你。

它的工作方式是,比如說你說我學會了關於這個 LLM 應用,我學會了關於評估。每次你學習某些東西,你發布、發布、發布,人們看到這個,人們與你的內容互動,比如說你標記我,我喜歡你的內容,我關注的每個人都看到這個,不是每個人,但是 LinkedIn 開始向關注我的人顯示,因為我喜歡這個帖子,越來越多的人會看到它。

他們中的一些人會開始關注你,當你想找工作的時候,你可以只是發一個帖子,然後人們會看到它。但這不僅僅是為了求職,比如說你發布一個寵物專案,你分享它,人們會看到它,人們會想檢查你實際建構了什麼。當你公開學習時,這真的是一件了不起的事情,我們想鼓勵你這樣做。

這就是為什麼我們為你在這裡分享的每個連結給一個額外的分數。比如說你學習了關於 RAG,什麼是 RAG,你描述,你發一個 LinkedIn 帖子,然後你把它放在這裡。然後你學習了我不知道 Elasticsearch,你發另一個帖子,然後當然,它應該是不同的帖子,然後這樣,然後你也可以在 Twitter 上分享,你也可以在 Facebook 上分享,然後最後你可以添加最多七個連結。

想法是,如果一個課程,如果一個模組是一週,那麼每天你學習一些新東西,然後你可以分享。在我們的情況下,模組不一定是一週,但仍然限制在七個是有意義的,因為我們不想讓你濫用系統並在這裡放太多連結。

這就是你如何進行公開學習,我有一個公開學習的例子。也許我應該使用上一個隊列的例子,實際上讓我停止分享我的屏幕,我會快速嘗試找到去年的一些東西。

我做的是我尋找標籤 LLM Zoomcamp,我們可以看到這裡的一些例子,人們,例如這個人分享他開始做這門課程,或者 Dimitres 談論他的專案。很多人談論專案。我只是想找一個真正好的例子。

》排行榜與過往範例

順便說一下,你也可以在課程管理平台中檢查我們的,如果你去上一版,你去排行榜。記住我談論了分數,所以我們使用這些分數來做排行榜,我們根據這個課程分數對參與者進行排名,然後例如你可以檢查 Demetrius,我們可以看到他向 LinkedIn 的提交。這就是他的帖子看起來的樣子,我認為它實際上很漂亮,看起來不錯的帖子。

如果你想獲得一些關於你的帖子可能看起來如何的靈感,你可以檢查這個。

》Slack vs Telegram 支援

我談論了這個,然後我還想提到一些事情,所以我們有一個 Telegram 頻道,我不知道你是否訂閱了這個 Telegram 頻道。這是我們發布公告的地方,所以我們在 Telegram 頻道中發布公告,然後有一個機器人將這些公告從 Telegram 頻道重新發布到 Slack。

既然我們有兩個東西,我們有 Slack 和我們有 Telegram 頻道,Telegram 頻道只用於公告,我們不是真的在監控 Telegram 中的問題。我可能會看到一個問題,我可能會回答它,但這不是問問題的正確地方。所以我不承諾我會回答你在 Telegram 中的所有問題。

另一方面,Slack 是用於問問題的。如果你有問題,你去 Slack 問。當然你不應該只是去問,首先你檢查 FAQ 文件,然後你使用 Slack 中的搜索功能看看這個問題是否之前被問過,然後最後你可以使用機器人,我向你展示的那個,你也可以問機器人,機器人會回答你的問題。

這就是為什麼你使用 Slack,你用它來問問題,如果你沒有 Telegram,也有一個機器人將所有來自 Telegram 的帖子重新發布到 Slack,所以如果你不想安裝 Telegram,也許你沒有它,你不想有另一個通訊軟體,沒關係,你也會在 Slack 中得到通知。

但是在 Slack 中有這麼多東西,公告可能會被忽略,你可能不會意外地注意到它們,這就是為什麼我建議,我推薦實際上有 Telegram 並關注頻道。

這裡你有到 Telegram 公告的連結,這裡是我們 Slack 頻道的連結,這裡是 Slack 工作區 FAQ 和課程播放清單的連結。

我已經談論了課前工作,所以如果你想學習搜索引擎如何工作,有一個工作坊,我已經向你展示了如何找到它,然後模組一已經可用,作業已經可用,如果你願意,你現在就可以開始。

》正確的 Slack 討論串禮儀

現在讓我們談談我們的 Slack,為此我有這個不同的瀏覽器和測試賬戶。這就是你加入 Slack 時會看到的,你會看到這些頻道中的大多數,除了這個是在德國的一次會議,順便說一下,如果你在德國,我們定期在柏林舉行聚會,所以加入這個頻道。

也有其他頻道,如其他國家的會議,如英國會議、美國會議,所以你也可以檢查它們。我知道確定的是在柏林我們定期舉行聚會,有時在慕尼黑,所以如果你在德國,考慮加入這個頻道。

但是在這裡我想談論課程頻道。當你加入 Slack 時你看到這樣的東西,我想向你展示如何添加頻道。你點擊這裡,或者不是添加頻道,加入頻道。我不知道為什麼他們說添加。在這裡你點擊瀏覽頻道並輸入 course-llm-zoomcamp,然後它帶你到課程頻道,然後你點擊加入頻道。

這裡這是你與其他課程參與者互動的地方,你也看到公告,我提到有一個機器人從 Telegram 重新發布公告到 Slack,這裡是機器人的例子。這就是你如何使用機器人。

我也想向你展示如何使用 Slack 頻道。首先,如果你看到一個問題,你需要使用討論串來回應這個問題。想像這是一個問題,比如說這裡 Vinil 問我註冊了但沒有收到任何課程郵件,答案如你所見在討論串中,所以我說檢查上一條消息,因為實際上上一條消息是一樣的。

所以請在發布消息之前檢查至少上一條消息是否不是問同樣的事情,但也請向上滾動看看也許這已經被討論過了,然後也有這個搜索功能,你要使用它來檢查這是否已經被問過。

但是想像這個問題沒有被問過,然後你在這裡問這個問題。這是問題,如果你現在想回答某人問的問題,你點擊這裡在討論串中回復,這是你的答案。所以你總是在討論串中回復,你不在主頻道中回復,你保持討論在討論串中有組織。這就是你如何使用 Slack 和如何導航它。

然後你隨意檢查我們有什麼其他頻道,有相當多其他有趣的頻道,讀書俱樂部,我甚至不知道它存在。我不知道它有多活躍,但你可以看到我們這裡有什麼。例如,有另一門我們很快開始的課程,開源 LLM,所以你就加入它。這就是你如何做的。這麼多頻道。

我認為就是這樣。有一些事情我想談論,我想我提到了所有這些,除了也許最後一個。如果你有問題,請不要標記我或課程團隊的任何其他人,我們會看到問題,我啟用了通知,我會看到問題,當我有時間時我會最終回答。

通過不標記我,你允許其他學生,其他課程參與者跳進來回答問題,但如果你比如說標記我,那麼這個問題是針對我的,所以其他人可能不會覺得回答很舒服,因為它是針對我的,如果你明白我的意思。但如果你不標記我,那麼其他人也會能夠,他們更容易回答。所以請不要標記課程團隊的任何人。

我已經談論了其餘的,還有重要的事情,我沒有提到這個,如果你有課程相關的問題,請只在課程頻道中使用。如果你在 general 中問,如果你在 welcome 中問,如果你在其他頻道中問,它們會被移除。所以請加入這個頻道,請在那裡問你的問題。

然後我談論了 Slack 和 Telegram。

▌其他

》贊助商致謝

我想感謝我們的贊助商,這個版本今年我們有三個贊助商。Arize,這是一個機器學習和 LLM 監控平台,他們也有一個開源產品叫做 Phoenix。Phoenix 是 LLM 監控系統,它是開源的。Arize 一直是我們社群的支持者有一段時間了,他們實際上是這個社群的第一批贊助商之一。

感謝 Arize,當然還有其他贊助商,我們成功做到了我們所做的,Arize 為此貢獻了很多,所以感謝來自 Arize 的人們。

然後 DataHub 也是我們的大支持者,所以我要停止分享我的屏幕一會兒,因為我穿著這件 T 恤,這實際上是意外的,我沒有故意穿這件 T 恤,只是碰巧我有它,因為它很方便。我實際上有兩件,所以他們給了我兩件 T 恤。

他們也是大社群支持者,我們一起做了這麼多事情,今年他們再次支持這門課程,所以我們會與他們一起舉辦關於為 LLM 攝取數據的工作坊。

然後最後我們有另一個新贊助商,我們以前沒有與他們合作過,Qdrant。Qdrant 是一個向量數據庫,所以你會在我們的向量搜索模組中看到他們,我對這個合作真的很高興,因為 Qdrant 是一個真正好的數據庫,它已經存在了相當長的時間,我也認識來自 Qdrant 的人,他們位於柏林。

我對這個合作真的很高興,因為這是一個好工具,當然我只想要好工具在課程中,所以我很高興我們合作,因為他們做了一個驚人的產品,他們製作了一個驚人的產品。

這些是支持我們的公司,如果你在一家公司工作,你認為你可以支持我們,你可以在 Slack 中聯繫我,或者我的郵件,如果你訂閱了我們的通訊,你可以點擊回復,然後我們可以談論。

》支持課程的方式

但如果你想個人支持我,作為個人而不是代表公司,你也可以通過 GitHub 這樣做。有這個贊助商頁面,我要在這裡分享連結。如果你覺得這門課程有用,如果你想對我個人說謝謝,你可以通過這個來做。你可以每月做一次經常性支持,比如 5 美元或 10 美元,或者你可以做一次性的事情。

他們可以,我不知道,去吃頓飯或買杯啤酒。我不喝酒精啤酒,但我喜歡無酒精啤酒,所以如果你想讓我在這次直播後喝杯啤酒,你也可以捐一些錢。我也會在這裡包含連結。

你們所有的支持都非常感謝。

你可以做的另一件事來支持我們,如果你在一家公司工作,許多公司有培訓預算,即使這門課程是免費的,但如果你想將這個培訓預算的一部分捐給我們,捐給 DataTalks Club 以保持我們的社群運行,那麼你也可以這樣做。我們可以向你發送任何你想支持我們的金額的發票,所以我們會發送發票,然後這樣你可以與我們分享你的學習預算、培訓預算的一部分。

》現場問答

好的,差不多就是這樣。現在我要談論問題,已經過了相當長時間,我花了 50 分鐘,這很長,但現在我要等等。

如果你去 Slido,首先在直播聊天中有一個固定連結,你可以點擊這個連結並問你的問題,然後你也可以去 Slido 並輸入 LLM 或掃描這個 QR 碼。

讓我們從一個問題開始:「我理解 RAG 很重要,但我們什麼時候可以擴展 Zoomcamp 的範圍來學習更多關於代理程式,與去年相比?」

》代理程式與未來課程計劃

不在這門課程中,不是現在,也許明年會,但我們肯定會有一些關於代理程式的內容,我們會有關於代理程式的工作坊,然後我們也計劃運行一門新課程,課程是關於開發的 AI 工具,作為這門課程的一部分,我們要實現我們自己的代理程式。

關注我們,定期檢查我們的通訊以獲得公告,可能我們會在九月有這門課程。原始計劃是首先檢查社群是否有足夠的興趣,所以我們想看看社群中的人們是否對這門課程感興趣,所以我們進行了一項調查,我們收集了 2,100 個註冊,這意味著社群確實對這門課程有興趣,這意味著我們要推出課程,所以可能在九月左右。

在這個版本中沒有,但可能明年我們會在這門課程中,在 LLM Zoomcamp 中做一些關於代理程式的事情,它肯定有意義包含它。

關於代理程式,為什麼我們現在沒有它們,這是我上週在我們進行課前問答時談到的,我們用於實現代理程式的工具每天都在變化,所以它不夠穩定來錄製一門關於這個的課程,但我們肯定可以有一些工作坊。

明年我會嘗試包含,所以我已經有一些想法要做什麼,我想談論代理搜索,這對於我們已經有的內容來說是很容易的,談論代理搜索是很自然的擴展,所以這是我們明年會談論的事情。我認為到明年當我們推出它時,當我們添加,當我們做這些改變時,工具會穩定,所以我們不需要每年重新錄製內容。

因為在今年的版本中我們很幸運,我們不需要改變很多東西,所以我們使用的 API 或多或少是穩定的,這就是為什麼我也想等代理框架和圍繞代理的事情變得穩定,然後再讓它成為這門課程的一部分,因為我認為這是一門重要的課程,我們想每年繼續運行它,所以我想等一點,在它變得穩定之前。

》GPU 提供商與開源課程

「這次會有任何免費 GPU 提供商的支持嗎?」

如果你想在本地運行東西,你需要 GPU 提供商。在這門課程中我們不會在本地運行東西,這就是為什麼,去年我們有模組二,它是關於開源 LLM 的,在那門課程中,在那個模組中我們在本地或不是本地但在某個地方運行像 Mistral 或其他 LLM 的東西,但我們可以使用雲 GPU 來運行那裡的東西,我們使用 Saturn Cloud,但這不是非常容易,這就是為什麼在這裡我們決定分割它。

我們拿了關於開源 LLM 的模組,我們要把它變成一個單獨的課程。如果你去我們的 GitHub 儲存庫,我們有開源 Zoomcamp,我們已經有一堆星星,所以我們要在六月底,也許七月初的某個地方運行它,我們拿了模組二並擴展了它,我們也基本上要從頭開始重寫整個東西,因為模型變化如此頻繁,我們去年涵蓋的模型已經過時了,因為我們有像 DeepSeek 這樣的東西,有很多新的 Llama 模型,所以我們要更新今年的內容,我們要只專注於開源。

在那裡你會需要 GPU,所以在這裡我們與 Saturn Cloud 合作,我們也與 IMD 合作,所以他們會為我們提供 GPU,他們會為我們提供雲訪問,我們能夠做這些事情。

在那裡專注於開源的東西有意義有雲提供商,但在這門課程中我們更專注於應用,所以我們不想花太多時間試圖弄清楚你如何確切地託管開源模型,這就是為什麼我使用提供商,提供商可以是 OpenAI,可以是 Anthropic,可以是有一些免費替代方案。

順便說一下,我們在這裡有一個免費替代方案的列表,這個文件叫做 awesome-llms,你可以看到有 OpenAI 替代方案,例如 Grok,你實際上可以免費使用 Grok,所以他們託管開源 LLM,當然如果你不發狂並開始用請求轟炸他們,你可以在整個課程中免費使用它。

但是像 OpenAI,如果你只是在那裡放 10 美元,你在課程的其餘部分會沒問題,所以這裡是替代方案。這是對這個問題的長答案,但這門課程不會被免費雲提供商支持,如果會有另一門課程我們會,但在這裡我們不想在本地運行 LLM,我們仍然會有一些本地 LLM 設置或 Llama 如果你願意,但理想情況下你為此使用一些雲服務。

》監控與 MLOps 相似性

「這門課程中的監控模組是否類似於 MLOps 課程中的監控模組?」

是也不是,所以想法是相似的,你部署了一些東西,你想確保系統的健康狀況是好的,但你監控的東西是不同的。在 MLOps 課程中你監控 ML 模型,在這裡你更多監控請求,你發送的回應,成本,回應速度。你監控的一些指標是相似的,一些指標是不同的,所以有點是也不是。

「開源課程會被認為是主課程的一部分嗎,會有評分嗎?」

不,所以它會是兩門單獨的課程,所以我認為這更容易。在這裡我們專注於 LLM 的應用,在那裡我們專注於開源 LLM,在本地運行它們,如果你想的話也部署它們,也微調。它們稍微不同,在這裡我們做 RAG,在那裡我們使用 Hugging Face 和類似的東西來運行,所以它們有點不同,這就是為什麼最後我認為把它們分成兩門課程是有意義的。

「你不需要 GPU,他們會學習分佈式訓練嗎?」

不,我們不會做這個,所以這裡再次更多是工程,工程的意思是你有一個提供商,使用它的最佳方式是什麼,所以我們不會深入內部,我們不會,我們只是將它們視為黑盒子。這更像是關於為使用託管 LLM 建構應用程序。

「我們會為代理程式使用 LangGraph 嗎?」

不。

》LLM 職位的就業市場建議

「哪些職業最能從這門課程中受益,例如,它更適合 AI/ML 開發者、數據科學家,我不知道誰是模型開發者、數據科學家?」

是的,我認為數據科學家,或者也許不是大多數,我沒有真正做調查,但許多數據科學家已經知道其中一些事情,因為他們需要在工作中這樣做。如果他們不知道,當然他們會極大受益,這已經改變了。去年當我們第一次做課程時,較少的人接觸 AI,現在越來越多的人。

當涉及數據科學家時,我認為他們中的許多人已經在與此工作,但是的,當然他們會受益,他們會學到新東西。AI/ML 開發者他們可能也知道,所以我認為這是想要學習更多 AI 的開發者,也是還不與 AI 一起工作但想要學習一些事情的數據科學家。但基本上每個知道如何編程的人。

「你能給 LLM 就業市場的建議嗎,特別是對於那些試圖找工作且沒有經驗的人?」

我的意思是去查看 LinkedIn,我不知道你的地區,但我知道如我提到的許多數據科學家他們已經與 LLM 一起工作或需要工作,很快就會需要與 LLM 一起工作。

如果你是數據科學家,你還沒有與 LLM 一起工作,考慮擴展你的簡介,比如學習更多關於 LLM 的知識,這樣會讓你的簡介在就業市場上更有吸引力。

但我知道我沒有真正回答你的問題,試圖找工作且沒有經驗,這總是困難的。所以你的建議需要更具體,但我只會說最好的建議是建構專案,做公開學習,分享你建構的這些專案,然後最終你會找到工作。

如果你沒有經驗,這特別正確,所以你需要真正專注於建構你的作品集,讓其他人知道你的存在,這些你建構的專案很棒,所以你需要公開,你需要在公開場合分享它們。

》本地與託管 LLM 說明

「會有一門工程課程嗎,我們在其中學習部署 LLM 或 GenAI 課程?」

我的意思是這有點像 AI 工程課程,無論你指的是什麼,但我認為這是因為這門 LLM 課程更多是關於工程而不是 LLM。所以你有一些 OpenAI 或其他提供商給我們的 LLM,這門課程教你如何使用它們來建構應用程序,然後如何評估,然後如何監控它們。還有技巧和竅門,我認為這就是 AI 工程師所做的。

我們不會真正深入提示工程,這可能是 AI 工程師也會做的事情,但其餘的組件都在那裡。

「獨自完成並在 GitHub 上導航課程有點複雜,我們可以在 Slack 社群中找到合作夥伴嗎?」

當然,一個合作夥伴或多個合作夥伴,所以整個 Slack 社群,當然可以。你唯一不能與合作夥伴做的是專案,所以最後的專案是個人的,但其餘的你可以與其他人一起做,這沒有問題。

「對於在監控工作的個人來說,什麼類型的課程最有益,我們去年討論過嗎?」

我想監控模組。

》提前開始專題項目

「Yanosh,我們現在可以開始專題項目嗎?」

是的,你可以現在開始,即使它在平台上還不可用,這裡是你需要了解的關於專案的資訊。你檢查影片,你檢查辦公時間,我認為這個,我需要更新這個連結到 2025 版本,即使比如你點擊這裡和這裡,它還沒有找到,因為我還沒有在課程管理平台上創建專案,但這裡是你需要的所有東西。

然後你也可以去這裡專案嘗試,看所有專案,然後你可以看到我不知道 Maxim 的專案是什麼,其他學生做了什麼,然後你可以對你需要實現什麼有好的想法,然後你可以現在就開始實現,開始做專案。你不需要等待。

「我們可以已經做作業嗎?」

你可以,但只有第一個作業準備好了。如果你做,你可以做上一版的作業,只是為了確保你理解內容,但我們為作業準備的問題會稍微不同,所以你需要等到我們實際發布它們。

我回答了那個問題。

「除了 Docker,我們這門課程還需要什麼工具?」

Jupyter notebooks 我想,但我們在第一個模組中展示如何安裝它們。

「我們會建構我們自己的 LLM 嗎?」

不,我們不會這樣做。

「你一直使用『本地』這個詞,我是什麼意思?」

好的,你可以有 OpenAI,OpenAI 是一個 API,你使用 SDK,但在幕後發生的是你向某個伺服器發送提示,然後你得到帶有答案的回應。這與本地相反。

本地我指的是,比如說你使用你的筆記型電腦來運行 LLM,這是本地的,但也比如說你的筆記型電腦像我的一樣不夠強大來運行 LLM,你可以做的是你可以在雲端某處租一台有 GPU 的機器,所以它有點不是真正本地,因為機器在雲端某處,但你在那台機器上做的仍然是相當低級的。

你需要有 PyTorch,你需要獲得模型的權重,你需要運行它們,所以這是相當低級的東西,與只向 API 發送請求然後得到回應相比,這就是我稱之為本地的。當然這裡本地不一定意味著在我的筆記型電腦上本地,但然後本地到你運行東西的環境。

我不知道這是否有意義,但基本上遠程是你只發送 API,你得到請求,本地是你實際導入 PyTorch,導入 Hugging Face,你運行模型,你下載權重,所以這就是我指的本地。

讓我再回答兩個問題,然後我們就結束今天。

「我什麼時候會獲得作業的訪問權限?」

你已經有訪問權限,我想我在課程中解釋了,抱歉在這個影片中。

「作為數據工程師,我如何使用從這個 LLM Zoomcamp 學到的東西,LLM 如何用於改進和使開發數據產品更容易?」

你如何使用從這個 LLM Zoomcamp 學到的東西,首先你會看到我使用像 ChatGPT 和 Claude 這樣的工具實際編程的例子,我們會有一個單獨的關於這個的課程,關於使用 AI 進行開發,關於使用 AI 開發工具,我們使用 AI 讓我們工程師更有效,更有生產力,但你已經可以在這門課程中看到我這樣做。

然後其他事情,當你進行課程時,你會看到我們在這裡做的一些事情就是數據工程,我們需要,我們有知識庫,知識庫是數據庫,我們需要攝取數據,我們需要訪問這些數據,這與工程師,特別是數據工程師所做的非常相似。

所以這有點擴展了你的視野,然後它已經與你作為數據工程師所做的相似,所以這意味著如果在你的工作場所出現 AI 專案,你可能能夠參與 AI 專案。

然後 LLM 如何用於改進和使開發更容易,這就是我說的,你只會了解那裡有什麼東西,然後憑藉你的背景,你將能夠看到它如何確切地應用於你的工作。它不會直接應用,更像是間接的,但是的。

▌總結

讓我把這個作為最後一個:「你認為將來你會創建一門教我們創建我們自己的 LLM 的課程嗎?」

不,我不是真的那麼了解它來教學。如果你指的是使用 numpy 或 PyTorch 從頭開始實現它,我不是那麼了解它來教學,已經有關於這個的好課程。

我們會有的是這個開源 LLM,我們將能夠使用已經發布的開放模型來運行它們並微調它們,所以這就是我們會做的。

好的,現在我說話累了,說實話,但我對那門課程真的很興奮,所以我們都會有很多樂趣。

你現在可以開始上課程,你可以等一點到星期一再開始,但無論如何,享受學習,很快見到你,感謝今天加入我,再見。

》觀看影片