《翻譯》LLM Zoomcamp 2025 課前問答

講師在昨天上架了課程 新影片,關於 LLM Zoomcamp 2025 的課前問答,我用 GAI 翻譯如下供大家參考。

提醒:未確認翻譯結果,內容有可能不完全正確。

LLM Zoomcamp 2025 課前直播問答 - Alexey Grigorev

開始前的哈啦,想看的人可點擊展開

大家好,我想我已經上線了。是不是應該梳一下頭髮?應該沒問題。大家好,我要先做一些多工處理,我現在要分享這個連結。

好,讓我在手機上打開它。已經有 17 人在這裡了,大家好。現在你們只會看到我在背景做一些事情,因為我們要在 7 分鐘後開始,而我還需要在幾個地方分享連結。

還有哪裡要分享?好,我現在要更新 Luma 上的連結。

好,我想這差不多就是全部了。嗯,讓我想想現在怎麼招待你們。我們還有 5 分鐘,我想我需要去拿些水,因為我會講很多話,所以需要確保我有一杯水。

嗨,David,來自洛杉磯。那裡現在很早吧?大概是早上 7 點或類似的時間。所以早上好。謝謝你那麼早起來參加我們這場精彩的課程。

大家近況如何?讓我看看我們在聊天室已經有多少人了。52 人,哇!大家好,我們還有約 4 分鐘的時間。

也許你們現在可以做的是,首先請點讚這個影片,這樣 YouTube 就會開始向其他人推薦這個影片,但也請寫下你來自哪裡,以及你是如何得知這次活動的。這總是很有趣的,比如你是怎麼知道這個課程的?你是在 LinkedIn 上看到公告,還是在 Luma 上訂閱了?請讓我們知道你是如何發現今天的直播和課程的。

我將查看你們的留言。嗨,來自巴西,嗨,嗨,Anna。嗯,當然,NJ,紐澤西,對吧?所以向紐澤西或所有需要早起的人致敬,當然不只是洛杉磯,全球各地的每一位加入的人。

嗨,哥斯達黎加,我不幸還沒去過哥斯達黎加。希望我有一天能去那裡。也許不久的將來,但最終會的。

David 說:"我正在開始數據工程 Zoom camp,以及主頁上的 Zoom camp。"所以你可能是在我們的主頁上發現的,可能是頂部的橫幅,對吧?

很好,嗨,Michael 或 Mike,抱歉我不知道如何發音。Mike/Michael 來自維爾諾,你也好。你在 LinkedIn 上發現了這個課程,是的,這是我宣傳它的地方。

現在,在我們真正開始之前,我還需要告訴你們什麼?有時候,在實際活動開始前的這幾分鐘,我會用它來熱身。有時我有很多話要說,但現在我的腦子一片空白,所以,是的,不知道說什麼。

順便說一下,我穿著來自 DT 的 T 恤,這讓我想起來,對於正在學習數據工程課程的人,我們承諾給你們 DT 的 T 恤,我需要加上這個提醒。

這就是我的待辦事項清單的樣子,你們不需要看到裡面是什麼,但我保持老式的方式,因為這是我能跟蹤事情的唯一方法。一旦它變成電子化或數位化,對我來說就變得很難使用。但是,是的,這是一家很酷的公司,順便說一下,他們也贊助我們的 LLM Zoom camp,他們贊助了數據工程 Zoom camp,他們是我們社區的大力支持者。他們有這件 T 恤,這真的是一件很酷的 T 恤,現在穿起來也很方便。

無論如何,我想我們應該開始了。讓我看看已經有多少人在這裡。100 人,很好,我想讓我們開始,然後人們會陸續加入。

好,我要分享我的…先關掉這些東西。

大家好,感謝大家參加這次活動。在這次活動中,我們將討論一個我們計劃很快推出的課程,在這次直播中,我將回答你們的問題。作為回報,我想請你們點贊視頻,訂閱我們的 YouTube 頻道(如果你還沒有),並在直播聊天中活躍參與。這樣你們就是向谷歌或 YouTube 發出信號,表示這是一個非常有趣的視頻。如果你們參與這個視頻,它就會開始推廣這個視頻,這樣更多的人會看到它。

另一種幫助我們傳播課程消息的方式是給我們的課程一個星標。你看,我已經開始了,我現在要和你們分享。所以去給我們的 repo 一個星標,這個 repo 實際上是我們課程的主要入口點。我也會把鏈接放在描述中,如果你在錄製中觀看,你可以在描述中找到這個視頻,在描述中找到這個鏈接。

這是我們的 repo,這是課程內容所在的地方,是的,這裡你可以看到我們計劃的內容,我們會在推出課程時詳細討論。現在我只想回答你們的問題,但我們會在發布視頻中詳細介紹課程的內容。

課程的正式開始日期是 6 月 2 日,但發布直播會早一點,將於下週 5 月 27 日進行。這樣安排的原因是我恰好要去西西里島旅行,不幸的是與發布日期重合,當我發現這一點時,已經太晚無法為旅行和課程做任何調整。因此,我們將在下週 5 月 27 日進行發布直播,但如果你計劃在 6 月 2 日觀看也沒關係,因為所有的直播視頻都會保留在我們的 YouTube 頻道中。

因此,我們將在下週推出,課程於 6 月 2 日開始,但從下週開始,應該也可以開始學習課程。這就是關於物流的一些信息。我們將在下週的發布直播中再次詳細討論課程的內容,但這是 repo,你可以四處看看,看看裡面有什麼。

現在在直播聊天中有一個固定的鏈接,如果你點擊這個鏈接,就會看到這個頁面。這是你可以用來提問的頁面。現在我要使用演示模式,或者你也可以掃描 QR 碼從手機上提問。

現在讓我開始回答你們的問題。

問題:自去年以來課程課程有哪些變化?

有一些變化。去年已經是更新後的課程。我們的模塊更少了,我們沒有開源模塊。之前是先有介紹,然後是開源,然後是向量搜索。

然後我們將評估和監控分成了兩個模塊。之前我們只有一個評估和監控在一起,現在我們將它們分成兩部分。在評估中,我們將討論離線評估,如何使用不同的離線指標評估我們的應用程序,比如如何評估搜索質量,如何在不向用戶展示的情況下評估應用程序的質量。

但一旦我們的系統上線,監控部分就會出現。這時我們談論監控,當我們實際啟動系統時,我們想監控成本,我們想監控我們發送的查詢類型,我們得到的回應類型,我們想確保用戶對此滿意。這就是我們在模塊 4 中要涵蓋的內容。

在技術方面也有一些變化。在監控方面,我們將使用 Fenix,這是 ARIS 的一個開源工具。今年我們將使用 Phoenix 而不是去年使用的 Graphana。

另一件事,我們可能會為向量搜索模型使用另一個工具,這還不是官方的,一旦確認,你就會看到這個工具是什麼。之前我們使用 Elasticsearch,我們現在…這取決於我們的贊助商,如果他們通過,那麼這將是贊助商模塊,如果沒有,我們將堅持使用像去年一樣的 Elasticsearch。所以你會得到…下週我們應該最終確定它,所以你實際上會知道模塊 2 中到底有什麼,但向量搜索模塊的內容也可能會變化。

至於其他模塊內部的內容,評估我認為主要會和去年一樣。所以我們就把去年向量搜索模型的評估和監控模型的評估放在一起,這就是我們評估模型的內容。介紹可能不會有變化,最佳實踐可能會有變化,我和這個課程的講師 Timour 談過,他可能會為這個模塊做一些更新,他可能會在最佳實踐模型中做一些更新。

大致就是這些。我們還將像去年一樣與 DT 一起舉辦一個研討會,研討會的主題可能會有點不同,講師可能會不同,但我們也會在本課程中使用 DT。

所以這差不多就是變化。我想說與其他課程相比,這裡的變化相當多,在其他課程中,變化不是那麼大,但這裡我們重新安排了一些東西。

我還提到我們移除了開源模塊,你可能想知道它去哪了。實際上,我們計劃推出一個專注於開源的單獨課程,這個課程是開源 LLM zoom camp。這就是我們將涵蓋的地方。所以不是只做一個模塊,它將是一個有兩個模塊的迷你課程。這個課程將與 LLM Zoom camp 並行運行,因為我們將並行運行,我們將為每個模塊提供更多時間,比如每個模塊可能有 2-3 週,但我們會看看具體如何在邏輯上組織它。是的,我們把這個開源模塊變成了一個單獨的課程。

順便說一下,我們還有一個編排模塊,我們也移除了。去年我們為 LLM Zoom camp 提供了編排器,今年我們不會有。

問題:你認為 LLM 是一項持久的技術還是只是像元宇宙或 NFT 一樣的過渡趨勢?

對我個人來說,我沒有使用過元宇宙的任何東西,也沒有做過任何與 NFT 相關的事情,但我是 LLM 的重度用戶。我使用它來編程,在個人生活中使用它來問不同的問題,幫助我組織思想,或者一些健身的東西,比如跑步或舉重,我使用它很多。所以可以說它已經成為我生活的一部分。

所以看起來至少如果你問我,當 ChatGPT 出現並且我開始使用它時,我的生活變得容易多了,現在我也使用像 Cursor 這樣的工具來編程和其他事情。所以我真的不希望它們消失。即使那裡有很大的炒作成分,它確實讓我的生活更容易,我不能對元宇宙說同樣的話,我對元宇宙一無所知。我猜它是一個 VR 的東西,或者 NFT 是當你製作一些數位藝術並出售它的時候,對吧?所以它可能仍然有一些觀點,但是如果你問我,我認為 LLM 會一直存在,炒作可能會消退,就像它總是會的那樣,但是我們使用的工具、我們使用的產品會留下來。

也許 ChatGPT 會看起來不同,但我認為我們現在看到的一些東西可能會留下來。對於你作為開發人員、數據科學家或 ML 工程師,無論什麼,學習如何使用這些工具真的很有幫助,因為利用它們,你可以更快地創建原型。

例如,如果你是一名數據科學家,有一些任務 LLM 不一定會給出最好的結果,但它們會給你一個足夠好的結果,對吧?然後有了這個結果,你可以快速測試你的想法,你可以看看投入更多時間到這個想法、這個項目中是否有意義,然後像 RAG 一樣構建一個適當的機器學習模型。

這就是我們在本課程中實際涵蓋的內容,我們涵蓋 RAG,如果你不知道什麼是 RAG,比如說你有一個知識庫,你希望 AI 能夠從這個知識庫中讀取並根據這個知識庫回答問題,對吧?所以我認為這是一個非常有用的東西,其中的想法很可能會繼續存在,因為許多公司有這些知識庫,或者許多人,比如我,有我自己的個人知識庫,我想使用它。

這實際上是我在這裡展示的內容,在這個項目示例中,我使用如何使用我自己的個人知識庫,它被稱為健身助手,像如何使用我的個人知識庫做一些有用的事情。

所以如果你問我,我認為它們會一直存在,但一些東西,比如炒作,會消退。

問題:什麼先決條件會讓我在課程中取得成功並幫助我充分利用它?

你需要是一名開發人員,所以你需要能夠編程。你不必精通,但你需要對編程、命令行工具以及將不同的東西連接在一起感到舒適。例如,我們使用了一堆工具,比如 Elasticsearch 或者在之前版本的課程中我們使用了 Graphana,能夠連接這些東西,擁有這些工程技能肯定是有幫助的。

你不需要為此了解任何機器學習,你只需要是一名程序員,知道如何編碼。你不必像…你不必有 10 年的經驗,但假設如果你是一名學生,你做了一些課程作業,你知道一種編程語言,並且你對這種編程語言感到舒適,這應該沒問題。我們主要使用 Python,所以如果你知道 Python 也會有幫助。如果你不知道,你可以利用課程開始前的這兩週學習 Python。

問題:即使我去年已經成功完成了課程,今年再次參加課程是否有益?

去年我們談論了 RAG,今年我們仍然會談論 RAG,我們會有新的東西。所以你肯定可以查看新的模型。一年來 AI 已經發生了變化,所以即使我們在課程中涵蓋的應用程序是相同的,它仍然是 RAG,但有新的模型,所以你可以用這些新模型進行實驗,看看它們的表現如何。

另外,還不清楚我們具體會做什麼,但我想舉辦一個比賽,就像去年一樣。去年我們舉辦了一個比賽,我們挑戰你用 LLM 解決數學問題,所以是高中問題,我們想做類似的事情。所以也會有一個比賽,你非常歡迎參加這個比賽,因為它會與去年不同。

問題:這門課程會幫助我從實時數據庫進行 RAG 嗎?

我需要知道你具體指的是什麼,但答案很可能是肯定的。但也取決於你的數據庫中具體有什麼。如果它只是表格數據,是一個事務性數據庫,那是一回事;如果它是一個知識庫,就像我們在課程中展示的那樣,那又是另一回事。但在這兩種情況下,答案都是肯定的,但實際上要做到這一點的路徑是不同的,對吧?但是,是的,它會。

問題:我們會在這門課程中進行任何代理 AI 開發嗎?

不,我們沒有計劃。我們可能會有一個關於這方面的研討會,因為我計劃在六月為一個會議做一個關於代理工作流程的研討會,當我為會議做研討會時,我總是也在 data doslab 做這些研討會。這就是為什麼我們很可能會在六月的某個時候有一個關於代理工作流程的研討會。

它不會是課程的一部分,因為我們需要考慮如何在物流上組織它,但我們肯定會有一個研討會,然後也許明年一旦我們有足夠的材料,我們也會看看行業走向何方。現在,代理有很多炒作,但當涉及到代理時,對於 LLM,我認為它們會留下來,但當涉及到代理時,目前還不清楚什麼是炒作,什麼是實際有用的用例。所以我們會看到。

所以簡短的答案是,是的,我們會有一些關於代理的內容,但當涉及到將其包含到課程中時,可能會在明年發生,當時可能會有更少的炒作,應用可能會變得更加成熟。

問題:這門課程會包括 LLMOps 嗎?

某種程度上是的,在某種程度上。這個監控我會說是 LLMOps,但同樣,這取決於你對 LLMOps 的定義,這反過來又取決於你使用什麼樣的 LLM。如果它是一個你託管的開源 LLM,那是一回事;如果你只是使用 OpenAI,那又是另一回事。

當涉及到使用開源 LLM 時,我們有一個課程,我們將有一個關於這方面的課程,我們不會深入 LLMOps,也許我們只會稍微觸及部署 LLM 的主題,但就是這樣。所以我們會在開源 LLM zoom camp 中談論部署,而在這個課程中,我們會談論監控,所以這些是最接近 LLMOps 的東西,我會說,所以某種程度上是的,部分是。

問題:基礎設施成本會是什麼,還是所有計算都是本地的?

即使我們不包括這個開源 LLM 模塊,我認為我們仍然應該包括…從去年開始,我們使用了 llama.cpp,這是一個你可以用來在本地運行的東西。我可能會在第一個模塊中提到它,因為不是每個人都能使用雲,但也有像 Groq 這樣的工具,這是一個 API,但它是免費的,你可以免費使用它。這是你可以用來代替 OpenAI 的東西。

然後,像模型實際上在雲中,但你仍然獲得不必處理本地部署的好處,但同樣,這取決於你,你可以使用 Groq,你可以使用 OpenAI,你可以使用我不知道的 AWS Bedrock,或者你可以用 llama.cpp 在本地運行。

問題:課程會涵蓋 MCP(模型上下文協議)嗎?

不會。同樣,就像我說的關於代理一樣,代理周圍有很多炒作,我們會有一些內容,這不會是課程的官方部分,但我們會嘗試包括它,與課程並行運行。所以那些想學習這些東西的人,我們會學習這些東西,一旦事情變得更加成熟,更加穩定,然後我們會包括它們。這可能是一個不同的課程,像一個單獨的課程,只是這些東西可能是 LLM zoom camp 的一部分,我們會看到它在一年後會是什麼樣子。

問題:我們會討論評估 LLM 應用、生成指標和設置護欄嗎?

評估 - 是的,指標 - 是的,護欄 - 可能在監控中,我不知道,我們會看到。可能對於最後一個是否定的,護欄,我們可能不會涵蓋,但前兩個是肯定的。

問題:我們會在課程中涵蓋分塊技術嗎?

某種程度上是的,又有點不是。我們在課程中使用的數據已經分塊了,但在課程後面,我也談到了分塊策略,這是你可以自己實驗的東西。所以你不需要視頻來做這個,對吧?在這裡,我們教你 RAG 的主要概念,但當涉及到實際實現時,這是你可以自己實驗的東西,你也會在項目中實驗這個,因為我們有一個項目,然後在課程結束時,你需要重做我們學到的一切,將其付諸實踐,這時你將有機會實際實驗這些事情。

問題:我們只會使用一個供應商的模型,如 OpenAI,還是多個模型?

我之前回答過這個問題。你可以使用任何你想要的模型。我們不限制你。

問題:RAG 管道包含在課程中嗎?

是的,課程主要集中在 RAG 上。一年前,它可能是 LLM 最廣泛使用的應用,今年,已經有很多提供商在為你做 RAG,所以你不一定需要自己實現它,但我認為它是一個很好的例子,說明你可以用 LLM 做什麼。所以我們仍然專注於 RAG,我們將看看生態系統如何發展,應用如何在明年發展。所以也許明年我們會轉移重點,但現在,是的,我們仍然專注於 RAG。

問題:有很多框架,如 Graph RAG、Agent RAG 等,我們使用哪一種?

我們不使用任何框架。我們教你基本概念,所以你不需要框架來實現所有這些,一旦你了解概念,你可以使用框架來簡化一些事情。

問題:我們會有一些關於語言特定性的內容嗎?

我的意思是,在你的項目中,你可以使用任何知識庫。如果你的知識庫是俄語的,那麼你可以自由使用它,你只需要在描述你的項目時描述它。

讓我向你展示一下去年的一些項目。讓我看看 Alex K 的項目。Alex 做了一個關於符號的項目。這就是一個項目可能的樣子。你需要做類似的事情,如果你的數據集假設與此類似,但它是俄語而不是英語,那就去做吧。但是,即使你的數據集是俄語的,你在 README 中包含的所有描述都必須是英語,因為在課程結束時,你需要進行同行評審,所以對於你的同學,他們需要能夠評審你的項目,所以它必須是英語。但如果實際的應用程序是俄語的,如果知識庫是俄語的,我認為這沒問題。

問題:在完成課程後我能得到一份不錯的工作嗎?

是的,你可以,但你會嗎?這不取決於我們,而是取決於你,對吧?每個人都有可能,每個人都能得到一份工作,但問題是你將如何使用這些技能來做到這一點。技術上來說,我們給你的技能應該足夠,但之後,你需要申請工作,我們不能代替你這樣做,對吧?所以,是的,你可以,但你需要實際上為此做一些事情。

問題:我是社區的新成員,對於我來說,在 GitHub repo 中導航的事情很複雜,你能談談如何導航 LLM Zoom camp 的結構嗎?

這裡你只需要閱讀這裡寫的內容,然後假設如果你想了解更多關於模塊一的信息,你點擊這個鏈接,然後你再次按照這個繼續,你會看到,好的,這裡有一個視頻,所以你點擊這個視頻,觀看視頻,這就是你對所有模塊做的事情。這就是它的工作方式。

只需要嘗試一下,也許先嘗試第一個模塊,然後最終你會弄清楚。我們所有的 Zoom camp 都遵循相同的理念。它們是開源的,一切都在 GitHub 上,你也可以貢獻,你可以打開 pull request,有人打開了 pull request,這是去年的。

只需要花 5-10 分鐘嘗試理解,弄清楚這裡發生了什麼,然後我想這應該沒問題。順便說一下,我看到有一個課前研討會,建立搜索引擎。這是你現在可以在課程開始前做的事情,因為在課程中,RAG 基於搜索,所以你用搜索,然後用 LLM 來總結搜索結果,對吧?如果你想了解搜索引擎是如何工作的,你可以自由查看我們去年做的這個研討會。我們不會重做這個研討會,但你可以做這個研討會,你可以在這裡觀看它,它很有用,我建議花一些時間做這個。

所以回答你的問題,只需要瀏覽這個,點擊鏈接,看看它們帶你去哪裡,最終你會弄明白的。

問題:代理是一個熱門話題,你已經被問到多次了

是的,我在記錄有多少人問關於代理的問題。代理顯然是一個熱門話題,從五個人的提問可以看出。我們會看看代理是否能經受住時間的考驗,至少一年後,我們會看看人們是否仍在談論代理。如果人們仍在談論代理,那麼這可能是值得納入課程的東西;如果人們停止談論代理,那麼就不是了。

我們花了一些時間才推出第一版的 LLM Zoom camp,也許有人會說我們開始這個課程有點晚,我同意,但另一方面,我們也想涵蓋一些實際有用的東西,那時我們需要等待一段時間來看看 LLM 確實是會留下來的東西。所以我們花了一些時間才推出課程的第一版,這就是我們對代理也這樣做的原因。我們想看看是否有炒作,或者這個炒作背後是否有更多東西。

問題:時間投資的估計是多少?

我們有這個課程管理平台,我已經問過了,讓我實際上發給你這個鏈接。這是去年的,首先我將把它加到這個描述中。

好的,我想在這裡向你展示的是,如果你去作業,你可以看到作業統計,在這裡的作業統計中,你可以看到花在講座上的時間。平均而言,對於第一個作業,人們花了四個小時,在作業上花了三個小時,對吧?這意味著總共七個小時。讓我們看看作業二。作業二稍微難一點,但再次,這是開源 LLM,我們今年不會在這個課程中涵蓋它們。向量搜索,所以向量搜索,人們花了大約 10 小時。

有了這些信息,你可以看到你應該大致每週為這個課程留出 10 個小時。如果你有計算機科學背景,這是有幫助的,我認為如果你是有經驗的開發人員,它會花更少的時間。

問題:去年我們什麼時候結束課程?今年什麼時候結束?

我認為去年我們在七月開始,今年我們在六月開始,所以我認為到夏末我們應該結束它。課程說它有 10 週,所以你可以想像,第一個模塊兩週,隨後的每個模塊一週,項目三週,我們有多個項目,所以你可以計算一下,看看結束日期是什麼時候。

問題:這個課程我可以在我的筆記本電腦上本地完成多少,而不必使用雲資源?

你可以在不使用雲資源的情況下完成所有課程,所以是 100%。

問題:你認為完成一個課程會花費多少錢?

如果你使用 Groq,零費用。如果你使用 OpenAI,可能幾美元。我實際上建議嘗試使用 OpenAI,因為如果你將來作為 AI 開發人員或任何角色與 LLM 一起工作,很可能你會使用 OpenAI,所以我建議你熟悉它。

問題:我們是否會使用任何工具來評估 RAG 工具?

我們將在評估模塊中使用其他東西。我們首先將評估搜索,為此我們將使用傳統的信息指標,如命中率、平均倒數排名等。然後將對整個 RAG 流程進行評估,為此我們使用 LLM 作為評判。還有其他指標,我們在作業中使用了 ROUGE 或 ROOK(我不知道如何發音)。但是,是的,我們涵蓋了一些工具,一旦你了解了評估指標背後的基本思想,你就可以使用其中任何一個。

關於監控,我們將使用名為 Phoenix 的工具,但如果你使用其他工具而不是 Phoenix,這些想法是相通的,基本概念在所有工具中都是相同的。

問題:我們會涵蓋微調嗎?

不會,但 ROUGE 我們會在作業中涵蓋,至少這是我們去年所做的,我們可能今年也會這樣做。微調 - 不會。我們計劃在一個不同的課程中涵蓋微調,在開源 LLM 課程中。這裡將有一個關於微調的模塊,因為微調更適用於開源 LLM,當你實際上可以訪問權重並可以微調時。所以我們會在那裡涵蓋它。

問題:我應該堅持去年的模塊還是新模塊?

我的意思是,當你做這個課程時,你需要堅持新模塊。如果你想現在做或者想按照自己的節奏來,那麼你可以堅持任何你想要的年份,包括去年的。

問題:作為一名數據工程師,這個課程將如何幫助我?有什麼先決條件?

數據工程師的先決條件與其他人的先決條件相同,我已經提到過了。這個課程將如何幫助數據工程師,這是一個問題給你的,為什麼你想參加這個課程,也許我可以給你一些想法。

我認為 AI 開發不過是數據工程的另一種表現形式。在底層,我們在這裡涵蓋的一切仍然是數據工程。是的,我們談論評估,我們談論監控,但最終有一個數據庫,我們需要連接到這個數據庫,這個連接需要是可靠的,所以有一些數據工程的東西,即使你不能稱之為數據工程,它肯定是工程。

作為一名數據工程師,你擁有成為成功的 AI 開發人員或任何它被稱為什麼所需的工程技能,為此,你需要能夠使用不同的工具,將它們連接在一起,並確保一切正常工作。我仍然不認為我回答了你的問題,這個課程將如何幫助你,但這是你作為工程師可以做的事情,這是你作為工程師可以期望從這個課程中學到的,如何將所有這些工具縫合在一起。它將如何幫助你?好吧,你將學習關於 AI 的知識,我認為對於工程師來說知道什麼是可能的做的事情是非常有用的。

例如,你現在有一份工作,但你想做一個副項目,對於副項目來說,知道如何應用一些 AI 東西將非常有用。所以也許對於你現在的工作來說,它不會超級有用,但一般來說,對於你的職業生涯來說,它應該是有用的。

問題:我們是否也會在這個課程中建立我們自己的自定義 LLM?

不會。這個課程是關於我所稱的 LLM 工程,或者 AI 工程。所以它是關於使用現有的東西並將它們組合在一起,以建立一個應用程序,而不是關於內部工作原理。在這裡,我們將 LLM 視為黑盒子,所以我們不會學習 LLM 是如何工作的,我們不會建立我們自己的 LLM,為此有其他課程。我們在這裡專注於工程。

問題:當課程開始時,我們必須通過內容然後提交作業,對嗎?

是的,沒錯。

問題:我們可以期待一個複雜的項目嗎?

我認為這裡有多個問題。關於複雜的項目,你可以查看這個頁面上的項目,看看項目期望是什麼。基本上,你需要做你在課程中做的事情,但用你自己的數據集,然後你可以查看其他學生的項目。例如,這是 Artur 建立的食品搜索 RAG 食譜推薦系統,我不認為它一定是一個非常複雜的項目,但它是一個非常好的項目,我看到 Artur 在創建這個項目時付出了很多努力,它看起來非常整潔。所以,是的,我不會說它很複雜,但它會需要時間。

問題:我們能學會編排 LLM 應用程序嗎?

去年我們有一個關於編排的模塊,我們決定移除它,因為我們想專注於基本概念。

問題:我已經很好地理解了許多 RAG 的變體,我能從中受益嗎?

我的意思是,對我來說很難回答這個問題,你可能檢查一下第一個模塊,看看你是否會從中受益。從你所說的話來看,看起來你已經知道了一些東西。也許如果你認為你已經知道了一切,那就嘗試從建立一個項目開始,你會很開心地做這個,如果你發現有一些差距,有些東西你不知道,那麼你可以去學習,這就是你將如何受益。

問題:你的哪門課程在工作機會方面有最高的投資回報率?

是的,很難說。我真的沒有數據,我只有軼事證據。每個課程之後,人們寫信給我說,謝謝這個課程,因為這個課程幫助他們獲得了工作,我只有這些軼事證據。我不知道有多少人投資了課程,有多少人得到了工作,他們現在的薪水是多少,無法正確回答這個問題。

你問這個問題的原因是什麼?你是在考慮哪門課程要上嗎?那麼選擇你喜歡的,它應該從你喜歡的事情開始。如果你只是因為它有最高的投資回報率而上課,比如說,我只是說是數據工程課程,對吧?所以你花了很多時間做數據工程課程,只是發現你不太喜歡它,那有什麼意義呢?所以也許選擇一個你喜歡的主題,然後從那裡開始。

問題:每個模型的成本是多少?

是的,它取決於你使用的模型。你總是可以在你喜歡的搜索引擎中找到開放的,比如說,如果我們談論 OpenAI,你總是可以找到他們的價格。價格是每 100 萬個令牌,大概是 100 萬個單詞。所以你發送 100 萬個單詞,這將花費你 2 美元,輸出中的 100 萬個單詞是 8 美元。所以如果你發送 100 萬個單詞並得到 100 萬個單詞的回報,總共將花費 10 美元。這是一個非常粗略的計算,因為一個令牌不一定是一個單詞,但它可以給你一些想法,實際上 10 美元你可以做很多,對吧?我認為如果你存入 10 美元到 OpenAI,你將無法花完所有的 10 美元。還有其他模型,如 mini 甚至 nano,它們更便宜。所以你可以在這裡看到價格。

問題:我想知道哪門課程最接近當前的行業需求

但什麼是當前的行業需求?這也是非常依賴上下文的。比如說,你住在德國,就像我一樣,對吧?那麼你可以打開所有與 AI 相關的工作職位,如果你想在這個領域工作。然後你可以看看這些工作的要求是什麼。比如說,你找到了 50 個工作,你看看這 50 個工作的要求是什麼,然後你可以看看共同的主題是什麼,然後從那裡你可以看看這個課程是否接近。我沒有這些數據。

所以當我們設計課程時,我們考慮的是什麼是基本原理,我們不一定考慮工具,而是更多的考慮什麼是最重要的事情。所以也許在你的領域,對你來說,上下文可能是不同的,但我認為當涉及到這個 LLM 課程時,它應該涵蓋基本知識。

問題:對於在監控和可觀察性領域工作的個人來說,什麼類型的課程最有益?

什麼類型的課程?我不知道,監控和可觀察性課程?你是在問我們的課程還是一般的課程?一般的課程我不知道。我們有一個關於 MLOps 的課程,這是一個現在我們有監控模型的課程,這是關於如何監控 ML 模型。我們在 LLM zoom camp 中也有一個監控模型模塊,它們有點像你感興趣的可觀察性和監控組件,但再次,我不知道我是否真正回答了你的問題。

問題:Langchain 會包含在課程中嗎?

如果我記得正確的話,Timour 在最佳實踐模塊中使用了 langchain。所以我不知道他今年是否計劃改變這個模塊,所以今年可能會有更多 langchain。

問題:ML Zoom camp 和 LLM Zoom camp 之間有什麼區別?

答案在課程的標題中。LLM 是關於 LLM,ML 是關於 ML 機器學習,對吧?所以這些是完全不同的事情。在 ML 課程中,我們實際上深入討論了模型是如何工作的,在 LLM Zoom camp 中,我們沒有。但它們是不同的課程,它們關於不同的事情。

問題:我如何從有 9 年經驗的機械工程轉型到 AI 領域?

是的,參加這個 zoom camp 的先決條件是什麼,我已經回答了這個問題。我可以在沒有任何編程語言知識的情況下參加這個課程嗎?你可以,但問題是你能否跟上。你可以做的是,看一下第一個模塊,看看你是否能跟上。如果你不能,這意味著你有一些工作要趕上。我認為對你來說跟上課程將是相當具挑戰性的,但再次,這取決於你有多少空閒時間。如果你有空閒時間,如果你想投入時間學習這些東西,你可以參加課程並實際上成功。所以這取決於你。

問題:硬體要求是什麼?

沒有什麼特別要求。

問題:我的背景與機器學習有關,即使我參加搜索引擎研討會,我準備好參加 zoom camp 了嗎?

是的,如果你的背景與機器學習有關,我假設你可以編程,如果你可以編程,你已經準備好參加 LLM Zoom camp 了,因為我們不真正談論內部原理,我們談論的是構建 AI 應用程序,從這個角度來看,你需要能夠做的,你需要能夠做的就是編程,這應該足夠了。

問題:你能否請解釋參加和完成這個課程的步驟?

參加的步驟,你去 GitHub repo,這裡有這個大按鈕"註冊",你點擊這個,你註冊,然後你下週出現在發布直播,我們談論課程內容,然後從那裡你只需跟著走。你也加入我們的 Telegram 頻道或我們的 Slack,然後我們會發送給你關於做什麼的指示,但大致上每週都會有一個新模塊,你需要觀看這個模塊的視頻,你需要完成作業。這或多或少就是這樣,最後會有一個你需要完成的項目,如果你完成項目,你會得到一個證書。這就是你如何完成它。

問題:參加有什麼先決條件嗎?

我已經回答了這個問題。

問題:這與 MLOps 課程不同還是延續?

它是不同的,它是一個不同的課程。

問題:我認為下一個班級會在明年開始

所以上一個班級是去年,所以下一個班級是今年。距離我們上一個 LLM zoom camp 的發布已經一年了,所以是時候再次啟動它了。

問題:我不擅長軟件開發原則,如 OOP,算法等

好吧,你不需要算法就能在這個課程中成功。讓我實際上再回答幾個問題,然後今天結束,因為老實說,我已經疲於談話,我的喉嚨在說了這麼多話後有點疼。所以我將再回答幾個問題,然後我們將在下週再次見面,我們將繼續回答所有這些問題。

是的,所以你不需要非常擅長軟件開發原則就能完成這個課程。

問題:這個課程的視頻在哪裡可以訪問?

GitHub 頁面。

問題:這個課程會涵蓋登錄用戶提示嗎?

是的,在監控模塊中。

問題:如果我從未使用過 GitHub,我會有問題嗎?

好吧,你有時間學習它,但是,是的,如果你不知道如何使用 GitHub,你會有問題,所以你需要學習它。

問題:我們可以學習使用 LLM 生成圖像嗎?

去 Chat GPT,問"嘿,Chat GPT,你能生成一個漂亮的松鼠在汽車上的圖像嗎?"然後就有了。這就是你如何生成圖像。

問題:先決條件是什麼?我們可以獲得證書嗎?

是的,我已經回答了這些問題。

我想我會在這裡停止。讓我停止分享我的屏幕。我希望這對你們來說相當有用。如我所說,下週我們再見,參加發布直播。在那裡我將談論課程的後勤工作,然後最後我們將有時間進行問答,我將繼續回答你們的問題。我沒有回答所有的問題,還有 14 個問題,我將在發布直播中回答。

希望你們喜歡這次課程,希望下週課程開始時能看到你們所有人,我對此非常興奮。讓我們一起學習,享受學習的樂趣。再見,很快見,祝你有一個愉快的一週。


▌資料來源

以下是我的心得,如果你要看講師的完整問答,請 點擊這裡

1. 搜索引擎

有一個課前研討會,建立搜索引擎。

這是 你現在可以在課程開始前做的事情

因為 RAG 基於搜索,所以你用搜索,然後用 LLM 來總結搜索結果。

如果你想了解搜索引擎是如何工作的,可以查看去年的研討會。我們不會重做這個研討會,但你可以觀看影片,它很有用,

建議花一些時間做這個

影片

程式

2. 每週保留 10 小時

平均而言,對於第一個作業,人們花了四個小時,在作業上花了三個小時,這意味著總共七個小時。

作業二稍微難一點,這是開源 LLM,我們今年不會在這個課程中涵蓋它們。

所以向量搜索,人們花了大約 10 小時。

大約每週為這個課程保留 10 小時。(每天一至二小時)

如果你是有經驗的開發人員,它會花更少的時間。

課程有 10 週,第一個模塊兩週,隨後的每個模塊一週,每個項目三週。

3. 完成課程需花費多少錢?

如果你使用 Groq,免費。

如果你使用 OpenAI,可能幾美元。

建議使用 OpenAI,因為將來作為 AI 開發人員與 LLM 一起工作,很可能會使用 OpenAI,建議你熟悉它

4. 評估 RAG 的工具

  • 評估搜索:傳統的信息指標,如命中率、平均倒數排名等。然後使用 LLM 對整個 RAG 流程進行評估。其他指標:ROUGE, ROOK…。

  • 監控:我們使用 Phoenix。

不會涵蓋微調。

5. 沒有相關背景可以學嗎?

你可以做的是,看一下第一個模塊,看看你是否能跟上

如果你不能,這意味著你有一些工作要趕上。

完全沒程式經驗,要跟上課程將是相當具挑戰性的。

但這取決於你有多少空閒時間

如果你有空閒時間,如果你想投入時間學習這些東西,你可以參加課程並實際上成功。所以這取決於你。