ทุกคนเคยสงสัยกันไหมว่า ?? ทำไมคอมพิวเตอร์ถึงเข้าใจภาษาที่เราพูดกันได้อยู่ทุกวันนี้ ทั้งที่ตอนเราเขียนโปรแกรม เรายังต้องใส่คำสั่งที่เป็นภาษาเครื่องอยู่เลย 😖
.
ซึ่งการที่คอมพิวเตอร์นั้นสามารถเข้าใจเราได้เพราะใช้ NLP ในการวิเคราะห์นั่นเอง !! 🖥️
.
และในวันนี้แอดได้มีเนื้อหาเกี่ยวกับ NLP เบื้องต้นมาแนะนำให้กับทุกคนได้รู้จักกัน จะมีเนื้อหาเป็นอย่างไรนั้น ไปดูกันเลยยย !!
.
🗣️ NLP ถ้าให้แปลเป็นไทยก็คือ การประมวลผลภาษาธรรมชาตินั่นเอง ซึ่งหลักการของเจ้าตัวนี้ก็ตามชื่อเลย คือการประมวลผลภาษาที่เราสื่อสารกัน ให้เป็นภาษาที่คอมพิวเตอร์สามารถเข้าใจได้ด้วย
.
ซึ่งหลักการทำงานทั่วไปของตัว NLP คือ
🔸 Tokenization
🔸 Parsing
🔸 Lemmatization/Stemming
🔸 Part-of-speech Tagging
🔸 Language Detection
🔸 Identification of Semantic Relationships
.
จากที่มอง ๆ ดูแล้ว คล้ายกับการที่ให้ครูสอนภาษาให้กับเราในตอนวัยเด็กเลย ไม่ว่าจะเป็น การแบ่งคำ รูปแบบประโยคต่าง ๆ อันไหน ประธาน กิริยา กรรม
.
👉 สรุปง่าย ๆ เลยก็คือ NLP จะทำหน้าที่ย่อยข้อความภาษาคน ลงเป็นส่วนเล็ก ๆ ที่ง่ายต่อการทำความเข้าใจของเครื่อง และค่อยนำมาวิเคราะห์หาความสัมพันธ์ระหว่างแต่ละส่วน แล้วนำมารวมกัน เพื่อตีความหมายนั่นเอง
.
ซึ่งประโยชน์การนำไปใช้งาน ก็มีอยู่มากมายเลยทีเดียว เพราะถ้าหากคอมพิวเตอร์สามารถเข้าใจถึงภาษาคนเราที่พูดคุยกันอยู่ทุกวันได้แล้ว การทำงานต่าง ๆ ในชีวิตก็จะง่ายขึ้นเป็นอย่างมาก
.
📑 ยกตัวอย่างเช่น การตรวจหาข้อมูลที่มีประโยชน์ในอีเมลหรือเอกสารรายงาน เพื่อตรวจจับปัญหาอาชญากรรม , การจัดกลุ่มเนื้อหาเป็นหมวดหมู่เอง, การจัดแบ่งประเภท Email เองว่าอันไหนเป็น สแปม
.
ซึ่งเนื้อหาเกี่ยวกับ Natural Language Processing นั้นยังมีอยู่อีกมากมาย นี่ยังคงเป็นแค่ส่วนหนึ่งเท่านั้นเอง
.
ซึ่งเจ้าตัว NLP ปัจจุบันนั้นมีตัว Library ให้เราสามารถนำไปใช้งานกันได้ด้วยนะ สำครับใครที่ไม่อยากเสียเวลาที่จะมานั่งคิดค้นเอง 😂 (ของเขามีก็ต้องเอามาใช้งานสิ) ในที่นี้จะยกตัวอย่าง Library ของ Python มาให้ทุกคนลองนำไปใช้งานกันดู
.
⚡ Natural Language Toolkit (NLTK) - เป็น Library ยอดฮิตที่คนนิยมใช้งานกันอยู่มาก ที่สำคัญเลยใช้งานกันได้ฟรี ๆ ใครที่อยากลองหัดทำ NLP ลองไปศึกษาเพิ่มเติมได้จากที่นี่เลย
https://www.nltk.org/
.
⚡ TextBlob - เป็นอีก 1 ตัวที่คนนิยมใช้กันอยู่ทั่วหลาย เหมาะกับคนที่หัดลองเล่นกับ NLP ใหม่ ๆ ใช้งานง่าย มีคู่มือสอนอยุ่มากมาย หากใครสนใจสามารถอ่านรายละเอียดต่อได้ที่นี่เลย
https://textblob.readthedocs.io/en/dev/
.
⚡ CoreNLP - เป็น Library ที่ถูกพัฒนาจาก Stanford University สามารถรองรับได้หลายภาษาเลย รวมถึง Python ด้วยเช่นกัน สามารถใช้งานได้ง่าย และอีกทั้งรวดเร็วอีกด้วย หากใครสนใจสามารถอ่านรายละเอียดเพิ่มเติ่มได้ที่นี่เลย
https://stanfordnlp.github.io/CoreNLP/
.
หวังว่าจะเป็นประโยชน์กับเพื่อน ๆ น้าาาา หากชอบอย่าลืมกดไลก์ กดแชร์ ให้กับพวกเราด้วย 🥰
.
borntoDev - 🦖 สร้างการเรียนรู้ที่ดีสำหรับสายไอทีในทุกวัน
#NPL #NaturalLanguageProcessing #BorntoDev
同時也有10000部Youtube影片,追蹤數超過2,910的網紅コバにゃんチャンネル,也在其Youtube影片中提到,...
tokenization python 在 軟體開發學習資訊分享 Facebook 的最讚貼文
--課程已於 2019 年 9 月更新--
課程將從基礎開始,學習如何使用 Python 打開並處理文字與 PDF 檔案,以及如何使用正規表示式在文字檔中搜索自訂的模式。
然後從自然語言處理的基礎開始,利用 Python 的自然語言工具包程式庫( Natural Language Toolkit library ),以及最先進的 Spacy 程式庫,其可用於超快速標記( ultra fast tokenization )、解析( parsing )、實體識別( entity recognition )和文字的詞形還原( lemmatization )。
你將會理解一些基本的 NLP 概念,例如詞幹分析( stemming )、詞形還原( lemmatization ) 、停止的字彙( stop words )、片語比對( phrase matching )、標記化( tokenization )等等!
接下來將介紹詞性標註( Part-of-Speech tagging ),在這裏,Python 腳本將能夠自動將文字中的字彙分配給相應的詞類,比如名詞、動詞和形容詞,這是建構智慧語言系統的一個重要部分。
你還將學習命名實體識別( named entity recognition ),允許你的程式碼通過提供文字資訊來自動理解金錢、時間、公司、產品等概念。
通過這些最先進的視覺化程式庫,將能夠實時查看這些關係。
然後繼續瞭解機器學習與 Scikit-Learn 進行文字分類,如自動建立機器學習系統,可以辨識正面和負面的電影評論,或垃圾與合法的電子郵件訊息。
最後將把這些知識擴展到更複雜的非監督式學習做自然語言處理,比如主題建模( topic modeling ),課程中使用的機器學習模型將從原始文字檔案中檢測主題和主要概念。
本課程甚至涵蓋了一些高級主題,例如使用 NLTK 程式庫對文字進行情感分析( sentiment analysis ),以及使用 Word2Vec 演算法創建語義詞向量( semantic word vectors )。
包含在這個課程是一個完整的部分致力於最先進的高級主題,如使用深度學習建立自己的聊天機器人( chat bots )!
https://softnshare.com/nlp-natural-language-processing-python/
tokenization python 在 コバにゃんチャンネル Youtube 的精選貼文
tokenization python 在 大象中醫 Youtube 的最佳貼文
tokenization python 在 大象中醫 Youtube 的最佳解答
tokenization python 在 tokenize --- 对Python 代码使用的标记解析器— Python 3.10.0 ... 的相關結果
tokenize 模块为Python 源代码提供了一个词法扫描器,用Python 实现。该模块中的扫描器也将注释作为标记返回,这使得它对于实现“漂亮的输出器”非常有用,包括用于屏幕 ... ... <看更多>
tokenization python 在 使用Python 處理自然語言的中文03:Tokenization - Droidtown ... 的相關結果
使用Python 處理自然語言的中文03:Tokenization 前言“ 語言像洋蔥一樣是 ... from nltk.tokenize import sent_tokenize, word_tokenize text = "I know all work and ... ... <看更多>
tokenization python 在 5 Simple Ways to Tokenize Text in Python - Towards Data ... 的相關結果
5 Simple Ways to Tokenize Text in Python · 1. Simple tokenization with .split · 2. Tokenization with NLTK · 3. Convert a corpus to a vector of token counts with ... ... <看更多>