//cs-a.ecimg.tw/items/DJAV0SA900GPM4R/000001_1696495019.jpg;
商品編號:DJAV0S-A900GPM4R

文字探勘基礎:從R語言入門

驚喜優惠
$315
$350
  • P幣

    全盈+PAY單筆消費滿1200回饋80P幣(每帳號限乙次,限量5000名)

  • 登記送

    【7-11】單筆滿$350純取貨/取貨付款訂單登記送韓風拌拌炸雞兌換券乙張(限量)

  • 登記送

    【第四波】書店/閱讀器/寵物指定品單筆滿$1,500登記送100P幣(使用效期30/限量)

付款方式
出貨
  • PChome 倉庫出貨,24小時到貨
配送
宅配滿$490免運,超取滿$350免運
  • 宅配到府(本島/低溫)
    滿$699免運
  • 宅配到府(本島/常溫)
    滿$490免運
  • 超商取貨(常溫)
    滿$350免運
  • 超商取貨(低溫)
    滿$699免運
  • i郵箱(常溫)
    滿$290免運
商品詳情
作者:
ISBN:
9786263665743
出版社:
出版日期:
2023/09/25
  • 內文簡介

  • <內容簡介> ⊙沒有資訊工程背景的文科生也能學會程式語言,適合人文社會科學領域之學生、研究人員自學。 ⊙理論與實作兼具,深入淺出說明用R語言執行文字探勘的流程及方法,操作步驟清楚易懂。 ⊙內容包含資料清理、斷詞和詞頻、情緒分析和字典法、tf-idf計算和應用、主題建模、機器學習、語意網絡的社會網絡分析,以及網站資料的抓取等。 【自學R語言,順利掌握文字探勘】 文字探勘是以文字作為分析的資料,藉由技術識別、擷取有價值的部分,有系統地管理、整合和應用文字所提供的訊息,像社群網站上常見的「文字雲」即是一種。 本書針對中文透過R語言操作基礎的文字探勘,從人文社會科學領域闡述編程的概念,可使自學者更容易掌握文字探勘的技能。內容包含了解R、文字資料的清理、斷詞和詞頻、情緒分析和字典法、tf-idf值的計算和應用、主題建模、機器學習、詞的關係、語意網絡的社會網絡分析,以及網站資料抓取等。 ★目錄: Chapter 1 R語言下載與設置 第一節 R軟體下載 一、前言 二、R下載教學 第二節 介紹R 一、R介面與設置 第三節 RStudio下載 一、RStudio下載教學 第四節 介紹RStudio 一、RStudio介面與設置 Chapter 2 讀入與初步了解R資料 第一節 前言 第二節 設定R的工作環境 一、設定工作的編碼系統 二、設定工作資料夾 第三節 將資料讀入R 一、將不同形式的檔案讀入R 二、物件命名 三、執行R程式 第四節 了解R資料 一、透過物件區的菜單鳥瞰 二、指代資料中變項和觀察值 三、描述R的資料特徵 四、以圖形呈現變項的特徵 第五節 儲存資料 Chapter 3 資料的初步清理:使用dplyr 第一節 前言 一、安裝套件 第二節 用dplyr整理資料 一、重新排列資料(遞增、遞減) 二、選擇資料 三、刪除資料 四、修改變項 五、概括內容資料(樣本)的特徵 六、分組處理的功能 Chapter 4 資料的進階清理 第一節 前言 第二節 增加變項 一、直接產生並賦值 二、從舊變項產生 三、從文字變項(strings)中提取 第三節 清理文字資料(strings) 一、strings的清理功能介紹 二、查找 三、替換 四、黏貼 第四節 編碼員間編碼信度 一、隨機抽取樣本 二、交叉編碼 三、計算編碼員間信度或電腦與編碼員間效度 第五節 畫資料的時間序列圖 一、介紹 二、計算每天的報導量 三、定義時間變項 四、使用ggplot2畫圖 Chapter 5 斷詞和詞頻 第一節 前言 第二節 斷詞 一、基本概念介紹 二、使用tidytext的unnest_tokens指令斷詞 三、計算詞頻 四、套用停頓詞字典 五、畫圖 六、套用用戶字典 七、使用jiebaR斷詞 第三節 詞頻分析 一、描述一整個文集 二、比較不同文集之間的差異 Chapter 6 情緒分析和字典法 第一節 前言 第二節 情緒分析簡介 第三節 字典法和常用的情緒字典 第四節 情緒詞的詞頻計算 第五節 情緒分析的研究應用 一、套用和驗證字典 二、更精準的情緒測量 三、考察情緒分數與其他變項之間的關係 Chapter 7 tf-idf值的計算和應用 第一節 tf-idf的概念介紹 第二節 tf-idf的計算 第三節 tf-idf的應用 一、比較不同文類的獨特性 二、在機器學習中代表文檔的內容特徵 三、作為過濾關鍵詞的標準 第四節 其他過濾關鍵詞的方法 第五節 文字探勘結果的統計分析 Chapter 8 主題建模 第一節 前言 第二節 LDA的原理和應用步驟 一、第一步:斷詞 二、第二步:詞彙向量化、尺度縮減及製作dtm 三、第三步:決定最佳主題數目 四、第四步:進行主題建模並為主題命名 五、 第五步:考察每個主題和metadata之間的關係 六、第六步:報告主題出現的比例、資料檔合併 第三節 K-means的原理和應用步驟 Chapter 9 有監督式的機器學習 第一節 機器學習在文字探勘的應用 第二節 機器學習的定義和基本步驟 第三節 機器學習的程式碼練習:迴歸模型 一、讀入有標示的資料,並分成訓練集和測試集 二、分別對訓練集和測試集的文字資料建立dfm 三、使用演算法從訓練集中學習,建立一個模型 四、用模型預測測試集中的資料 五、測量表現(measure model performance) 六、用訓練好的模型預測未標示的資料 第四節 機器學習的程式碼練習:分類模型 一、SVM(SUPPORT VECTOR MACHINE) 二、LOGISTIC REGRESSION 三、NAÏVE BAYES 四、WORDSCORES TEXT MODEL Chapter 10 詞的關係 第一節 前言 第二節 Bigram及其應用 一、Bigram的製作 二、Bigram的詞頻計算 三、Bigram的應用 第三節 共現詞(concordance) 一、詞的關係一:出現在同一篇文章中 二、詞的關係二:出現在一定的距離內 Chapter 11 語意網絡的社會網絡分析 第一節 前言 第二節 社會網絡分析的重要概念介紹 第三節 讀入網絡資料 第四節 網絡資料的形式和轉換 一、網絡資料的基本形式 二、網絡資料不同形式之間的轉換 三、Two-mode data 第五節 語意網絡的描述性分析 一、整體網絡分析 二、節點分析 三、組和次團體的分析(subgroups and communities) 第六節 分析兩個網絡的關係 一、比較兩個網絡的相似程度 二、計算兩個網絡之間的相關程度 三、考察多個網絡之間的關係 Chapter 12 抓取網站資料 第一節 前言 第二節 觀察資料 一、了解資料型態 二、觀察原始碼 第三節 資料抓取 一、套件介紹 二、抓取一篇文章 三、抓取一頁搜尋頁面的所有文章 四、抓取所有搜尋頁面的所有文章 參考文獻 <作者簡介> 譚躍 現職:國立中山大學管理學院行銷傳播管理研究所副教授 學歷:PhD,2008年畢業於Indiana University Bloomington的新聞學院 經歷:國立中山大學管理學院行銷傳播管理研究所博士後 ★內文試閱: Chapter 2讀入與初步了解R資料 第一節 前言 程式碼為電腦能聽懂的語言。學習程式碼,就像學習英文單字一樣,經過日月的積累,就會越來越多,當能記住最基本的100個左右的基本用語,就可以較自由地與電腦對話了。至於較困難的詞,可以查查字典。透過邊用邊學,詞彙就會越來越豐富,表達起來就越來越自由。 R自己本身所具有的程式碼,包含最基本的功能,稱為Base R。Base R中所包括的指令,不用安裝任何套件,R就可以讀得懂,並且執行。 關於Base R的指令,建議下載RStudio線上免費的Cheat Sheet(https://www.rstudio.com/resources/cheatsheets/),它包含Base R的主要指令,用圖形化的方式給予應用上的講解。 第二節 設定R的工作環境 一、設定工作的編碼系統 文字探勘比較特別的地方是以文字作為分析的資料。因為各國的文字不同,編碼系統就不同。即使同樣是中文,也需要統一成一致的編碼系統,才不會出現亂碼。一般來說,研究者會先告訴R,所處的區域是哪裡,它就會自動轉換成那個區域最常見的編碼系統。R的中文系統是uni-code 6。程式碼如下: 設定區域: sys.setlocale(locale="cht") RStudio有四個窗口。左上角是程式區,左下角是指令區,詳細說明可以參考第一章。視窗的右上角是「物件區」,剛開始會呈現空白。下述會先介紹「檔案區」,再對物件區進一步說明。 二、設定工作資料夾 如同一般的電腦操作一樣,當讀取資料的時候,需要告訴電腦在哪裡讀資料,也就是提供資料檔所在資料夾的路徑。比較特別的是,R會在一個固定的資料夾中工作,這個固定的資料夾叫做「工作資料夾」。當你的程式碼沒有特別指定其他資料夾時,R都在工作資料夾中工作,包括讀取舊檔案和儲存成新檔案。因此在讀取資料前,需要先設定工作資料夾。寫程式碼如下: 設定工作資料夾: setwd(" 路徑名稱") 用戶也可以在右下角檔案區Files這個菜單裡,用點選的方式。 點選的目的地就是用戶要讀取資料的地方,這個地方還會成為默認的工作資料夾,電腦之後再讀取或儲存資料,都會在這個資料夾裡進行。進入這個資料夾後,就要把它設置成Working Directory。先點More的下拉菜單,然後選取Set As Working Directory,這樣電腦就會記住這裡是工作資料夾,也就是它讀取和存儲檔案的地方了。
購物須知
寄送時間
全台灣24h到貨,遲到提供100元現金積點。全年無休,週末假日照常出貨。例外說明
送貨方式
透過宅配送達。除網頁另有特別標示外,均為常溫配送。
消費者訂購之商品若經配送兩次無法送達,再經本公司以電話與Email均無法聯繫逾三天者,本公司將取消該筆訂單,並且全額退款。
送貨範圍
限台灣本島與離島地區註,部分離島地區包括連江馬祖、綠島、蘭嶼、琉球鄉…等貨件,將送至到岸船公司碼頭,需請收貨人自行至碼頭取貨。注意!收件地址請勿為郵政信箱。
註:離島地區不配送安裝商品、手機門號商品、超大材商品及四機商品。
售後服務
缺掉頁更換新品
執照證號&登錄字號
本公司食品業者登錄字號A-116606102-00000-0
關於退貨
  • PChome24h購物的消費者,都可以依照消費者保護法的規定,享有商品貨到次日起七天猶豫期的權益。(請留意猶豫期非試用期!!)您所退回的商品必須回復原狀(復原至商品到貨時的原始狀態並且保持完整包裝,包括商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性)。商品一經拆封/啟用保固,將使商品價值減損,您理解本公司將依法收取回復原狀必要之費用(若無法復原,費用將以商品價值損失計算),請先確認商品正確、外觀可接受再行使用,以免影響您的權利,祝您購物順心。
  • 如果您所購買商品是下列特殊商品,請留意下述退貨注意事項:
    1. 易於腐敗之商品、保存期限較短之商品、客製化商品、報紙、期刊、雜誌,依據消費者保護法之規定,於收受商品後將無法享有七天猶豫期之權益且不得辦理退貨。
    2. 影音商品、電腦軟體或個人衛生用品等一經拆封即無法回復原狀的商品,在您還不確定是否要辦理退貨以前,請勿拆封,一經拆封則依消費者保護法之規定,無法享有七天猶豫期之權益且不得辦理退貨。
    3. 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,一經您事先同意後始提供者,依消費者保護法之規定,您將無法享有七天猶豫期之權益且不得辦理退貨。
    4. 組合商品於辦理退貨時,應將組合銷售商品一同退貨,若有遺失、毀損或缺件,PChome將可能要求您依照損毀程度負擔回復原狀必要之費用。
  • 若您需辦理退貨,請利用顧客中心「查訂單」或「退訂/退款查詢」的「退訂/退貨」功能填寫申請,我們將於接獲申請之次日起1個工作天內檢視您的退貨要求,檢視完畢後將以E-mail回覆通知您,並將委託本公司指定之宅配公司,在5個工作天內透過電話與您連絡前往取回退貨商品。請您保持電話暢通,並備妥原商品及所有包裝及附件,以便於交付予本公司指定之宅配公司取回(宅配公司僅負責收件,退貨商品仍由特約廠商進行驗收),宅配公司取件後會提供簽收單據給您,請注意留存。
  • 退回商品時,請以本公司或特約廠商寄送商品給您時所使用的外包裝(紙箱或包裝袋),原封包裝後交付給前來取件的宅配公司;如果本公司或特約廠商寄送商品給您時所使用的外包裝(紙箱或包裝袋)已經遺失,請您在商品原廠外盒之外,再以其他適當的包裝盒進行包裝,切勿任由宅配單直接粘貼在商品原廠外盒上或書寫文字。
  • 若因您要求退貨或換貨、或因本公司無法接受您全部或部分之訂單、或因契約解除或失其效力,而需為您辦理退款事宜時,您同意本公司得代您處理發票或折讓單等相關法令所要求之單據,以利本公司為您辦理退款。
  • 本公司收到您所提出的申請後,若經確認無誤,將依消費者保護法之相關規定,返還您已支付之對價(含信用卡交易),退款日當天會再發送E-mail通知函給您。