基於Python的語料庫數據處理

雷蕾

  • 出版商: 科學出版
  • 出版日期: 2020-06-01
  • 定價: $408
  • 售價: 8.5$347
  • 語言: 簡體中文
  • 頁數: 170
  • 裝訂: 平裝
  • ISBN: 7030652495
  • ISBN-13: 9787030652492
  • 相關分類: Python程式語言
  • 立即出貨 (庫存=1)

買這商品的人也買了...

商品描述

本書以語料庫語言學研究實踐為導向,介紹Python編程基礎知識。
第1章為Python語言簡介,
第2章至第6章由易到難、循序漸進介紹Python語言的基本數據類型和語法。
第7章和第8章提供文本處理的個案實例。
全書內容涵蓋語料庫語言學研究中常用的文本處理模式,
讀者可以通過學習本書掌握語料庫語言學研究中的Python編程技巧,以便更深入地進行研究。
另外,本書提供大量語料庫語言學文本處理所需的Python代碼,
讀者可以直接將這些代碼(或將這些代碼稍加改動)用於自己的研究中。

目錄大綱

目錄
文科生的編程自白
第1章引言1
1.1 Python語言與語料庫數據處理1
1.2安裝Python 3
1.3 Python代碼的編寫和運行5
1.4 PyCharm的安裝和使用6
1.5 “Hello world!” 8
1.6本書結構10

第2章數值和字符串13
2.1數值13
2.2常用數值運算符14
2.3常用數值函數16
2.4數值計算示例20
2.5數值計算練習24
2.6字符串25
2.7字符串運算28
2.8字符串與數值的互換29
2.9常用字符串函數29
2.10練習32

第3章條件與循環33
3.1條件判斷33
3.2 while循環39
3.3 for...in循環39
3.4讀寫單個文本41
3.5練習44

第4章列表和元組46
4.1列表46
4.2列表與字符串的相互轉換47
4.3常用列表函數49
4.4列表相關文本處理實例56
4.5元組59
4.6練習60

第5章正則表達式62
5.1正則表達式的概念62
5.2普通字符64
5.3元字符64
5.4匹配零個或多個字符66
5.5分組72
5.6元字符的轉義74
5.7換行符、回車符、製表符77
5.8正則表達式相關實例77
5.9練習89

第6章字典90
6.1字典的概念90
6.2常用字典函數92
6.3字典排序95
6.4字典相關實例97
6.5練習102

第7章語料庫數據處理個案實例103
7.1分句和分詞103
7.2詞性賦碼107
7.3詞形還原111
7.4抽取詞塊112
7.5計算搭配強度114
7.6刪除詞表中的停用詞119
7.7語料檢索的KWIC實現120
7.8句子檢索相關個案122
7.9實現Range軟件功能123
7.10讀取多個文本文件133
7.11多個文本文件批量改名137
7.12使用Stanford CoreNLP進行文本處理139

第8章語料庫Unicode數據處理個案實例153
8.1中文分詞153
8.2中文詞性賦碼157
8.3檢索中文文本160
8.4英漢雙語語料文本的合併與分割162
附錄A Python及命令行文本處理相關參考書籍167
附錄B賓夕法尼亞大學樹庫詞性賦碼集168