Skip to content

Commit ff325f7

Browse files
author
Yang Yang
committed
add books & ASR data
1 parent 5f77d7d commit ff325f7

File tree

3 files changed

+66
-1
lines changed

3 files changed

+66
-1
lines changed

README.md

Lines changed: 66 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -257,6 +257,9 @@ publishTime: 该谣言被举报时间
257257

258258
**36\. bert资源:**
259259

260+
+ Bert原作者的slides: [link](https://pan.baidu.com/s/1OSPsIu2oh1iJ-bcXoDZpJQ)
261+
提取码: iarj
262+
260263
+ 文本分类实践: [github](https://github.com/NLPScott/bert-Chinese-classification-task)
261264

262265
+ bert tutorial文本分类教程: [github](https://github.com/Socialbird-AILab/BERT-Classification-Tutorial)
@@ -414,11 +417,73 @@ mail1
414417

415418
3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文
416419

417-
**50\.cs224n深度学习自然语言处理课程:**[link](http://web.stanford.edu/class/cs224n/)
420+
**50\.cs224n深度学习自然语言处理课程:**[link](http://web.stanford.edu/class/cs224n/)
421+
- 课程中模型的pytorch实现 [link](https://github.com/DSKSD/DeepNLP-models-Pytorch)
422+
- 面向深度学习研究人员的自然语言处理实例教程 [link](https://github.com/graykode/nlp-tutorial)
423+
418424

419425
**51\.中文手写汉字识别:**[github](https://github.com/chizhanyuefeng/Chinese_OCR_CNN-RNN-CTC)
420426

421427
**52\.中文自然语言处理 语料/数据集:**[github](https://github.com/SophonPlus/ChineseNlpCorpus)
422428
[竞品:THUOCL(THU Open Chinese Lexicon)中文词库](https://github.com/thunlp/THUOCL)
423429

424430
**53\.变量命名神器:**[github](https://github.com/unbug/codelf) [link](https://unbug.github.io/codelf/)
431+
432+
**54\.分词语料库:**[百度网盘链接](https://pan.baidu.com/s/1MXZONaLgeaw0_TxZZDAIYQ)
433+
- 提取码: pea6
434+
- [keras实现的基于Bi-LSTM + CRF的中文分词+词性标注](https://github.com/GlassyWing/bi-lstm-crf)
435+
- [基于Universal Transformer + CRF 的中文分词和词性标注](https://github.com/GlassyWing/transformer-word-segmenter)
436+
- [快速神经网络分词包 java version](https://github.com/yaoguangluo/NeroParser)
437+
438+
**55\. NLP新书推荐《Natural Language Processing》by Jacob Eisenstein:** [link](https://github.com/jacobeisenstein/gt-nlp-class/blob/master/notes/eisenstein-nlp-notes.pdf)
439+
440+
**56\. 任务型对话英文数据集:** [github](https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey)
441+
【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。
442+
443+
**57\. ASR 语音数据集 + 基于深度学习的中文语音识别系统:** [github](https://github.com/nl8590687/ASRT_SpeechRecognition)
444+
+ Data Sets 数据集
445+
* **清华大学THCHS30中文语音数据集**
446+
447+
data_thchs30.tgz
448+
[OpenSLR国内镜像](<http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz>)
449+
[OpenSLR国外镜像](<http://www.openslr.org/resources/18/data_thchs30.tgz>)
450+
451+
test-noise.tgz
452+
[OpenSLR国内镜像](<http://cn-mirror.openslr.org/resources/18/test-noise.tgz>)
453+
[OpenSLR国外镜像](<http://www.openslr.org/resources/18/test-noise.tgz>)
454+
455+
resource.tgz
456+
[OpenSLR国内镜像](<http://cn-mirror.openslr.org/resources/18/resource.tgz>)
457+
[OpenSLR国外镜像](<http://www.openslr.org/resources/18/resource.tgz>)
458+
459+
* **Free ST Chinese Mandarin Corpus**
460+
461+
ST-CMDS-20170001_1-OS.tar.gz
462+
[OpenSLR国内镜像](<http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz>)
463+
[OpenSLR国外镜像](<http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz>)
464+
465+
* **AIShell-1 开源版数据集**
466+
467+
data_aishell.tgz
468+
[OpenSLR国内镜像](<http://cn-mirror.openslr.org/resources/33/data_aishell.tgz>)
469+
[OpenSLR国外镜像](<http://www.openslr.org/resources/33/data_aishell.tgz>)
470+
471+
注:数据集解压方法
472+
473+
```
474+
$ tar xzf data_aishell.tgz
475+
$ cd data_aishell/wav
476+
$ for tar in *.tar.gz; do tar xvf $tar; done
477+
```
478+
479+
* **Primewords Chinese Corpus Set 1**
480+
481+
primewords_md_2018_set1.tar.gz
482+
[OpenSLR国内镜像](<http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz>)
483+
[OpenSLR国外镜像](<http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz>)
484+
485+
**57\. ASR 语音数据集 + 基于深度学习的中文语音识别系统:** [github](https://github.com/nl8590687/ASRT_SpeechRecognition)
486+
487+
**58\. 笑声检测器:** [github]([https://github.com/nl8590687/ASRT_SpeechRecognition](https://github.com/ideo/LaughDetection))
488+
489+
**59\. Microsoft多语言数字/单位/如日期时间识别包:** [github](https://github.com/Microsoft/Recognizers-Text)

data/BOOK/eisenstein-nlp-notes.pdf

3.2 MB
Binary file not shown.

0 commit comments

Comments
 (0)