编辑点评:hsk词汇大纲
HSK词汇是一款专业的词汇app,用户可以通过这款APP来更好的学习自己的汉语水平,实时了解汉字、拼音和发音等内容的学习,帮助用户学习,让汉语考试更加轻松。感兴趣的就快来下载吧
HSK词汇大纲简介
【快快查系列】产品,包含了HSK一级到六级的所有词汇学习,是HSK汉语水平考试的必备产品。
HSK是一项国际汉语能力标准化考试,重点考查汉语非母语的考生在生活、学习和工作中运用汉语进行交际的能力。HSK包括HSK一级、HSK二级、
HSK三级、HSK四级、HSK五级和HSK六级。有纸笔考试和网络考试两种考试形式。
软件亮点
1、词语详细说明,每一个汉字的历史演化、出處和释意、词组都能获得;
2、自定方案,每一个人能够自身设置每日学习和备考的词汇总数;
3、文件目录展示,挑选一个词本得话就可以一览这个词本的所有单词文件目录;
软件特色
海量字库:每个汉字提供海量内容,如注解、详解等;
词汇解释:提供英文翻译,例句,语法解析,多角度学习词语;
引证解释:结合古今经典著作,阐述词语起源,用法;
汉字解析:每个汉字都包含了详细的解释,如拼音、五笔、笔划、部首、结构等;
软件功能
1. 规范阅读,汉字、字音对应规范;
2. 详细显示汉字,可显示汉字的部首、笔画、结构、五笔等;
3. 可以得到每个汉字的详细说明,包括其历史沿革、来源、解释和举例说明;
4. 自主制定计划,每个人都可以设定自己每天学习和复习的词汇量;
5. 在显示内容的表格中,选择一个单词本子可以看到该单词本子中所有新单词的列表;
6. 这里我们收集了HSK 1 - 6级的真实词汇。
如何利用Python筛选HSK核心词汇
背景说明
由于班上有一批学生需要参加HSK5的考试,但是在实际授课中发现他们对于该级别的词几乎不怎么认识,甚至于HSK4的词都有很多没掌握的。所以为了短期突击,需要制作HSK4和5的核心词表。
制作思路如下:
1. 建立HSK标准词表,包括
汉字
拼音
英文
词性
级别
2. 建立基于标准词表的词频表
3. 按照词频筛选核心词汇(除名词/动词/形容词之外的词类)
4. 按照字族筛选核心词汇(名词/动词/形容词)
之所以要补上按照字族筛选核心词汇,是因为汉字的字族(也就是语素教学法中的语素)能有效降低学生的学习成本和记忆成本。比较适合名词/动词/形容词这三类数量比较多的词类。
具体步骤如下:
一,建立HSK标准词表(1-6级)
网上有现成旧词表下载,需要人工审核的是以下几个部分
1. 词表更新:根据HSK官方考纲2015版,有近12%的词汇是增补的,要替换进旧词表
2. 拼音审核:特别是多音字,大小写,还有谷歌翻译的莫名拼写(比如法国的拼音是Fàguó你敢信?)
3. 义项审核:有些多义词,是需要根据官方考纲的词性标注,进行修正的(比如长zhǎng和长cháng)
二,添加词性分类
在这里词性分类有两个方法
1)直接用手机拍照然后用OCR识别官方考纲上的词性标注,与标准词表进行一一对应
2)用Python调用jieba插件,进行词性标注
我用的是第二种方法,代码如下
#!usr/bin/env Python# coding = utf-8import jieba.posseg as posimport xlrdimport xlwtinput_excel = xlrd.open_workbook('/Users/Arthur/learnPython/vocabulary/HSK5.xlsx')input_sheet = input_excel.sheets()[0]output_workbook = xlwt.Workbook(encoding="utf-8")output_worksheet = output_workbook.add_sheet("new", cell_overwrite_ok=True)row1 = 1col1 = 1#存在词典查不到的词,需要优化for word_num in range(2144): item1 = input_sheet.cell(row1,col1).value part_of_speech = pos.cut(item1) for word, flag in part_of_speech: output_worksheet.write(row1-1, col1-1, word) output_worksheet.write(row1-1, col1, flag) row1=row1+1output_workbook.save('/Users/Arthur/learnPython/vocabulary/HSK5-2.xls')
标准好的词性分类如下
这里有一个问题就是jieba插件的词性分类是按照与ictclas 兼容的标记法进行标记的,很多标记与我们熟知的英语不一致,举例如下:
词性标记与传统的英语语法不一致
解决方法是复制到excel之后,进行批量替换即可。
三,建立词频表
因为没有HSK范围内的语料库支持,所以从网上找了一个八千多词频表作为基准。总体而言,针对HSK考试的有效性是不足的,但在时间有限的情况下,也没有更好的办法了。
将HSK标准词表与八千词频表进行比对(用excel的函数vlookup),自动填充HSK词汇的词频。
这里有一个问题就是有些词在词频表里没有出现,采取的处理方法就是:词频作为0处理。不过根据词类排序之后,大部分的虚词还是一眼就能看出来的,影响不大。
建立好的词频表如下:
增加了词频,可以看到有的词频是N/A
四,筛选核心词汇
筛选核心词汇我采用了两种方法
1)按照词频分
将副词/连词/介词/助词等数量较少的词类,在excel中按照词频排序。
实际情况是,词频基本没啥用,因为这些词类本身数量就比较少,所以基本都入选了核心词汇。
2)按照词频+字族分
前面已经介绍过,采用这种方法的原因是
1. 字族能有效降低学习成本和记忆成本,适合考试的时候猜测词义
2. 名动形这三个词类的词汇数量比较多,用字族就能打破一个一个记忆的障碍,以少驭多。
3. 当筛选出n个字族时,再用字族里所有词汇的权重之和去给字族排序,所以
字族的词越多,排名越前
不同字族的词一样多,词汇相加的权重之和多高,该字族排名越前
排序之后再人工筛选一遍
热门评论
最新评论