ASP源码.NET源码PHP源码JSP源码JAVA源码DELPHI源码PB源码VC源码VB源码Android源码
当前位置:首页 >> 网络编程 >> 其他编程教程 >> Python中调用自然语言处理工具HanLP手记

Python中调用自然语言处理工具HanLP手记(1/3)

来源:网络整理     时间:2018-10-31     关键词:

本篇文章主要介绍了" Python中调用自然语言处理工具HanLP手记",主要涉及到方面的内容,对于其他编程教程感兴趣的同学可以参考一下: HanLP方法封装类:1. # -*- coding:utf-8 -*-2. # Filename: main.py3.4.from jpype import ...

HanLP方法封装类:

1. # -*- coding:utf-8 -*-

2. # Filename: main.py

3.

4.from jpype import *

5. 

5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp-1.3.2.jar;C:\hanlp", "-Xms1g", "-Xmx1g") # 启动JVM,Linux需替换分号;为冒号:

7.

8.print("="*30+"HanLP分词"+"="*30)

9.HanLP = JClass('com.hankcs.hanlp.HanLP')

10.# 中文分词

11.print(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))

12.print("-"*70)

13. 

14.  print("="*30+"标准分词"+"="*30)

15. StandardTokenizer = JClass('com.hankcs.hanlp.tokenizer.StandardTokenizer')

16. print(StandardTokenizer.segment('你好,欢迎在Python中调用HanLP的API'))

17. print("-"*70)

18. 

19.# NLP分词NLPTokenizer会执行全部命名实体识别和词性标注

20.print("="*30+"NLP分词"+"="*30)

21.NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')

22.print(NLPTokenizer.segment('中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程'))

23.print("-"*70)

24.

25.  print("="*30+"索引分词"+"="*30)

26. IndexTokenizer = JClass('com.hankcs.hanlp.tokenizer.IndexTokenizer')

27. termList= IndexTokenizer.segment("主副食品");

28. for term in termList :

29.  print(str(term) + " [" + str(term.offset) + ":" + str(term.offset + len(term.word)) + "]")

30. print("-"*70)

31.

32. 

33.print("="*30+" N-最短路径分词"+"="*30)

34.# CRFSegment = JClass('com.hankcs.hanlp.seg.CRF.CRFSegment')

35.# segment=CRFSegment()

36.# testCase ="今天,刘志军案的关键人物,山西女商人丁书苗在市二中院出庭受审。"

37.# print(segment.seg("你看过穆赫兰道吗"))

38.print("-"*70)

39.

40.

41.print("="*30+" CRF分词"+"="*30)

42.print("-"*70)

43.

44.  print("="*30+" 极速词典分词"+"="*30)

45. SpeedTokenizer = JClass('com.hankcs.hanlp.tokenizer.SpeedTokenizer')

46. print(NLPTokenizer.segment('江西鄱阳湖干枯,中国最大淡水湖变成大草原'))

47. print("-"*70)

48. 

49.print("="*30+" 自定义分词"+"="*30)

相关图片

相关文章