Apache OpenNLP

	Apache OpenNLP
Ontwikkelaar	Apache Software Foundation
Uitgebracht	2004
Status	Actief
Besturingssysteem	Unix, BSD, Linux, macOS, Windows
Geschreven in	Java
Categorie	Machinaal leren
Licentie	Apache License 2.0
Website	(en) Officiële website
Portaal:	Informatica ; Vrije software

Apache OpenNLP is een toolkit die Machinaal leren gebruikt voor Natural language processing. Het ondersteunt de meest voorkomende taken in NLP, zoals taaldetectie, tokenisatie, zinssegmentatie, Part-of-speech tagging, named entity extractie, chunking, parsing en coreferentie resolutie. Dit soort taken zijn meestal nodig om meer geavanceerde tekstverwerkingsdiensten te ontwikkelen.

De bibliotheek is geschreven in Java en kan gemakkelijk geïntegreerd worden in Java-projecten of projecten die gebruik maken van de Java Virtual Machine (JVM).^[1].

Details[bewerken]

Taalidentificatie: de 'LanguageDetector' vereist een getraind model. OpenNLP zelf biedt het volledig getrainde model langdetect-183.bin aan als download. Dit kan 103 talen identificeren.^[2].
Zinherkenning: De 'SentenceDetector' herkent of een punt het einde van een zin markeert of dat het een andere betekenis heeft. Ook hier is de specificatie van een getraind sjabloon vereist. OpenNLP biedt sjablonen voor verschillende talen, bijvoorbeeld opennlp-nl-ud-alpino-sentence-1.2-2.5.0.bin voor het herkennen van zinnen in Italiaanse teksten.^[3].
Tokenisatie: de tokenizer verdeelt een tekenreeks in tokens. Tokens zijn meestal woorden, leestekens, getallen, enz.
Part-of-speech labelling: OpenNLP heeft een selectie van voorgetrainde sjablonen voor 32 talen (Duits, Engels, Spaans, Portugees, Deens, enz.). Deze sjablonen kunnen gebruikt worden om een tekstcorpus automatisch in één van deze talen te labelen.^[4]
Extractie van naamentiteiten: De 'TokenNameFinder' kan genoemde entiteiten en getallen in tekst herkennen. Er is een sjabloon nodig om entiteiten te herkennen. Het model is afhankelijk van de taal en het type entiteit waarvoor het getraind is. Het OpenNLP-project biedt een reeks vooraf getrainde modellen die zijn getraind op verschillende vrij beschikbare corpora. Deze kunnen gedownload worden van de template downloadpagina.