www.fatihkabakci.com

Personal Website and Computer Science TUR EN

JAVA XML COZUMLEME(SAX PARSER)

Last update: 4/6/2015 12:05:00 AM

Yazan:Fatih KABAKCI

XML çözümleme(parsing) teknikleri içerisinde en sık kullanılan SAX(Simple API for XML) parser, özellikle büyük boyutlu xml uzantılı dosyaların çözümlenmesinde kullanılır. SAX çözümleme olay tabanlı (event based) bir xml çözümleyicidir. Bunun anlamı, çözümlediği her element için toplam da 3 adet olay üretmesidir. SAX Parser aşağıdaki örnek xml' i çözümlerken şu olayları üretir.

<department id="1">
   <name>Computer Science</name>
</department>

1. üretilen olay <department> açılış etiketi parse edildikten sonra gerçekleşir. 2. üretilen olay department etiketinin değeri olan Computer Science elde edildikten sonra gerçekleşirken, 3. ve son üretilen olay ise </department> kapanış etiketi parse edildikten sonra gerçekleşir. SAX Parser bu özelliği ile DOM(Document Object Model) parser' lar dan farklıdır.

sax parsing

Konuya bir örnek üzerinden devam edelim. Aşağıda corporation.xml adlı bir xml dosyası örnek olarak verilmektedir.

corporation.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE corporation SYSTEM "corporation.dtd">
<corporation>
    <departmentList>
        <department id="1">
            <name>Computer Science</name>
        </department>
        
        <department id="2">
            <name>Human Resources</name>
        </department>
        
        <department id="3">
            <name>Security</name>
        </department>
    </departmentList>
    
    <personList>
        <person id="1">
            <name>John</name>
            <surname>Nash</surname>
            <age>32</age>
            <departmentId>1</departmentId>
        </person>
        
        <person id="2">
            <name>Jenny</name>
            <surname>Laure</surname>
            <age>27</age>
            <departmentId>2</departmentId>
        </person>
        
        <person id="3">
            <name>Ali</name>
            <surname>Veli</surname>
            <age>19</age>
            <departmentId>3</departmentId>
        </person>
    </personList>
</corporation>

Yukarıdaki xml dosyası corporation.dtd adlı bir doküman tip tanımlamasına(document type definition) göre hazırlanmıştır. Bu dosya ise aşağıda verilmiştir.

corporation.dtd

<!ELEMENT corporation (departmentList,personList)>
<!ELEMENT personList (person+)>
<!ELEMENT departmentList (department+)>
<!ELEMENT person (name,surname,age,departmentId)>
<!ELEMENT department (name)>
<!ATTLIST person id CDATA "0">
<!ATTLIST department id CDATA "0">
<!ELEMENT name (#PCDATA)>
<!ELEMENT surname (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT departmentId (#PCDATA)>

SAX parser kullanılırken, aşağıda açıklanan 4 temel adım uygulanır.

1. Çözümleme işleminde kullanılacak sınıf DefaultHandler sınıfından türetilir.
2. XML dosyası parse edilirken, elementlerin başında üretilen olayların tetiklendiği startElement() metodu tanımlanır.
3. XML dosyası parse edilirken, elementlerin değerleri çözümlenirken tetiklenen characters() metodu tanımlanır.
4. XML dosyası parse edilirken, elementlerin sonunda üretilen olayların tetiklendiği endElement() metodu tanımlanır.

SAX Parser API' si Java içerisinde org.xml.sax. ve javax.xml.parsers. kütüphaneleri altında standart olarak tanımlıdır.

package xmlparsing;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

/**
 * This class shows that how to parse a XML file using SAX parser
 * 
 * @author www.fatihkabakci.com
 */
public class SAXParsing extends DefaultHandler {
   static Map<Integer, String> departmentMap        = new HashMap<Integer, String>(3);
   static List<String>         personDataList       = new ArrayList<String>(1);

   int                         lastReadDepartmentId = -1;
   int                         lastReadPersonId     = -1;
   int                         corporationData      = -1;

   public void startElement(String uri, String localName, String qName, Attributes attributes) {

      if (qName.equals("department")) {
         corporationData = 0;
         String value = attributes.getValue("id");
         lastReadDepartmentId = Integer.valueOf(value);
      }

      else if (qName.equals("person")) {
         corporationData = 1;
         String value = attributes.getValue("id");
         lastReadPersonId = Integer.valueOf(value);
      }
   }

   public void characters(char[] characters, int start, int length) {
      String value = new String(characters, start, length);
      switch (corporationData) {
         case 0 :
            departmentMap.put(lastReadDepartmentId, value);
            break;
         case 1 :
            personDataList.add(value);
            break;
      }
   }

   public void endElement(String namespaceURI, String localName, String qName) {
      if (qName.equals("person")) {
         try {
            String personName = personDataList.get(0);
            String personSurname = personDataList.get(1);
            String personAge = personDataList.get(2);
            Integer personDepartmentId = Integer.valueOf(personDataList.get(3));
            String personDepartment = getDepartment(personDepartmentId);
            System.out.println(lastReadPersonId + " " + personName + " " + personSurname + " " + personAge + " " + personDepartment);
         }
         catch (IndexOutOfBoundsException iob) {
            System.err.println(iob);
         }
         catch (NumberFormatException nfe) {
            System.err.println(nfe);
         }
         personDataList.clear();
      }
   }

   public static String getDepartment(Integer departmentId) {
      String department = departmentMap.get(departmentId);
      return department;
   }

   public static void main(String[] args) {
      SAXParserFactory spf = SAXParserFactory.newInstance();
      spf.setValidating(true);
      try {
         SAXParser saxP = spf.newSAXParser();
         System.out.println(" - corporation");
         saxP.parse("com.fatihkabakci/xmlparsing/corporation.xml", new SAXParsing());
      }
      catch (ParserConfigurationException e) {
         e.printStackTrace();
      }
      catch (SAXException e) {
         e.printStackTrace();
      }
      catch (IOException e) {
         e.printStackTrace();
      }
   }
}

corporation.xml dosyası parse edilirken, çalışma zamanında yukarıda tanımlanan, startElement(), characters(), endElement() metotları tetiklenerek etiketler çözümlenir. corporation.xml dosyasında department ve person verileri bulunduğundan dolayı, startElement() metodunda corporationData global değişkeni bu elementlerin verileri elde edilirken yön tayini olarak görev yapar.

<department id="1">
   <name>Computer Science</name>
</department>

Örneğin yukarıdaki element parse edilirken ilk olarak startElement() metodu çağrılır. corporationData 0 olarak değer alır ve department() elementinin değeri çözümlenirken characters() metodu tetiklenir. Bu noktada corporationData 0 olduğu için alınan veriler departmentMap adlı bir map' e koyulur. Programda son olarak her person datası endElement() metodu içerisindeki person koşulu ile ekrana basılır. Programın çıktısı aşağıda verilmiştir.

 - corporation
1 John Nash 32 Computer Science
2 Jenny Laure 27 Human Resources
3 Ali Veli 19 Security
There has been no comment yet

Name:


Question/Comment
   Please verify the image




The Topics in Computer Science

Search this site for





 

Software & Algorithms

icon

In mathematics and computer science, an algorithm is a step-by-step procedure for calculations. Algorithms are used for calculation, data processing, and automated reasoning.

Programming Languages

icon

A programming language is a formal constructed language designed to communicate instructions to a machine, particularly a computer. It can be used to create programs to control the behavior of a machine. Java,C, C++,C#

Database

icon

A database is an organized collection of data. The data are typically organized to model aspects of reality in a way that supports processes requiring information.

Hardware

icon

Computer hardware is the collection of physical elements that constitutes a computer system. Computer hardware refers to the physical parts or components of a computer such as the monitor, memory, cpu.

Web Technologies

icon

Web development is a broad term for the work involved in developing a web site for the Internet or an intranet. Html,Css,JavaScript,ASP.Net,PHP are one of the most popular technologies. J2EE,Spring Boot, Servlet, JSP,JSF, ASP

Mobile Technologies

icon

Mobile application development is the process by which application software is developed for low-power handheld devices, such as personal digital assistants, enterprise digital assistants or mobile phones. J2ME

Network

icon

A computer network or data network is a telecommunications network that allows computers to exchange data. In computer networks, networked computing devices pass data to each other along data connections.

Operating Systems

icon

An operating system is software that manages computer hardware and software resources and provides common services for computer programs. The OS is an essential component of the system software in a computer system. Linux,Windows

Computer Science

icon

Computer science is the scientific and practical approach to computation and its applications.A computer scientist specializes in the theory of computation and the design of computational systems.