Projects » Complex Systems Computation Group CoSCo |
Class will develop a basic cognitive ability for use in intelligent content analysis: the automatic discovery of content categories and attributes from unstructured content streams. The demonstrators will focus on object recognition and scene analysis in images and video with accompanying text streams. Autonomous learning will make recognition more adaptive and allow more general classes and much larger and more varied data sets to be handled.
Technically, the work will combine latent structure models and semi-supervised learning methods from machine learning with advanced visual descriptors from computer vision and state-of-the-art text analysis techniques. Three levels of abstraction will be studied: new individuals (specific people, objects, scenes, actions); new object classes and attributes; and hierarchical categories and relations between entities.
Class is an interdisciplinary project, combining six leading European research teams in visual recognition, text understanding & summarization, and machine learning.
With the hundreds of millions of documents in the Internet and Intranets, lack of information is rarely a problem, but how to access the information we need. In this information retrieval setting we can distinguish two separate tasks: filtering out the relevant information from the vast data masses available, and representing the resulting multi-dimensional information in a useful format. In this project we focus on the second task and assume that the first task can be solved by using publicly available tools such as the open-source search software package being developed in the EU-project Alvis.
When visualizing complex multidimensional information, graphical representations have been proposed as more ergonomic and user friendly interface alternatives to the conventional list-based solutions used in search engines like Google. Nevertheless, the visual solutions proposed are usually built according to purely engineering principles, even though it is known that in case of complex visualizations, immediate extraction of information is often difficult, and that people have, for example, difficulties in perceiving different data dimensions at a single glance or even under longer scrutiny. What is more, the solutions are typically not properly validated. The principal goal of the suggested project is to investigate what type of mental representations the visualizations of multidimensional information evoke and how these representations are formed, and then examine how these visualizations guide behaviour and how multidimensional representations affect problem solving and decision making. The validity of the visualization techniques developed will be studied both by traditional experimental methods and by eye-movement measuring techniques.
The research consortium consists of two partners: professor Petri Myllymäki's Complex Systems Computation Research group (CoSCo) at University of Helsinki and Docent Ilpo Kojo's group at the Center for Knowledge and Innovation Research (CKIR), Helsinki School of Economics.
We can consider digital bit streams processed in the ICT sector as consisting of two overlapping parts, where one part is useful information and the other is useless noise. There is noise in all digital media; it is generated by the faults in original information sources (such as poor image resolution) and errors in signal transmission (such as disruptions in wireless communications or faults in hard drives). Noise can be filtered if the features of the source are known (in some degree at least), but it is very difficult to build general methods for denoising since they have to be able to construct adaptive models of random noise sources. The main problem with such adaptive modelling is the regularization of models; too complex (over-adaptive) models will interpret noise as part of the information and thus be rendered useless.
MDL (Minimum Description Length) (see www.mdl-research.org) is an information-theoretical framework developed by the father of arithmetic encoding, Jorma Rissanen. It provides an elegant solution for the regularization problem. Unfortunately, the methods based on the MDL theory are often very challenging computationally. The project team has studied how to implement MDL in a manner that is feasible for practical applications, and managed to develop computationally efficient methods suitable for many interesting model classes. In addition, the team has developed two new variants of the NML criterion: sequential NML and factorized NML. The analysis of these new methods is still in progress.
The research consortium consists of two sub-groups: the Complex Systems Computation group at the Department of Computer Science at the University of Helsinki (Prof. Petri Myllymäki, the coordinator) and the Laboratory of Computational Technology at Helsinki University of Technology (Dr. Jukka Heikkonen).
Tieto- ja viestintäteknologiasektorilla prosessoitavien digitaalisten bittivirtojen voidaan ajatella koostuvan kahdesta yhteenlimittyneestä osasta, joista toinen on hyödyllistä informaatiota ja toinen hyödytöntä kohinaa. Kohinaa on kaikessa digitaalisessa mediassa: sitä syntyy alkuperäisen informaatiolähteen puutteista (esimerkiksi kuvien huono resoluutio), ja signaalin siirtämisessä tapahtuneista virheistä (esimerkiksi häiriöt langattomassa liikenteessä tai virheet kovalevyllä). Kohinaa voidaan yrittää suodattaa mikäli kohinalähteen ominaisuudet ovat tunnettuja (edes suurin piirtein), mutta yleiskäyttöisten kohinanpoistomenetelmien rakentaminen on hyvin hankalaa, koska niiden on pystyttävä rakentamaan adaptiivisia malleja mielivaltaisille kohinalähteille. Pääongelma tällaisessa adaptiivisessa mallintamisessa on mallien regularisointi: liian kompleksiset (ylisovitetut) mallit tulkitsevat kohinankin osaksi informaatiota, ja ovat siten hyödyttömiä.
MDL (Minimum Description Length) on aritmeettisen koodauksen isän Jorma Rissasen kehittämä informaatioteoreettinen kehikko, joka antaa elegantin ratkaisun tähän ongelmaan. Valitettavasti MDL-teoriasta johdetut menetelmät ovat usein laskennallisesti vaativia. Projektin tavoitteena on kehittää yhdessä Jorma Rissasen kanssa MDL-teorian tuoreimpiin tuloksiin perustuvia uusia, laskennallisesti tehokkaita yleiskäyttöisiä kohinanpoistomenetelmiä kuvasignaalien prosessointiin. Tuloksia voidaan soveltaa joko tehokkaampaan signaalien kompressointiin, mikä johtaa tehokkaampaan kuvasignaalien välittämiseen, tai vastaanotettavan kuvasignaalin laadun parantamiseen ilman että lähetettävää digitaalista informaatiota tarvitsee merkittävästi lisätä. Kehitettyjen menetelmien toimivuutta testataan erilaisilla yhteistyökumppanien luovuttamilla ja julkisilla aineistoilla.
Tutkimuskonsortio kostuu kahdesta osaryhmästä: 1) Laskennallisen tekniikan laboratorio, Teknillinen korkeakoulu (vast. johtaja TkT Jukka Heikkonen) ja 2) Tietojenkäsittelytieteen laitos, Helsingin yliopisto (vast.johtaja professori Petri Myllymäki).
The main objective of the research is to develop advanced methods for microarray data analysis. In particular the project focuses on the following research issues: denoising of microarray images, comprestimation (also called multiterminal estimation), gene clustering and classification., and estimation of the reliability of the results.
The research consortium consists of three partners: The Laboratory of Computational Engineering (LCE) at Helsinki University of Technology (Academy research fellow Dr.tech Jukka Heikkonen), the Complex Systems Computation Research Group (CoSCo) at University of Helsinki (Prof. Petri Myllymäki) and the Institute of Biomedicine at University of Helsinki (PI: Prof. Tomi Mäkelä).
Tutkimuksen tavoitteena on kehittää uusia probabilistisia menetelmiä mikrosirudata-analyysiin. Tutkimus keskittyy erityisesti seuraaviin osa-alueisiin: mikrosirukuvien kohinan poisto, kompressioestimaatiomenetelmien (comprestimation) kehittäminen, geenien ryhmittely ja luokittelu, geenisäätelyverkkojen rakentaminen ja tulosten hyvyyden arviointi.
Tutkimuskonsortio kostuu kolmesta osaryhmästä: 1) Laskennallisen tekniikan laboratorio, Teknillinen korkeakoulu (vast. johtaja TkT Jukka Heikkonen), 2) Biolääketieteen instituutti, Helsingin yliopisto (vast.johtaja professori Tomi Mäkelä) ja 3) Tietojenkäsittelytieteen laitos, Helsingin yliopisto (vast.johtaja professori Petri Myllymäki).
The first generation of corporate intranets, labeled by some as "enterprise information management systems", attempt to implement some of the vision of the Semantic Web coupled with personalization and groupware suites. These systems are quite primitive in their text processing and thus perform patchily. Moreover they have huge installation costs and restrictions on interoperability with other systems. Cost effective information management software for organizations, libraries, and educational and research institutions are thus non-existent. With the advent of distributed search just over the horizon (for instance, allowing the database-backed "hidden web" to be exposed to search), the generally recognized perception that keyword search is a wasteful paradigm, and the recognition that search is a productivity tool that needs personalization, we propose to research and develop software with the following features: it can operate as an appliance (i.e., plug into network and play with minimal maintenance); it is open source (encourages longevity and non-corporate usability); it employs language models hidden from the user so that named entities, synonyms, topics and genre implicitly dealt with to ease the user frustration associated with keyword search; it employs probabilistic query evaluation models to overcome the lack of URL (link based) information in some intranets and to carefully integrate relevant synonym information, etc.; and it integrates personalization tightly with search to further improve the user experience, but moreover so that all subsequent groupware tasks such as message routing, information alerts, filtering, etc. can be easily integrated at a later date.
The research consortium consists of three partners: University of Helsinki (professor Petri Myllymäki), University of Tampere (professor Kari-Jouko RäihŠ, and University of Kuopion (professor Olli-Pekka Ryynänen).
SIB-projektissa tuotetaan uuden sukupolven tera- ja petatavuihin skaalautuvan tiedon automaattiseen analyysiin perustuvan semanttisen tiedonhaun ja personoinnin menetelmiä, jotka toimivat yhdessä toisiaan tukevana kokonaisuutena. Nämä menetelmät integroidaan sarjaksi toimivia prototyyppejä joita testataan erilaisissa pilottiympäristöissä. Tällaisiksi pilottiympäristöiksi on valittu yritysten informaation hallintajärjestelmät, aihekohtaiset hakukoneet, uutistiedon jalostaminen sekä julkisyhteisölliset älykkäät hakupalvelut. Koska tiedonhaku tulee olemaan keskeinen tietoverkkojen peruspalvelu, SIB-teknologian potentiaaliset sovellukset ovat laajat. SIB-projektissa kehitetyt menetelmät toimivat perusteknologiana tulevissa verkkopohjaisissa informaationhallintajärjestelmissä niin yritysten sisäisissä tietoverkoissa kuin avoimissa Internetin tietoa tarjoavissa järjestelmissä (mm. Internet-hakukoneet).
Tutkimuskonsortion osapuolia on kolme: Helsingin yliopiston tietojenkäsittelytieteen laitos / Tietotekniikan tutkimusinsituutti HIIT (professori Petri Myllymäki), Tampereen yliopiston tietojenkäsittelytieteiden laitos (professori Kari-Jouko Räihä, ja Kuopion yliopiston Terveyshallinnon ja -talouden laitos (professori Olli-Pekka Ryynänen).
The SensorPlanet initiative, innovated and set up by the Nokia Research Center, aims at building an open global mobile device centric research platform for Wireless Sensor Network (WSN) research (akin to somewhat analogous platform for backbone network services called PlanetLabs). The distributed platform will provide the necessary infrastructure for world's top research labs to perform innovative research on wireless sensor networks, where the mobile devices can be seen both as gateways to the mesh sensor networks and also as sensor nodes themselves. This open innovation initiative will allow Nokia to collaborate with the best teams in the field around the world, and direct the academic Wireless Sensor Network research globally towards a mobile device centric innovation. More information about the SensorPlanet initiative can be found at http://www.sensorplanet.org/.
In addition to the generic SensorPlanet open initiative, Nokia ran a Tekes funded research project which supported local SensorPlanet-related research work in Finland, and the SensorPlanet project at University of Helsinki was part of Nokia's Tekes project work via subcontracting to the Cosco group.
It is evident that with hundreds of millions of pages of information on the Internet, search has become a fundamental service. The abundance of available information sets new challenges for even the best current search engines, and what is needed is qualitatively better ways to answer user queries. The context for our research is the development of a kernel for supporting a subject-specific node in a distributed, hierarchical system for supporting navigation and search on Internet pages. The node may have tens of millions of pages, and needs to automatically build its own hierarchies for topic, genre, and terminology - aspects of the document set that we together call a concept map.
The objective of the proposed project is to provide the statistical computing techniques and their implementations needed to build a search engine kernel for the next generation Internet search services. The topics studied focus on developing statistical modeling techniques such as the multinomial Principal Component Analysis (mPCA), and addresses both the theoretical development and the applied aspects for very large (giga and terabyte) document data sets. Such methods are needed to implement features such as hierarchical multi-aspect clustering, automatic extraction of subject-specific topic hierarchies and intelligent query matching. In addition to the basic research on methodological aspects the project will also develop C/C++ libraries based on existing Open Source scientific libraries. Our libraries will provide computationally efficient implementations of the functions required for the concept map functions in the search engine kernel. In order to reach the broader search engine building objectives, all the program code to be developed for the kernel will follow Open Source licensing.
Projektin tavoitteena on tutkia seuraavan sukupolven Internet-hakupalvelujen kehittämisessa tarvittavia moderneja laskennallisia tilastollisia menetelmiä ja niiden skaalautuvia tehokkaita toteutuksia. Tutkimus keskittyy kehittämään ongelmiin soveltuvia tilastomallintamisen tekniikoita, mm. multinomipääkomponenttianalyysiä (mPCA).
Menetelmien teoreettisen ja analyyttisen tarkastelun ja kehittämisen lisäksi projektissa tutkitaan erityisesti menetelmien soveltuvuutta erittäin suurten (giga- ja teratavuluokan) dokumenttikokoelmille. Tällaisia menetelmiä tarvitaan toteuttamaan hakupalvelujen edistyneempiä piirteitä kuten moniluokkainen ryhmittely, aihepiiriehierarkioiden automaattinen muodostaminen dokumenttimassasta sekä älykäs kyselyjen jakaminen eri aihepiireihin erikoistuneille hakukonesolmuille. Menetelmällisen perustutkimuksen lisäksi projektissa kehitetään C/C++ -ohjelmakirjastoja jotka perustuvat ns. avoimen lähdekoodin tieteellisen laskennan kirjastoihin. Kehitettyjä ohjelmakirjastoja voidaan käyttää hakukonesolmun ytimen käsitekartan eri funktionaalisuuksien tehokkaassa toteuttamisessa. Koska projekti liittyy laajempaan tavoitteeseen avoimesta Internetin hakupalvelusta, kaiken projektissa kehitettävän ohjelmakoodin lisenssiehdot ovat avoimen lähdekoodin -periaatetta noudattavia ja tulokset vapaasti tiedeyhteisön käytössä tietoverkossa.
The project conducts research in the design, use and interoperability of topic-specific search engines with the goal of developing an open source prototype of a distributed, semantic-based search engine. Existing search engines provide poor foundation for semantic web operations, and US companies such as Google are becoming monopolies, distorting the entire information landscape. Our approach is not the traditional Semantic Web approach with coded or semi-automatically extracted metadata, but rather an engine that can build on content through automatic analysis. Linguistic processing is inside the search engine and a probabilistic document model provides a principled evaluation of relevance to complement existing standard authority scores. This facilitates semantic retrieval and incorporates pre-existing domain ontologies using facilities for import and maintenance. The distributed design is based on exposing search objects as resources, and on using implicit and automatically generated semantics (not ontologies) to distribute queries and merge results. Because semantic expressivity and interoperability are competing goals, developing a system that is both distributed and semantic-based is the key challenge: research involves both the statistical and linguistic format of semantic internals, and determining the extent to which the semantic internals are exposed at the interface. The consortium has assembled a team of leading international researchers from the areas of peer-to-peer computing (P2P), information extraction and search, and probabilistic modeling together with some of Europe's leading SMEs. The combination of design goals, the distributed operation and open source development have been chosen to support incremental growth, third-party involvement, low barrier to entry, and next generation knowledge services so it provides a foundation for European SMEs and be accepted internationally.
Successful proactivity, i.e. anticipation, in varying contexts requires generalization from past experience. Generalization, on its part, requires suitable powerful (stochastic) models and a collection of data about relevant past history to learn the models.
Our goal is to build probabilistic and neural computing-based models that learn from the actions of people to model their intentions and expectations, and use the models for disambiguating the users' vague commands and anticipate their actions. The actions and interests are monitored by measuring eye fixations and movements that exhibit both voluntary and involuntary signs of both the cognitive state of the user and his intentions.
The models will be implemented and incorporated into a software tool offering a platform for applications in a prototype area, proactive information retrieval. The goal of the user, to find relevant pieces of information, is hidden from the system and will be inferred from actions. The models combine information about current actions, past history of actions, and overall interest profiles of several users to make inferences of the current interests and to progressively focus the retrieval. The platform will be applied in several areas, including document search from scientific and other databases, automated helpdesks, and e-learning.
Menestyksellinen proaktiivinen eli ennakoiva toiminta eri ympäristöissä edellyttää kykyä yleistää aikaisempia kokemuksia. Yleistyskyky puolestaan saavutetaan käyttämällä tarkoituksenmukaisia stokastisia malleja ja kokoelmaa historiatietoa josta malleja voidaan oppia.
Projektin tavoitte on rakentaa probabilistisia ja neuraalisia malleja jotka oppivat käyttäjän päämääriä ja toiveita heidän toimintojensa perusteella. Syntyviä malleja käytetään käyttäjiltä saatavien epätäsmällisten syötteiden tulkitsemisessa niin, että heidän toimintaansa voidaan ennakoida. Käyttäjien toimintoja ja mielenkiinnon kohteita monitoroidaan mittaamalla silmien liikkeitä ja pysähdyksiä, jotka antavat sekä tiedostettuja että tiedostamattomia merkkejä käyttäjän kognitiivisesta tilasta ja tavoitteista.
Mallit implementoidaan osaksi ohjelmistoympäristöä joka tarjoaa yleisen toteutusalustan proaktiivisen tiedonhaun sovelluksille. Käyttäjän päämäärä, relevantin tiedon löytäminen, on piilotettu järjestelmältä, ja se opitaan käyttäjän toimenpiteiden perusteella. Mallit yhdistävät tietoa käyttäjän nykyisistä toimenpiteistä, aikaisemmasta toimintahistoriasta ja yleisistä käyttäjäprofiileista, ja tuottavat ennusteen käyttäjän senhetkisen kiinnostuksen kohteesta ja ohjaavat progressiivisesti relevantin tiedon hakua. Ohjelmistoympäristöä testataan lukuisilla sovellusalueilla, kuten esimerkiksi dokumenttien haussa tieteellisistä ja muista vastaavista tietokannoista, automaattisissa käyttäjien tukipalveluissa, ja virtuaalisissa oppimisympäristöissä.
Duration: 2002-
Funding: Academy of Finland
» MINOS Homepage
Duration: 2003-2006
Funding: Academy of Finland
» PROSE Homepage
Duration: 2000-2003
Funding: Academy of Finland
» DeepC Homepage
Duration: 2002-2004
Funding: Kibron Inc.
Duration: 2000-
Funding: Space Systems Finland, European Space Agency (ESA)
Duration: 2000-2002
Funding: Academy of Finland
Duration: 2000-2002
Funding: TEKES, AlmaMedia, Ekahau, BayesIT
» PAI Homepage
Duration: 2000-2001
Funding: European Commission
Duration: 1998-2000
Funding: TEKES, TietoEnator, Kone Corporation, Nokia, BayesIT
» PROMISE Homepage
Duration: 1996-1999
Funding: Academy of Finland
» NONE Homepage
Duration: 1994-1998
Funding: TEKES, Nokia, ABB, Kone Corporation
» HYPE Homepage
Duration: 1994-1995
Funding: TEKES, Kone Corporation
Duration: 1992-1994
Funding: TEKES, Kone Corporation
Duration: 1988-1991
Funding: TEKES, Okobank
University of Helsinki | Department of Computer Science | Helsinki Institute for Information Technology |
cosco@hiit.fi |